Objectif du stage: Concevoir un cadre d’évaluation unifié pour systèmes IA & agents combinant LLM-as-a-Judge, observabilité (Langfuse), métriques de performance et protocoles anti-biais.
Missions:
- Implémenter le jugement par LLM (rubrics, pairwise, agrégation)
- Instrumenter Langfuse pour tracing, télémétrie, alerting
- Définir des métriques (qualité, robustesse, coût, latence)
- Créer des jeux de tests hybrides et protocoles anti-biais
- Analyser les erreurs et proposer des améliorations
- Livrables: benchmark reproductible, tableau de bord, rapport technique
Exigences:
- Ingéniorat
- IA, LLM, Workflow, BI
Durée: 6 mois Nombre de stagiaires: 1