PwC Tunisie - DigiTech (AI Factory) - Évaluation avancée des systèmes IA & agents (LLM-as-a-Judge, observabilité, métriques, Langfuse) | Hi Interns

Description du poste

Objectif du stage: Concevoir un cadre d’évaluation unifié pour systèmes IA & agents combinant LLM-as-a-Judge, observabilité (Langfuse), métriques de performance et protocoles anti-biais.

Missions:

Implémenter le jugement par LLM (rubrics, pairwise, agrégation)
Instrumenter Langfuse pour tracing, télémétrie, alerting
Définir des métriques (qualité, robustesse, coût, latence)
Créer des jeux de tests hybrides et protocoles anti-biais
Analyser les erreurs et proposer des améliorations
Livrables: benchmark reproductible, tableau de bord, rapport technique

Exigences:

Ingéniorat
IA, LLM, Workflow, BI

Durée: 6 mois Nombre de stagiaires: 1