PwC Tunisie
PwC Tunisie
Tunisie

Risk (Risk Services Maghreb) - R006/26 - Validation des modèles LLM & Agents IA – Robustesse, Hallucination et Gouvernance

AI SafetyLLM EvaluationModel Risk ManagementIngénierie des données / MLOpsAI Governance

Publié il y a environ 23 heures

Stage
⏱️4-6 mois
💼Présentiel
📅Expire dans 13 jours
Garde “cv-main.pdf” + variantes ciblées.

Description du poste

Cadrage & état de l’art:

  • Étudier les risques liés aux LLMs et agents IA: hallucination, biais, dérive, fuites de données.
  • Identifier les référentiels: EU AI Act, NIST AI RMF, EBA Guidelines.
  • Recenser les méthodes/outils d’évaluation: DeepEval, PromptBench, TruLens, Giskard.

Définition du framework de validation:

  • Définir les axes: robustesse, fidélité, sécurité, traçabilité, équité.
  • Créer une checklist inspirée du Model Risk Management (MRM).

Prototype “LLM Validation Toolkit”:

  • Développer une librairie Python pour charger des LLMs (API/local), simuler des scénarios, évaluer des métriques (véracité, toxicité, biais, rétention), et générer des rapports (PDF/PowerBI).

Évaluation d’un agent multi-LLM:

  • Construire un agent (LangChain/CrewAI) type “Risk Analyst Agent”, définir protocole de test, supervision HIL.

Automatisation & industrialisation:

  • Concevoir un dashboard PowerBI/Streamlit “LLM Validation Center”.

Exigences:

  • Python; frameworks: LangChain, CrewAI, AutoGen, LlamaIndex.
  • Évaluation: TruLens, DeepEval, Giskard, OpenAI Evals, Ragas.
  • Monitoring: MLFlow, EvidentlyAI, PowerBI.
  • LLMs: OpenAI GPT, Claude, Mistral, Llama.
  • Référentiels: EU AI Act, NIST AI RMF, EBA SR 11-7.

Durée et effectif:

  • Durée: 5 mois (Fév – Juin).
  • Nombre de stagiaires: 1.