PwC Tunisie

Tunisie

Risk (Risk Services Maghreb) - R006/26 - Validation des modèles LLM & Agents IA – Robustesse, Hallucination et Gouvernance

Risk (Risk Services Maghreb) - R006/26 - Validation des modèles LLM & Agents IA – Robustesse, Hallucination et Gouvernance

PwC Tunisie•Tunisie

AI SafetyLLM EvaluationModel Risk ManagementIngénierie des données / MLOpsAI Governance

Publié il y a 21 jours

Stage

⏱️4-6 mois

💼Présentiel

📅Expiré il y a 7 jours

Ce stage n’est pas “le seul”.

Description du poste

Cadrage & état de l’art:

Étudier les risques liés aux LLMs et agents IA: hallucination, biais, dérive, fuites de données.
Identifier les référentiels: EU AI Act, NIST AI RMF, EBA Guidelines.
Recenser les méthodes/outils d’évaluation: DeepEval, PromptBench, TruLens, Giskard.

Définition du framework de validation:

Définir les axes: robustesse, fidélité, sécurité, traçabilité, équité.
Créer une checklist inspirée du Model Risk Management (MRM).

Prototype “LLM Validation Toolkit”:

Développer une librairie Python pour charger des LLMs (API/local), simuler des scénarios, évaluer des métriques (véracité, toxicité, biais, rétention), et générer des rapports (PDF/PowerBI).

Évaluation d’un agent multi-LLM:

Construire un agent (LangChain/CrewAI) type “Risk Analyst Agent”, définir protocole de test, supervision HIL.

Automatisation & industrialisation:

Concevoir un dashboard PowerBI/Streamlit “LLM Validation Center”.

Exigences:

Python; frameworks: LangChain, CrewAI, AutoGen, LlamaIndex.
Évaluation: TruLens, DeepEval, Giskard, OpenAI Evals, Ragas.
Monitoring: MLFlow, EvidentlyAI, PowerBI.
LLMs: OpenAI GPT, Claude, Mistral, Llama.
Référentiels: EU AI Act, NIST AI RMF, EBA SR 11-7.

Durée et effectif:

Durée: 5 mois (Fév – Juin).
Nombre de stagiaires: 1.