Cadrage & état de l’art:
- Étudier les risques liés aux LLMs et agents IA: hallucination, biais, dérive, fuites de données.
- Identifier les référentiels: EU AI Act, NIST AI RMF, EBA Guidelines.
- Recenser les méthodes/outils d’évaluation: DeepEval, PromptBench, TruLens, Giskard.
Définition du framework de validation:
- Définir les axes: robustesse, fidélité, sécurité, traçabilité, équité.
- Créer une checklist inspirée du Model Risk Management (MRM).
Prototype “LLM Validation Toolkit”:
- Développer une librairie Python pour charger des LLMs (API/local), simuler des scénarios, évaluer des métriques (véracité, toxicité, biais, rétention), et générer des rapports (PDF/PowerBI).
Évaluation d’un agent multi-LLM:
- Construire un agent (LangChain/CrewAI) type “Risk Analyst Agent”, définir protocole de test, supervision HIL.
Automatisation & industrialisation:
- Concevoir un dashboard PowerBI/Streamlit “LLM Validation Center”.
Exigences:
- Python; frameworks: LangChain, CrewAI, AutoGen, LlamaIndex.
- Évaluation: TruLens, DeepEval, Giskard, OpenAI Evals, Ragas.
- Monitoring: MLFlow, EvidentlyAI, PowerBI.
- LLMs: OpenAI GPT, Claude, Mistral, Llama.
- Référentiels: EU AI Act, NIST AI RMF, EBA SR 11-7.
Durée et effectif:
- Durée: 5 mois (Fév – Juin).
- Nombre de stagiaires: 1.