Contexte et enjeux
- Institution française de certification traitant un volume important de documents de normalisation français et européens ; près de 100 000 entreprises s’appuient chaque année sur ces référentiels.
- Objectif : faciliter l’accès aux référentiels normatifs via une recherche IA fiable et contextualisée, garantissant conformité réglementaire, traçabilité et maîtrise des sources.
Objectifs clés du projet
- Concevoir un assistant IA de type copilot pour les agents de certification, permettant des recherches en langage naturel dans un corpus documentaire complexe, hétérogène et sensible.
- Garantir la fiabilité et l’actualisation des réponses dans un cadre réglementaire : traçabilité des sources, contrôle des versions et règles de gouvernance du cycle de vie documentaire.
Missions détaillées
- Cadrage documentaire : identification des corpus cibles, thèmes métiers et typologies de documents (texte, tableaux, images, multicolonnes).
- Cycle de vie des documents : définition des règles de mise à jour et de gouvernance pour maintenir un RAG (Retrieval-Augmented Generation) toujours à jour.
Architecture et développement
- Architecture RAG : conception de la stratégie de chunking, indexation et recherche sémantique adaptée aux documents normatifs.
- Développement : mise en œuvre du moteur RAG, intégration de modèles LLM, et définition des pipelines de traitement documentaire (parsage, OCR si nécessaire, segmentation multi-colonnes).
Sécurité, habilitations et pilotage
- Copilot IA : conception des mécanismes d’habilitation, sécurité et contrôle d’accès pour protéger les sources sensibles et restreindre les réponses en fonction des droits.
- Pilotage : définition des KPI et tableaux de bord pour superviser l’usage, la qualité des réponses, la traçabilité et l’amélioration continue.
Livrables attendus
- Architecture RAG documentée et schématisée.
- Assistant IA (copilot) fonctionnel intégré aux flux métiers.
- Index documentaire structuré et stratégie de chunking/indexation décrite.
- Tableaux de bord & KPI, documentation technique LLM et documentation de traitement documentaire.
Compétences et technologies recherchées
- Traitement documentaire, recherche sémantique, architecture data et intégration de LLM (RAG, indexation, embeddings).
- Focus sur sécurité & habilitations, traçabilité des sources, gestion du cycle de vie et reporting par KPI.
Informations complémentaires
- Durée du stage : 6 mois.
- Domaine : traitement documentaire, recherche sémantique, IA/NLP, architecture data.