Full Remote Factory
Full Remote Factory
Tunisie

RAG 6 FURY - PFE 03 Architecture RAG pour documents de normalisation réglementaire PFE

Traitement documentaireArchitecture RAG & DataIntelligence artificielle (NLP)

Publié il y a 3 jours

Stage
⏱️4-6 mois
💼Hybride
📅Expire dans 11 jours
Tu construis un pipeline, pas un coup de chance.

Description du poste

Contexte et enjeux

  • Institution française de certification traitant un volume important de documents de normalisation français et européens ; près de 100 000 entreprises s’appuient chaque année sur ces référentiels.
  • Objectif : faciliter l’accès aux référentiels normatifs via une recherche IA fiable et contextualisée, garantissant conformité réglementaire, traçabilité et maîtrise des sources.

Objectifs clés du projet

  • Concevoir un assistant IA de type copilot pour les agents de certification, permettant des recherches en langage naturel dans un corpus documentaire complexe, hétérogène et sensible.
  • Garantir la fiabilité et l’actualisation des réponses dans un cadre réglementaire : traçabilité des sources, contrôle des versions et règles de gouvernance du cycle de vie documentaire.

Missions détaillées

  • Cadrage documentaire : identification des corpus cibles, thèmes métiers et typologies de documents (texte, tableaux, images, multicolonnes).
  • Cycle de vie des documents : définition des règles de mise à jour et de gouvernance pour maintenir un RAG (Retrieval-Augmented Generation) toujours à jour.

Architecture et développement

  • Architecture RAG : conception de la stratégie de chunking, indexation et recherche sémantique adaptée aux documents normatifs.
  • Développement : mise en œuvre du moteur RAG, intégration de modèles LLM, et définition des pipelines de traitement documentaire (parsage, OCR si nécessaire, segmentation multi-colonnes).

Sécurité, habilitations et pilotage

  • Copilot IA : conception des mécanismes d’habilitation, sécurité et contrôle d’accès pour protéger les sources sensibles et restreindre les réponses en fonction des droits.
  • Pilotage : définition des KPI et tableaux de bord pour superviser l’usage, la qualité des réponses, la traçabilité et l’amélioration continue.

Livrables attendus

  • Architecture RAG documentée et schématisée.
  • Assistant IA (copilot) fonctionnel intégré aux flux métiers.
  • Index documentaire structuré et stratégie de chunking/indexation décrite.
  • Tableaux de bord & KPI, documentation technique LLM et documentation de traitement documentaire.

Compétences et technologies recherchées

  • Traitement documentaire, recherche sémantique, architecture data et intégration de LLM (RAG, indexation, embeddings).
  • Focus sur sécurité & habilitations, traçabilité des sources, gestion du cycle de vie et reporting par KPI.

Informations complémentaires

  • Durée du stage : 6 mois.
  • Domaine : traitement documentaire, recherche sémantique, IA/NLP, architecture data.