Contexte et objectifs
- Construire une base de connaissances requêtable et un ChatBot basé sur un LLM capable de répondre en langage naturel avec des références aux sources d’information.
- Agréger, prétraiter et indexer différentes sources de données : documents PDF, PPT, pages HTML, fiches JIRA, fils de discussion email, et vidéos de webinaires/démos afin de rendre le contenu interrogeable.
Tâches principales et livrables attendus
- Conception et mise en œuvre d’un pipeline d’agrégation, prétraitement (OCR/transcription si besoin), extraction de métadonnées et d’indexation des sources hétérogènes.
- Développement d’un mécanisme de recherche/récupération pertinent (RAG / retrieval) et intégration avec un LLM pour la formulation de réponses en langage naturel accompagnées de liens ou citations vers les sources.
- Livrables : code source, base de connaissances indexée, démonstrateur/chatbot opérationnel, documentation technique et rapport de PFE.
Aspects techniques et compétences
- Technologies citées : Java SE, Java EE, Web. Compétences attendues : traitement du langage naturel (NLP), compréhension et intégration de LLM.
- Travaux typiques : traitement de documents (PDF/PPT/HTML), ingestion de tickets JIRA et d’emails, transcription et indexation de contenus vidéos, mise en place d’un moteur d’indexation et d’un front de requêtage.
- Prérequis : Optionnel / à Acquérir — esprit d’initiative sur des briques NLP/LLM et volonté d’apprendre des outils d’indexation et d’IR.
Encadrement, durée et modalités
- Durée : 6 mois.
- Encadrement : 1 encadrant local en Tunisie et 1 encadrant à distance en France.
- Modalités : travail hybride possible selon besoin d’accès aux sources et encadrement local/à distance.
Évaluation et critères de réussite
- Qualité des réponses générées par le chatbot (pertinence, cohérence) et capacité à fournir des références/source links précises.
- Robustesse du pipeline d’ingestion et de l’indexation sur les différentes sources (PDF, PPT, HTML, JIRA, emails, vidéos).
Candidature
- Pour postuler, envoyer CV et lettre de motivation à
recrutement.tunisie@docaposte.fr
en précisant l’objet : "Candidature PFE - Sujet 1 : Base de Connaissances Basée-LLM".