Contexte et objectif
- Le sujet consiste à mettre en place un système permettant de générer une documentation technique et fonctionnelle d’un code large en se basant sur un LLM.
- L’objectif est d’automatiser l’extraction d’informations depuis un dépôt de code (fichiers sources, commentaires, tests) pour produire des synthèses exploitables par des développeurs et des parties prenantes.
Missions principales
- Concevoir et implémenter un pipeline d’ingestion du code (parsing, normalisation, segmentation) et de génération d’embeddings pour stockage dans une base vectorielle.
- Développer les composants de recherche et de récupération (retrieval) et les prompts/pipelines de génération pour produire la documentation technique et fonctionnelle.
Livrables attendus
- Prototype fonctionnel capable d’ingérer un large codebase, d’indexer les fragments pertinents et de générer des documents (résumés de modules, API, guides d’utilisation).
- Documentation du système, tests et démonstration (exemples d’entrée/sortie) permettant d’évaluer la qualité des documents générés.
Compétences requises
- Maîtrise de Python pour la construction du pipeline et l’intégration des modèles LLM.
- Connaissance des LLM (utilisation d’API / modèles open-source) et des techniques de prompt engineering.
- Expérience avec les bases vectorielles / embeddings (Vector DB) et méthodes de retrieval.
Contraintes techniques et qualité
- Gestion de code “large”: découpage en chunks pertinents, maintien du contexte et stratégie de regroupement pour éviter la perte d’information.
- Évaluation de la qualité (métriques qualitatives et quantitatives), robustesse aux différents langages présents et performance du système.
Informations administratives et candidature
- Compétences demandées indiquées : Python, LLM, Vector.
- Nombre de positions : 2 — Référence : AI03.
- Pour postuler : https://tally.so/r/3jOxk4