Unilog

Tunisie

P Mise en place d’un système de documentation d’un code basé sur LLM PFE

P Mise en place d’un système de documentation d’un code basé sur LLM PFE

Unilog•Tunisie

Python & C#NLP/NLU et LLMVector

Publié il y a 8 mois

Stage

⏱️3 mois

💼Hybride

📅Expiré il y a 8 mois

Visa: commence par la liste des documents.

Description du poste

Contexte et objectif

Le sujet consiste à mettre en place un système permettant de générer une documentation technique et fonctionnelle d’un code large en se basant sur un LLM.
L’objectif est d’automatiser l’extraction d’informations depuis un dépôt de code (fichiers sources, commentaires, tests) pour produire des synthèses exploitables par des développeurs et des parties prenantes.

Missions principales

Concevoir et implémenter un pipeline d’ingestion du code (parsing, normalisation, segmentation) et de génération d’embeddings pour stockage dans une base vectorielle.
Développer les composants de recherche et de récupération (retrieval) et les prompts/pipelines de génération pour produire la documentation technique et fonctionnelle.

Livrables attendus

Prototype fonctionnel capable d’ingérer un large codebase, d’indexer les fragments pertinents et de générer des documents (résumés de modules, API, guides d’utilisation).
Documentation du système, tests et démonstration (exemples d’entrée/sortie) permettant d’évaluer la qualité des documents générés.

Compétences requises

Maîtrise de Python pour la construction du pipeline et l’intégration des modèles LLM.
Connaissance des LLM (utilisation d’API / modèles open-source) et des techniques de prompt engineering.
Expérience avec les bases vectorielles / embeddings (Vector DB) et méthodes de retrieval.

Contraintes techniques et qualité

Gestion de code “large”: découpage en chunks pertinents, maintien du contexte et stratégie de regroupement pour éviter la perte d’information.
Évaluation de la qualité (métriques qualitatives et quantitatives), robustesse aux différents langages présents et performance du système.

Informations administratives et candidature

Compétences demandées indiquées : Python, LLM, Vector.
Nombre de positions : 2 — Référence : AI03.
Pour postuler : https://tally.so/r/3jOxk4