P Mise en place d’un système Text to SQL basé sur LLM PFE
P Mise en place d’un système Text to SQL basé sur LLM PFE
Unilog•Tunisie
Traitement du Langage Naturel (NLP)Apprentissage automatiqueETL / Ingénierie des données
Publié il y a 7 mois
Stage
⏱️4-6 mois
💼Hybride
📅Expiré il y a 6 mois
Reste lisible (ATS friendly).
Description du poste
Contexte et objectif
Mettre en place un système capable de générer des scripts SQL à partir d’un texte naturel en s’appuyant sur un modèle LLM et une base de connaissance.
L’objectif est de faciliter l’extraction de données et la génération de requêtes pour des utilisateurs non-experts en SQL tout en garantissant la précision et la sécurité des requêtes.
Missions principales
Concevoir et implémenter un pipeline Text-to-SQL utilisant un LLM (prompt engineering, post-traitement) et une base de connaissance pour contextualiser les réponses.
Intégrer des techniques de retrieval-augmented generation (RAG) pour alimenter le LLM avec des informations pertinentes issues de la base de connaissance.
Développer des modules de parsing et de génération de SQL robustes (gestion des jointures, agrégations, conditions, sécurité contre les injections).
Mettre en place des jeux de tests et des métriques d’évaluation (exact match, execution accuracy, robustesse aux reformulations) et réaliser des expérimentations comparatives.
Documenter l’architecture, fournir des exemples d’utilisation et livrer un prototype démontrable (API ou interface simple).
Compétences requises
Maîtrise de Python pour le développement du pipeline et des composants d’intégration.
Expérience ou connaissance pratique des LLM (prompting, fine-tuning ou utilisation d’APIs LLM) et des méthodes RAG.
Notions solides de SQL et d’ingénierie des données pour concevoir des requêtes correctes et optimisées.
Aptitudes à l’évaluation expérimentale : définition de metrics, conception d’expériences, analyse des résultats.
Livrables attendus
Prototype fonctionnel capable de transformer un texte en requête SQL exécutable sur une base de test.
Jeux de tests et rapport d’évaluation comparant différentes approches (prompting, context windows, récupération de documents).
Documentation technique (architecture, mode d’emploi, limites connues) et recommandations pour la mise en production.