Unilog
Unilog
Tunisie

P Mise en place d’un système Text to SQL basé sur LLM PFE

Traitement du Langage Naturel (NLP)Apprentissage automatiqueETL / Ingénierie des données

Publié il y a 7 mois

Stage
⏱️4-6 mois
💼Hybride
📅Expiré il y a 6 mois
Reste lisible (ATS friendly).

Description du poste

Contexte et objectif

  • Mettre en place un système capable de générer des scripts SQL à partir d’un texte naturel en s’appuyant sur un modèle LLM et une base de connaissance.
  • L’objectif est de faciliter l’extraction de données et la génération de requêtes pour des utilisateurs non-experts en SQL tout en garantissant la précision et la sécurité des requêtes.

Missions principales

  • Concevoir et implémenter un pipeline Text-to-SQL utilisant un LLM (prompt engineering, post-traitement) et une base de connaissance pour contextualiser les réponses.
  • Intégrer des techniques de retrieval-augmented generation (RAG) pour alimenter le LLM avec des informations pertinentes issues de la base de connaissance.
  • Développer des modules de parsing et de génération de SQL robustes (gestion des jointures, agrégations, conditions, sécurité contre les injections).
  • Mettre en place des jeux de tests et des métriques d’évaluation (exact match, execution accuracy, robustesse aux reformulations) et réaliser des expérimentations comparatives.
  • Documenter l’architecture, fournir des exemples d’utilisation et livrer un prototype démontrable (API ou interface simple).

Compétences requises

  • Maîtrise de Python pour le développement du pipeline et des composants d’intégration.
  • Expérience ou connaissance pratique des LLM (prompting, fine-tuning ou utilisation d’APIs LLM) et des méthodes RAG.
  • Notions solides de SQL et d’ingénierie des données pour concevoir des requêtes correctes et optimisées.
  • Aptitudes à l’évaluation expérimentale : définition de metrics, conception d’expériences, analyse des résultats.

Livrables attendus

  • Prototype fonctionnel capable de transformer un texte en requête SQL exécutable sur une base de test.
  • Jeux de tests et rapport d’évaluation comparant différentes approches (prompting, context windows, récupération de documents).
  • Documentation technique (architecture, mode d’emploi, limites connues) et recommandations pour la mise en production.

Informations pratiques

  • Compétences listées sur l’offre : Python, LLM.
  • Nombre de positions : 2.
  • Référence du projet : AI02.

Candidature

  • Pour postuler, utilisez le formulaire suivant : https://tally.so/r/3jOxk4
  • Précisez dans votre candidature votre expérience sur des projets LLM/SQL, exemples de réalisations et disponibilité.