Objectif : Concevoir et implémenter un moteur de recherche sémantique de nouvelle génération en exploitant un LLM pré-entraîné pour dépasser la recherche basée mots-clés.
Missions :
Mettre en place un pipeline de traitement pour chunking, nettoyage et prétraitement d'un large corpus.
Générer embeddings vectoriels (Sentence-BERT) pour documents et requêtes.
Indexer dans une base vectorielle (FAISS, Chroma) optimisée pour similarité à grande échelle.
Développer une interface utilisateur offrant des résultats sémantiquement pertinents et une meilleure expérience de recherche.