ST2i - DEV - Conception et déploiement d’une plateforme d’archivage intelligent et de recherche avancée pour documents administratifs à grande échelle | Hi Interns

Description du poste

Objectif: Concevoir une plateforme d’archivage intelligent, entièrement open source, pour stocker, analyser et rechercher des millions de documents administratifs (PDF, images, scans).

Principales fonctionnalités:

Pipeline OCR pour la reconnaissance de texte
Extraction automatique des métadonnées via NLP
Moteur de recherche hybride: indexation full-text + recherche sémantique vectorielle

Profil recherché:

Étudiant en dernière année du cycle ingénieur
Possible en binôme

Compétences requises:

MinIO, Tesseract OCR, Apache Tika, FastAPI
OpenSearch, Metabase
Qdrant ou Weaviate

Durée: 6 mois