Objectif: Concevoir une plateforme d’archivage intelligent, entièrement open source, pour stocker, analyser et rechercher des millions de documents administratifs (PDF, images, scans).
Principales fonctionnalités:
- Pipeline OCR pour la reconnaissance de texte
- Extraction automatique des métadonnées via NLP
- Moteur de recherche hybride: indexation full-text + recherche sémantique vectorielle
Profil recherché:
- Étudiant en dernière année du cycle ingénieur
- Possible en binôme
Compétences requises:
- MinIO, Tesseract OCR, Apache Tika, FastAPI
- OpenSearch, Metabase
- Qdrant ou Weaviate
Durée: 6 mois