Mobelite Tunisie

Tunisie

11 Agir Planifier Développement d’un système intelligent d’extraction automatique d’informations à partir de documents scannés PFE

11 Agir Planifier Développement d’un système intelligent d’extraction automatique d’informations à partir de documents scannés PFE

Mobelite Tunisie•Tunisie

Vision par ordinateur embarquéeNLP / Traitement du Langage NaturelDéveloppement Full-Stack (Spring Boot, Angular)

Publié il y a 8 mois

Stage

⏱️4-6 mois

💼Hybride

📅Expiré il y a 7 mois

Visa: commence par la liste des documents.

Description du poste

Contexte et objectifs

Les entreprises sont confrontées à un volume croissant de documents administratifs et juridiques (PDF ou image) : factures, contrats, devis, courriers.
Objectifs : lire automatiquement un document, identifier et extraire des informations clés (montant, nom, date, référence, clauses…), et structurer ces données pour exploitation par un système tiers (API, base de données…).
Durée 6 mois, 2 stagiaires BAC+5 attendus.

Missions principales

Concevoir et implémenter une chaîne d’extraction d’informations depuis des documents scannés (prétraitement, OCR, extraction d’entités, structuration).
Développer des modules d’IA/NLP pour la reconnaissance d’entités spécifiques (montants, dates, références, clauses) et pour la normalisation des données extraites.
Fournir une API ou une interface pour la consommation des données structurées par des systèmes tiers (bases, API REST).

Livrables attendus

Prototype fonctionnel capable d’ingérer des PDF/images, d’en extraire des champs clés et de restituer un JSON structuré.
Documentation technique et jeux de tests/jeux de données annotés pour évaluer la précision de l’extraction.
Démonstration via interface légère (ex. Streamlit) ou endpoint (Flask/FastAPI) et scripts d’intégration vers SQLite/JSON/API.

Profil et compétences recherchées

Niveau : Bac+5 (master, école d’ingénieur) avec intérêt pour le traitement de documents, vision par ordinateur et NLP.
Compétences techniques : Python, manipulation JSON, bases légères (SQLite), expérience avec frameworks web (Streamlit, Flask, FastAPI) et frameworks front (React/Vue.js) souhaitée.

Technologies et méthodes

Outils/techno mentionnés : Python, JSON, SQLite, Streamlit, Flask, FastAPI, React / Vue.js.
Approche possible : pipeline OCR + post-traitement NLP (NER, règles heuristiques), entraînement/fine-tuning de modèles, évaluation via métriques d’extraction.

Modalités de candidature

Plate-forme de candidature : https://stages.mobelite.fr
Préciser dans le dossier le projet visé (numéro 11) et joindre CV + lettre de motivation + éventuels projets ou jeux de données pertinents.