Mobelite Tunisie
Mobelite Tunisie
Tunisie

11 Agir Planifier Développement d’un système intelligent d’extraction automatique d’informations à partir de documents scannés PFE

Vision par ordinateur embarquéeNLP / Traitement du Langage NaturelDéveloppement Full-Stack (Spring Boot, Angular)

Publié il y a 18 jours

Stage
⏱️4-6 mois
💼Hybride
📅Expiré il y a 4 jours
Cohérence LinkedIn / CV vérifiée.

Description du poste

Contexte et objectifs

  • Les entreprises sont confrontées à un volume croissant de documents administratifs et juridiques (PDF ou image) : factures, contrats, devis, courriers.
  • Objectifs : lire automatiquement un document, identifier et extraire des informations clés (montant, nom, date, référence, clauses…), et structurer ces données pour exploitation par un système tiers (API, base de données…).
  • Durée 6 mois, 2 stagiaires BAC+5 attendus.

Missions principales

  • Concevoir et implémenter une chaîne d’extraction d’informations depuis des documents scannés (prétraitement, OCR, extraction d’entités, structuration).
  • Développer des modules d’IA/NLP pour la reconnaissance d’entités spécifiques (montants, dates, références, clauses) et pour la normalisation des données extraites.
  • Fournir une API ou une interface pour la consommation des données structurées par des systèmes tiers (bases, API REST).

Livrables attendus

  • Prototype fonctionnel capable d’ingérer des PDF/images, d’en extraire des champs clés et de restituer un JSON structuré.
  • Documentation technique et jeux de tests/jeux de données annotés pour évaluer la précision de l’extraction.
  • Démonstration via interface légère (ex. Streamlit) ou endpoint (Flask/FastAPI) et scripts d’intégration vers SQLite/JSON/API.

Profil et compétences recherchées

  • Niveau : Bac+5 (master, école d’ingénieur) avec intérêt pour le traitement de documents, vision par ordinateur et NLP.
  • Compétences techniques : Python, manipulation JSON, bases légères (SQLite), expérience avec frameworks web (Streamlit, Flask, FastAPI) et frameworks front (React/Vue.js) souhaitée.

Technologies et méthodes

  • Outils/techno mentionnés : Python, JSON, SQLite, Streamlit, Flask, FastAPI, React / Vue.js.
  • Approche possible : pipeline OCR + post-traitement NLP (NER, règles heuristiques), entraînement/fine-tuning de modèles, évaluation via métriques d’extraction.

Modalités de candidature

  • Plate-forme de candidature : https://stages.mobelite.fr
  • Préciser dans le dossier le projet visé (numéro 11) et joindre CV + lettre de motivation + éventuels projets ou jeux de données pertinents.
Mobelite Tunisie - 11 Agir Planifier Développement d’un système intelligent d’extraction automatique d’informations à partir de documents scannés PFE | Hi Interns