TAC TIC
TAC TIC
Tunisie

SUJET 21 OCR & Extraction automatique de documents PFE

IA / Vision par ordinateurIngénierie des données / MLOpsDéveloppement Backend (Spring Boot)

Publié il y a environ 17 heures

Stage
⏱️4-6 mois
💼Hybride
💰Rémunéré
📅Expire dans 13 jours
Tu construis un pipeline, pas un coup de chance.

Description du poste

Contexte

  • Projet visant l'extraction automatique de données depuis factures et documents administratifs.
  • Travail au croisement de la vision par ordinateur et du traitement documentaire pour automatiser des flux métier.

Objectifs du stage

  • Concevoir et mettre en œuvre une chaîne OCR robuste adaptée aux documents administratifs et factures.
  • Produire une API (Django) exposant les résultats d'extraction pour intégration dans des systèmes downstream.

Tâches et activités principales

  • Collecte, nettoyage et annotation d'un jeu de données de factures et documents administratifs.
  • Entraînement et adaptation de modèles OCR (ex. Paddle OCR), post-traitement des résultats (normalisation, règles métier).
  • Développement d'une API REST avec Django pour recevoir des documents et retourner les champs extraits.
  • Mise en place d'un pipeline d'évaluation (métriques d'extraction, précision/champ, recall) et optimisation itérative.

Compétences requises

  • Maîtrise de Python et des bibliothèques de deep learning/vision (expérience Paddle OCR un plus important).
  • Connaissances en traitement de texte et règles de parsing (regex, heuristiques) pour l'extraction d'entités.
  • Bonnes pratiques de développement d'API (Django/DRF), gestion des données et tests.

Environnement technique

  • Langages et frameworks : Python, Django (API).
  • Outils OCR/ML : Paddle OCR, frameworks de deep learning habituels (PyTorch/TF selon besoins).
  • Workflow : annotation de données, entraînement modèle, déploiement d'API, évaluation continue.

Livrables attendus & modalités

  • Prototype fonctionnel d'extraction automatique capable d'identifier et normaliser les principaux champs (montant, date, fournisseur, etc.).
  • API Django documentée et exemples d'utilisation (tests, scripts d'intégration).
  • Rapport de stage présentant méthodologie, résultats d'évaluation et pistes d'amélioration.
TAC TIC - SUJET 21 OCR & Extraction automatique de documents PFE | Hi Interns | Hi Interns