TAC TIC

Tunisie

SUJET 21 OCR & Extraction automatique de documents PFE

SUJET 21 OCR & Extraction automatique de documents PFE

TAC TIC•Tunisie

IA / Vision par ordinateurIngénierie des données / MLOpsDéveloppement Backend (Spring Boot)

Publié il y a 7 mois

Stage

⏱️4-6 mois

💼Hybride

💰Rémunéré

📅Expiré il y a 6 mois

Visa: commence par la liste des documents.

Description du poste

Contexte

Projet visant l'extraction automatique de données depuis factures et documents administratifs.
Travail au croisement de la vision par ordinateur et du traitement documentaire pour automatiser des flux métier.

Objectifs du stage

Concevoir et mettre en œuvre une chaîne OCR robuste adaptée aux documents administratifs et factures.
Produire une API (Django) exposant les résultats d'extraction pour intégration dans des systèmes downstream.

Tâches et activités principales

Collecte, nettoyage et annotation d'un jeu de données de factures et documents administratifs.
Entraînement et adaptation de modèles OCR (ex. Paddle OCR), post-traitement des résultats (normalisation, règles métier).
Développement d'une API REST avec Django pour recevoir des documents et retourner les champs extraits.
Mise en place d'un pipeline d'évaluation (métriques d'extraction, précision/champ, recall) et optimisation itérative.

Compétences requises

Maîtrise de Python et des bibliothèques de deep learning/vision (expérience Paddle OCR un plus important).
Connaissances en traitement de texte et règles de parsing (regex, heuristiques) pour l'extraction d'entités.
Bonnes pratiques de développement d'API (Django/DRF), gestion des données et tests.

Environnement technique

Langages et frameworks : Python, Django (API).
Outils OCR/ML : Paddle OCR, frameworks de deep learning habituels (PyTorch/TF selon besoins).
Workflow : annotation de données, entraînement modèle, déploiement d'API, évaluation continue.

Livrables attendus & modalités

Prototype fonctionnel d'extraction automatique capable d'identifier et normaliser les principaux champs (montant, date, fournisseur, etc.).
API Django documentée et exemples d'utilisation (tests, scripts d'intégration).
Rapport de stage présentant méthodologie, résultats d'évaluation et pistes d'amélioration.