Hi Interns
Mon Espace
Stages & Alternances
Hi Resume
Hi Agent
Programme Mobility
Se connecter
Retour
TAC TIC
Tunisie
SUJET 21 OCR & Extraction automatique de documents PFE
SUJET 21 OCR & Extraction automatique de documents PFE
TAC TIC
•
Tunisie
IA / Vision par ordinateur
Ingénierie des données / MLOps
Développement Backend (Spring Boot)
Publié il y a environ 17 heures
Stage
⏱️
4-6 mois
💼
Hybride
💰
Rémunéré
📅
Expire dans 13 jours
Tu construis un pipeline, pas un coup de chance.
Description du poste
Contexte
Projet visant l'extraction automatique de données depuis factures et documents administratifs.
Travail au croisement de la vision par ordinateur et du traitement documentaire pour automatiser des flux métier.
Objectifs du stage
Concevoir et mettre en œuvre une chaîne OCR robuste adaptée aux documents administratifs et factures.
Produire une API (Django) exposant les résultats d'extraction pour intégration dans des systèmes downstream.
Tâches et activités principales
Collecte, nettoyage et annotation d'un jeu de données de factures et documents administratifs.
Entraînement et adaptation de modèles OCR (ex. Paddle OCR), post-traitement des résultats (normalisation, règles métier).
Développement d'une API REST avec Django pour recevoir des documents et retourner les champs extraits.
Mise en place d'un pipeline d'évaluation (métriques d'extraction, précision/champ, recall) et optimisation itérative.
Compétences requises
Maîtrise de Python et des bibliothèques de deep learning/vision (expérience Paddle OCR un plus important).
Connaissances en traitement de texte et règles de parsing (regex, heuristiques) pour l'extraction d'entités.
Bonnes pratiques de développement d'API (Django/DRF), gestion des données et tests.
Environnement technique
Langages et frameworks : Python, Django (API).
Outils OCR/ML : Paddle OCR, frameworks de deep learning habituels (PyTorch/TF selon besoins).
Workflow : annotation de données, entraînement modèle, déploiement d'API, évaluation continue.
Livrables attendus & modalités
Prototype fonctionnel d'extraction automatique capable d'identifier et normaliser les principaux champs (montant, date, fournisseur, etc.).
API Django documentée et exemples d'utilisation (tests, scripts d'intégration).
Rapport de stage présentant méthodologie, résultats d'évaluation et pistes d'amélioration.
En savoir plus
Envoyer ma candidature
Sauvegarder
Partager le stage
TAC TIC - SUJET 21 OCR & Extraction automatique de documents PFE | Hi Interns | Hi Interns