Mise en place d’un moteur OCR intelligent pour extraire et structurer automatiquement les données issues de documents (factures, reçus, cartes).
Objectif : automatiser la reconnaissance, la classification et la saisie des informations afin de réduire la saisie manuelle et améliorer la qualité des données.
Tâches principales à réaliser
Intégrer un moteur OCR (Tesseract ou équivalent) et adapter les pré-/post-traitements pour améliorer la précision sur documents réels.
Développer une logique de classification et d’extraction des champs (détection de zones, correspondance de champs, regex pour validation).
Créer un module d’apprentissage supervisé pour correction des erreurs OCR et amélioration continue du moteur.
Développer une interface de validation et d’export des données (formats exportés, logs, workflows de correction).
Profil recherché et compétences
Étudiant en business intelligence, ERP, ou développement IA intéressé par le traitement de documents et l’automatisation.
Compétences nécessaires : Python, OCR, NLP, PHP, regex, traitement d’image ; connaissance de Tesseract et des bibliothèques de vision (OpenCV, PIL) un plus.
Livrables attendus
Intégration fonctionnelle du moteur OCR et pipeline de traitement des images.
Module de classification/extraction testé sur jeux de données (factures, reçus, cartes) avec métriques de performance.
Module d’apprentissage supervisé pour corrections et interface utilisateur pour validation/export.
Durée et candidature
Durée estimée du projet : 5 à 6 mois (modalité PFE).
Pour postuler : envoyer votre candidature à
recrutement@smoft.tn
et consulter le site : https://www.smoft.io.