ETC Tunisie
ETC Tunisie
Tunisie

#03 - Système de Détection de Doublons avec Intelligence Artificielle

IA générative / Machine LearningData MatchingAI & Data EngineeringRecherche full-textSoftware Engineering (Python)Qualité des données / ValidationBackend (SpringBoot)Frontend/UXBig Data / Data ScienceNLP & Similarité

Publié il y a 6 jours

Stage
⏱️3-6 mois
💼Présentiel
📅Expire dans 8 jours
Intègre les mots-clés de l’offre.

Description du poste

Objectif du projet

  • Développer un système intelligent de détection et fusion de doublons (contacts, clients, produits, entreprises) basé sur des algorithmes de similarité avancés et du machine learning, capable d’apprendre grâce au feedback utilisateur.

Fonctionnalités attendues

  • Algorithmes de similarité multi-critères: Levenshtein, Soundex, Metaphone, Jaro-Winkler
  • Scoring de confiance: 0–100% avec pondérations configurables (nom, email, téléphone, adresse, date de naissance)
  • Détection contextuelle: règles adaptées Individus vs Entreprises vs Produits
  • Interface de fusion intelligente: vue side-by-side, sélection champ par champ, preview
  • Matching automatique haute confiance: >95% → fusion proposée auto (validation optionnelle)
  • Machine Learning supervisé: apprentissage à partir des fusions validées/rejetées
  • API temps réel: détection à la saisie avec suggestions
  • Batch processing: scan complet de base pour doublons potentiels
  • Rapport de déduplication: stats détaillées, qualité avant/après, gain d’espace
  • Historique & rollback: traçabilité et restauration possible
  • Configuration par entité: règles différenciées (B2C, B2B, produits)

Compétences développées

  • Algorithmes de similarité & fuzzy matching
  • Machine Learning (classification binaire)
  • Elasticsearch & indexation full-text
  • Qualité des données (data cleansing)
  • UX complexe (comparaison/fusion)
  • Batch processing à grande échelle

Technologies suggérées

  • Python (Flask / FastAPI), Scikit-learn / TensorFlow
  • Pandas / NumPy, FuzzyWuzzy / RapidFuzz
  • Elasticsearch, Redis, PostgreSQL
  • Angular / Vue.js, Docker