IA-02 CONCEPTION ET DÉVELOPPEMENT D'UNE PIPELINE INTELLIGENTE QUI AUTOMATISE LA CRÉATION DE JEUX DE DONNÉES (DATASETS) THÉMATIQUES À PARTIR DE SOURCES VARIÉES PFE
IA-02 CONCEPTION ET DÉVELOPPEMENT D'UNE PIPELINE INTELLIGENTE QUI AUTOMATISE LA CRÉATION DE JEUX DE DONNÉES (DATASETS) THÉMATIQUES À PARTIR DE SOURCES VARIÉES PFE
ACTIA Engineering Services•Tunisie
Ingénierie des données / MLOpsApprentissage automatiqueDéveloppement web (MERN Stack)
Publié il y a 11 jours
Stage
⏱️4-6 mois
💼Présentiel
📅Expire dans 3 jours
Cohérence LinkedIn / CV vérifiée.
Description du poste
Objectif du sujet
Développer un système intelligent capable d’automatiser la création de jeux de données thématiques à partir de sources variées (web, APIs, documents).
Fournir une interface utilisateur intuitive permettant de définir un domaine cible et d’orchestrer la collecte, le nettoyage, la structuration et l’export des données (JSON, CSV) prêts pour l’entraînement de modèles d’IA.
Travaux à réaliser — Collecte et prétraitement
Collecter et acquérir les données de manière intelligente en utilisant des techniques avancées de web scraping et d’intégration d’APIs.
Mettre en place un filtrage initial thématique (ex. topic modeling avec des modèles de langage) pour sélectionner les sources et contenus pertinents.
Travaux à réaliser — Nettoyage, normalisation et modélisation
Nettoyer et normaliser automatiquement les données : détecter et corriger les anomalies, valeurs manquantes et incohérences à l’aide de modèles d’IA (ex. auto-encodeurs, GANs).
Extraire et modéliser les caractéristiques thématiques (feature engineering) en exploitant embeddings et techniques de transfer learning pour identifier les attributs pertinents liés au thème cible.
Annotation et auto-étiquetage
Mettre en œuvre des modèles de classification ou de segmentation (images/vidéos) semi-supervisés pour l’annotation thématique automatisée.
Utiliser des LLMs pour l’auto-étiquetage de textes avec un contrôle qualité automatisé (boucle de vérification/validation).
Validation et assurance qualité du dataset
Évaluer la diversité et la qualité des données générées, mesurer la distribution des classes et détecter les biais via un sous-système d’IA dédié.
Fournir des métriques et rapports d’assurance qualité pour garantir la robustesse des jeux de données produits.
Architecture et déploiement technique
Concevoir une pipeline modulaire (collecte, traitement, annotation, export) déployable via conteneurs et orchestrable en production.
Intégrer des APIs, services backend (Flask/FastAPI/Node.js) et des composants frontend (Angular) pour l’interface utilisateur.
ACTIA Engineering Services - IA-02 CONCEPTION ET DÉVELOPPEMENT D'UNE PIPELINE INTELLIGENTE QUI AUTOMATISE LA CRÉATION DE JEUX DE DONNÉES (DATASETS) THÉMATIQUES À PARTIR DE SOURCES VARIÉES PFE | Hi Interns