Objectif du sujet :
- Développer un système intelligent capable d’automatiser la création de jeux de données thématiques à partir de sources variées (web, APIs, documents).
- L’utilisateur définit un domaine cible via une interface intuitive ; le système assure collecte, nettoyage, structuration et export des données en formats standards (JSON, CSV) prêts pour l’entraînement de modèles d’IA.
Travail à faire / Fonctionnalités à implémenter :
- Collecter et acquérir les données de manière intelligente en utilisant des techniques avancées de web scraping et d’intégration d’APIs.
- Mettre en place un filtrage initial basé sur le thème (ex. : topic modeling via modèles de langage) pour sélectionner les sources pertinentes.
- Nettoyer et normaliser automatiquement les données : détection et correction d’anomalies, gestion des valeurs manquantes et incohérences à l’aide de modèles d’IA (ex. auto-encodeurs, GANs).
- Extraire et modéliser les caractéristiques thématiques (feature engineering) en utilisant embeddings et transfert d’apprentissage pour identifier les caractéristiques pertinentes.
- Annotation thématique automatisée : implémenter des modèles de classification/segmentation (images/vidéos) semi-supervisés et utiliser des LLMs pour l’auto-étiquetage de texte avec contrôle qualité automatisé.
- Validation et assurance qualité du dataset : évaluer diversité, mesurer distribution des classes, détecter et rapporter les biais via un sous-système d’IA.
- Exporter les datasets dans des formats standards (JSON, CSV) et préparer pipelines réutilisables pour entraînement de modèles.
Compétences requises & stack technique :
- Maîtrise de Python ; connaissances en JavaScript/TypeScript/Angular pour l’interface utilisateur.
- Frameworks backend possibles : Flask, FastAPI ou Node.js selon l’architecture choisie.
- Expérience avec Docker, Git et GitHub pour le déploiement et la gestion du code.
- Connaissances en NLP, embeddings, transfer learning, modèles génératifs (auto-encodeurs, GANs) et utilisation de LLMs pour annotation.
Livrables attendus et critères d’évaluation :
- Prototype fonctionnel d’une pipeline complète : collecte → nettoyage → annotation → export.
- Interface simple permettant de définir un domaine cible et lancer la génération du dataset.
- Rapport présentant méthodes de filtrage thématique, métriques de qualité (diversité, distribution de classes, biais) et jeux de données produits au format JSON/CSV.
Informations pratiques et candidature :
- Référence : IA-02 — Localisation : Tunis — Durée : 6 MOIS.
- Pour postuler, envoyer votre candidature par email à
aes-stages@actia.com
en indiquant la référence IA-02 et l’intitulé du stage dans l’objet du message.