ACTIA Engineering Services - IA-02 CONCEPTION ET DÉVELOPPEMENT D'UNE PIPELINE INTELLIGENTE QUI AUTOMATISE LA CRÉATION DE JEUX DE DONNÉES (DATASETS) THÉMATIQUES À PARTIR DE SOURCES VARIÉES PFE | Hi Interns

Objectif du sujet :

Développer un système intelligent capable d’automatiser la création de jeux de données thématiques à partir de sources variées (web, APIs, documents).
L’utilisateur définit un domaine cible via une interface intuitive ; le système assure collecte, nettoyage, structuration et export des données en formats standards (JSON, CSV) prêts pour l’entraînement de modèles d’IA.

Travail à faire / Fonctionnalités à implémenter :

Collecter et acquérir les données de manière intelligente en utilisant des techniques avancées de web scraping et d’intégration d’APIs.
Mettre en place un filtrage initial basé sur le thème (ex. : topic modeling via modèles de langage) pour sélectionner les sources pertinentes.
Nettoyer et normaliser automatiquement les données : détection et correction d’anomalies, gestion des valeurs manquantes et incohérences à l’aide de modèles d’IA (ex. auto-encodeurs, GANs).
Extraire et modéliser les caractéristiques thématiques (feature engineering) en utilisant embeddings et transfert d’apprentissage pour identifier les caractéristiques pertinentes.
Annotation thématique automatisée : implémenter des modèles de classification/segmentation (images/vidéos) semi-supervisés et utiliser des LLMs pour l’auto-étiquetage de texte avec contrôle qualité automatisé.
Validation et assurance qualité du dataset : évaluer diversité, mesurer distribution des classes, détecter et rapporter les biais via un sous-système d’IA.
Exporter les datasets dans des formats standards (JSON, CSV) et préparer pipelines réutilisables pour entraînement de modèles.

Compétences requises & stack technique :

Maîtrise de Python ; connaissances en JavaScript/TypeScript/Angular pour l’interface utilisateur.
Frameworks backend possibles : Flask, FastAPI ou Node.js selon l’architecture choisie.
Expérience avec Docker, Git et GitHub pour le déploiement et la gestion du code.
Connaissances en NLP, embeddings, transfer learning, modèles génératifs (auto-encodeurs, GANs) et utilisation de LLMs pour annotation.

Livrables attendus et critères d’évaluation :

Prototype fonctionnel d’une pipeline complète : collecte → nettoyage → annotation → export.
Interface simple permettant de définir un domaine cible et lancer la génération du dataset.
Rapport présentant méthodes de filtrage thématique, métriques de qualité (diversité, distribution de classes, biais) et jeux de données produits au format JSON/CSV.

Informations pratiques et candidature :

Référence : IA-02 — Localisation : Tunis — Durée : 6 MOIS.
Pour postuler, envoyer votre candidature par email à aes-stages@actia.com en indiquant la référence IA-02 et l’intitulé du stage dans l’objet du message.

IA-02 CONCEPTION ET DÉVELOPPEMENT D'UNE PIPELINE INTELLIGENTE QUI AUTOMATISE LA CRÉATION DE JEUX DE DONNÉES (DATASETS) THÉMATIQUES À PARTIR DE SOURCES VARIÉES PFE