ACTIA Engineering Services
ACTIA Engineering Services
Tunisie

IA-02 CONCEPTION ET DÉVELOPPEMENT D'UNE PIPELINE INTELLIGENTE QUI AUTOMATISE LA CRÉATION DE JEUX DE DONNÉES (DATASETS) THÉMATIQUES À PARTIR DE SOURCES VARIÉES PFE

Ingénierie des données / MLOpsApprentissage automatiqueDéveloppement logiciel (C++, Python)

Publié il y a 9 jours

Stage
⏱️4-6 mois
💼Présentiel
📅Expire dans 3 jours
Cohérence LinkedIn / CV vérifiée.

Description du poste

Objectif du sujet :

  • Développer un système intelligent capable d’automatiser la création de jeux de données thématiques à partir de sources variées (web, APIs, documents).
  • L’utilisateur définit un domaine cible via une interface intuitive ; le système assure collecte, nettoyage, structuration et export des données en formats standards (JSON, CSV) prêts pour l’entraînement de modèles d’IA.

Travail à faire / Fonctionnalités à implémenter :

  • Collecter et acquérir les données de manière intelligente en utilisant des techniques avancées de web scraping et d’intégration d’APIs.
  • Mettre en place un filtrage initial basé sur le thème (ex. : topic modeling via modèles de langage) pour sélectionner les sources pertinentes.
  • Nettoyer et normaliser automatiquement les données : détection et correction d’anomalies, gestion des valeurs manquantes et incohérences à l’aide de modèles d’IA (ex. auto-encodeurs, GANs).
  • Extraire et modéliser les caractéristiques thématiques (feature engineering) en utilisant embeddings et transfert d’apprentissage pour identifier les caractéristiques pertinentes.
  • Annotation thématique automatisée : implémenter des modèles de classification/segmentation (images/vidéos) semi-supervisés et utiliser des LLMs pour l’auto-étiquetage de texte avec contrôle qualité automatisé.
  • Validation et assurance qualité du dataset : évaluer diversité, mesurer distribution des classes, détecter et rapporter les biais via un sous-système d’IA.
  • Exporter les datasets dans des formats standards (JSON, CSV) et préparer pipelines réutilisables pour entraînement de modèles.

Compétences requises & stack technique :

  • Maîtrise de Python ; connaissances en JavaScript/TypeScript/Angular pour l’interface utilisateur.
  • Frameworks backend possibles : Flask, FastAPI ou Node.js selon l’architecture choisie.
  • Expérience avec Docker, Git et GitHub pour le déploiement et la gestion du code.
  • Connaissances en NLP, embeddings, transfer learning, modèles génératifs (auto-encodeurs, GANs) et utilisation de LLMs pour annotation.

Livrables attendus et critères d’évaluation :

  • Prototype fonctionnel d’une pipeline complète : collecte → nettoyage → annotation → export.
  • Interface simple permettant de définir un domaine cible et lancer la génération du dataset.
  • Rapport présentant méthodes de filtrage thématique, métriques de qualité (diversité, distribution de classes, biais) et jeux de données produits au format JSON/CSV.

Informations pratiques et candidature :

  • Référence : IA-02 — Localisation : Tunis — Durée : 6 MOIS.
  • Pour postuler, envoyer votre candidature par email à aes-stages@actia.com en indiquant la référence IA-02 et l’intitulé du stage dans l’objet du message.
ACTIA Engineering Services - IA-02 CONCEPTION ET DÉVELOPPEMENT D'UNE PIPELINE INTELLIGENTE QUI AUTOMATISE LA CRÉATION DE JEUX DE DONNÉES (DATASETS) THÉMATIQUES À PARTIR DE SOURCES VARIÉES PFE | Hi Interns