ACTIA Engineering Services
ACTIA Engineering Services
Tunisie

IA-02 CONCEPTION ET DÉVELOPPEMENT D'UNE PIPELINE INTELLIGENTE QUI AUTOMATISE LA CRÉATION DE JEUX DE DONNÉES (DATASETS) THÉMATIQUES À PARTIR DE SOURCES VARIÉES PFE

Ingénierie des données / MLOpsApprentissage automatiqueDéveloppement web (MERN Stack)

Publié il y a 11 jours

Stage
⏱️4-6 mois
💼Présentiel
📅Expire dans 3 jours
Cohérence LinkedIn / CV vérifiée.

Description du poste

Objectif du sujet

  • Développer un système intelligent capable d’automatiser la création de jeux de données thématiques à partir de sources variées (web, APIs, documents).
  • Fournir une interface utilisateur intuitive permettant de définir un domaine cible et d’orchestrer la collecte, le nettoyage, la structuration et l’export des données (JSON, CSV) prêts pour l’entraînement de modèles d’IA.

Travaux à réaliser — Collecte et prétraitement

  • Collecter et acquérir les données de manière intelligente en utilisant des techniques avancées de web scraping et d’intégration d’APIs.
  • Mettre en place un filtrage initial thématique (ex. topic modeling avec des modèles de langage) pour sélectionner les sources et contenus pertinents.

Travaux à réaliser — Nettoyage, normalisation et modélisation

  • Nettoyer et normaliser automatiquement les données : détecter et corriger les anomalies, valeurs manquantes et incohérences à l’aide de modèles d’IA (ex. auto-encodeurs, GANs).
  • Extraire et modéliser les caractéristiques thématiques (feature engineering) en exploitant embeddings et techniques de transfer learning pour identifier les attributs pertinents liés au thème cible.

Annotation et auto-étiquetage

  • Mettre en œuvre des modèles de classification ou de segmentation (images/vidéos) semi-supervisés pour l’annotation thématique automatisée.
  • Utiliser des LLMs pour l’auto-étiquetage de textes avec un contrôle qualité automatisé (boucle de vérification/validation).

Validation et assurance qualité du dataset

  • Évaluer la diversité et la qualité des données générées, mesurer la distribution des classes et détecter les biais via un sous-système d’IA dédié.
  • Fournir des métriques et rapports d’assurance qualité pour garantir la robustesse des jeux de données produits.

Architecture et déploiement technique

  • Concevoir une pipeline modulaire (collecte, traitement, annotation, export) déployable via conteneurs et orchestrable en production.
  • Intégrer des APIs, services backend (Flask/FastAPI/Node.js) et des composants frontend (Angular) pour l’interface utilisateur.

Compétences requises & stack technique

  • Langages et frameworks : Python, JavaScript/TypeScript, Angular, Flask / FastAPI / Node.js.
  • Outils et pratiques : Docker, Git/GitHub, techniques de NLP (embeddings, topic modeling), deep learning (auto-encodeurs, GANs), LLMs.

Modalités & contact

  • Référence : REF:IA-02 — Lieu : Tunis — Durée indiquée sur l’annonce : 6 mois (voir modalités de stage).
  • Pour postuler : envoyer candidature et CV à l’adresse suivante : aes-stages@ACTIA.COM .
ACTIA Engineering Services - IA-02 CONCEPTION ET DÉVELOPPEMENT D'UNE PIPELINE INTELLIGENTE QUI AUTOMATISE LA CRÉATION DE JEUX DE DONNÉES (DATASETS) THÉMATIQUES À PARTIR DE SOURCES VARIÉES PFE | Hi Interns