TAC TIC
TAC TIC
Tunisie

SUJET 20 Mettre en place un système intel l igent capable d’automatiser la création de jeux de données thématiques à partir de diverses sources (sites web, APIs , documents…) PFE

Ingénierie des données / MLOpsApprentissage automatiqueCollecte de données / Web scraping

Publié il y a environ 17 heures

Stage
⏱️4-6 mois
💼Hybride
📅Expire dans 13 jours
Tu construis un pipeline, pas un coup de chance.

Description du poste

Contexte et objectif

  • Développer un système intelligent permettant d’automatiser la création de jeux de données thématiques à partir de sources diverses (sites web, APIs, documents).
  • Cible : faciliter la constitution de datasets prêts pour des tâches d’analyse, d’entraînement de modèles ou d’évaluation.

Missions principales

  • Collecte intelligente des données : conception et implémentation de connecteurs pour sites web, APIs et ingestion de documents.
  • Préparation et nettoyage des données : normalisation, gestion des valeurs manquantes, détection et suppression des doublons.
  • Analyse et transformation : extraction de caractéristiques, transformation (tokenisation, vectorisation, etc.) et enrichissement des données.
  • Génération et étiquetage intelligents : mise en place de pipelines d’annotation automatisée et semi-automatique, stratégies d’étiquetage programmatique.
  • Qualité, validation et évaluation : définition de métriques de qualité, tests de robustesse et procédure d’évaluation des jeux de données.

Technologies & contraintes techniques

  • Langages indiqués : Python, JavaScript.
  • Frameworks et outils recommandés : Flask, FastAPI pour les APIs; bibliothèques Python pour le nettoyage et le ML (ex. pandas, scikit-learn, spaCy…).
  • Architecture : conception de pipelines modulaires, APIs pour ingestion/extraction et composants réutilisables pour l’étiquetage.

Profil recherché et compétences

  • Niveau : Bac+5 (stage de fin d’études) avec expérience en ingénierie des données ou apprentissage automatique.
  • Compétences techniques : développement Python, connaissance de frameworks web (Flask/FastAPI), expérience en web scraping/APIs et en traitement/annotation de données.
  • Qualités recherchées : rigueur pour la validation qualité, autonomie dans le développement de pipelines, capacité à documenter et à tester les livrables.

Livrables attendus & organisation

  • Livrables possibles : pipeline d’ingestion automatisée, modules de nettoyage et transformation, composant d’étiquetage automatique, rapport d’évaluation de la qualité des jeux de données.
  • Modalités : stage de 4 à 6 mois (PFE), travail en coordination avec l’équipe pour validation et tests.

Modalités de candidature

  • Candidature via le lien fourni (voir "application_link").