TAC TIC - SUJET 20 Mettre en place un système intel l igent capable d’automatiser la création de jeux de données thématiques à partir de diverses sources (sites web, APIs , documents…) PFE | Hi Interns

Développer un système intelligent permettant d’automatiser la création de jeux de données thématiques à partir de sources diverses (sites web, APIs, documents).
Cible : faciliter la constitution de datasets prêts pour des tâches d’analyse, d’entraînement de modèles ou d’évaluation.

Collecte intelligente des données : conception et implémentation de connecteurs pour sites web, APIs et ingestion de documents.
Préparation et nettoyage des données : normalisation, gestion des valeurs manquantes, détection et suppression des doublons.
Analyse et transformation : extraction de caractéristiques, transformation (tokenisation, vectorisation, etc.) et enrichissement des données.
Génération et étiquetage intelligents : mise en place de pipelines d’annotation automatisée et semi-automatique, stratégies d’étiquetage programmatique.
Qualité, validation et évaluation : définition de métriques de qualité, tests de robustesse et procédure d’évaluation des jeux de données.

Langages indiqués : Python, JavaScript.
Frameworks et outils recommandés : Flask, FastAPI pour les APIs; bibliothèques Python pour le nettoyage et le ML (ex. pandas, scikit-learn, spaCy…).
Architecture : conception de pipelines modulaires, APIs pour ingestion/extraction et composants réutilisables pour l’étiquetage.

Niveau : Bac+5 (stage de fin d’études) avec expérience en ingénierie des données ou apprentissage automatique.
Compétences techniques : développement Python, connaissance de frameworks web (Flask/FastAPI), expérience en web scraping/APIs et en traitement/annotation de données.
Qualités recherchées : rigueur pour la validation qualité, autonomie dans le développement de pipelines, capacité à documenter et à tester les livrables.

Livrables possibles : pipeline d’ingestion automatisée, modules de nettoyage et transformation, composant d’étiquetage automatique, rapport d’évaluation de la qualité des jeux de données.
Modalités : stage de 4 à 6 mois (PFE), travail en coordination avec l’équipe pour validation et tests.

SUJET 20 Mettre en place un système intel l igent capable d’automatiser la création de jeux de données thématiques à partir de diverses sources (sites web, APIs , documents…) PFE