SUJET 20 Mettre en place un système intel l igent capable d’automatiser la création de jeux de données thématiques à partir de diverses sources (sites web, APIs , documents…) PFE
SUJET 20 Mettre en place un système intel l igent capable d’automatiser la création de jeux de données thématiques à partir de diverses sources (sites web, APIs , documents…) PFE
TAC TIC•Tunisie
Ingénierie des données / MLOpsApprentissage automatiqueCollecte de données / Web scraping
Publié il y a environ 17 heures
Stage
⏱️4-6 mois
💼Hybride
📅Expire dans 13 jours
Tu construis un pipeline, pas un coup de chance.
Description du poste
Contexte et objectif
Développer un système intelligent permettant d’automatiser la création de jeux de données thématiques à partir de sources diverses (sites web, APIs, documents).
Cible : faciliter la constitution de datasets prêts pour des tâches d’analyse, d’entraînement de modèles ou d’évaluation.
Missions principales
Collecte intelligente des données : conception et implémentation de connecteurs pour sites web, APIs et ingestion de documents.
Préparation et nettoyage des données : normalisation, gestion des valeurs manquantes, détection et suppression des doublons.
Analyse et transformation : extraction de caractéristiques, transformation (tokenisation, vectorisation, etc.) et enrichissement des données.
Génération et étiquetage intelligents : mise en place de pipelines d’annotation automatisée et semi-automatique, stratégies d’étiquetage programmatique.
Qualité, validation et évaluation : définition de métriques de qualité, tests de robustesse et procédure d’évaluation des jeux de données.
Technologies & contraintes techniques
Langages indiqués : Python, JavaScript.
Frameworks et outils recommandés : Flask, FastAPI pour les APIs; bibliothèques Python pour le nettoyage et le ML (ex. pandas, scikit-learn, spaCy…).
Architecture : conception de pipelines modulaires, APIs pour ingestion/extraction et composants réutilisables pour l’étiquetage.
Profil recherché et compétences
Niveau : Bac+5 (stage de fin d’études) avec expérience en ingénierie des données ou apprentissage automatique.
Compétences techniques : développement Python, connaissance de frameworks web (Flask/FastAPI), expérience en web scraping/APIs et en traitement/annotation de données.
Qualités recherchées : rigueur pour la validation qualité, autonomie dans le développement de pipelines, capacité à documenter et à tester les livrables.
Livrables attendus & organisation
Livrables possibles : pipeline d’ingestion automatisée, modules de nettoyage et transformation, composant d’étiquetage automatique, rapport d’évaluation de la qualité des jeux de données.
Modalités : stage de 4 à 6 mois (PFE), travail en coordination avec l’équipe pour validation et tests.
Modalités de candidature
Candidature via le lien fourni (voir "application_link").