SUJET 20 Mettre en place un système intel l igent capable d’automatiser la création de jeux de données thématiques à partir de diverses sources (sites web, APIs , documents…) PFE
SUJET 20 Mettre en place un système intel l igent capable d’automatiser la création de jeux de données thématiques à partir de diverses sources (sites web, APIs , documents…) PFE
TAC TIC•Tunisie
Ingénierie des données / MLOpsApprentissage automatiqueCollecte de données / Web scraping
Publié il y a 22 jours
Stage
⏱️4-6 mois
💼Hybride
📅Expiré il y a 8 jours
Mentionne clairement la tech principale.
Description du poste
Contexte et objectif
Développer un système intelligent permettant d’automatiser la création de jeux de données thématiques à partir de sources diverses (sites web, APIs, documents).
Cible : faciliter la constitution de datasets prêts pour des tâches d’analyse, d’entraînement de modèles ou d’évaluation.
Missions principales
Collecte intelligente des données : conception et implémentation de connecteurs pour sites web, APIs et ingestion de documents.
Préparation et nettoyage des données : normalisation, gestion des valeurs manquantes, détection et suppression des doublons.
Analyse et transformation : extraction de caractéristiques, transformation (tokenisation, vectorisation, etc.) et enrichissement des données.
Génération et étiquetage intelligents : mise en place de pipelines d’annotation automatisée et semi-automatique, stratégies d’étiquetage programmatique.
Qualité, validation et évaluation : définition de métriques de qualité, tests de robustesse et procédure d’évaluation des jeux de données.
Technologies & contraintes techniques
Langages indiqués : Python, JavaScript.
Frameworks et outils recommandés : Flask, FastAPI pour les APIs; bibliothèques Python pour le nettoyage et le ML (ex. pandas, scikit-learn, spaCy…).
Architecture : conception de pipelines modulaires, APIs pour ingestion/extraction et composants réutilisables pour l’étiquetage.
Profil recherché et compétences
Niveau : Bac+5 (stage de fin d’études) avec expérience en ingénierie des données ou apprentissage automatique.
Compétences techniques : développement Python, connaissance de frameworks web (Flask/FastAPI), expérience en web scraping/APIs et en traitement/annotation de données.
Qualités recherchées : rigueur pour la validation qualité, autonomie dans le développement de pipelines, capacité à documenter et à tester les livrables.
Livrables attendus & organisation
Livrables possibles : pipeline d’ingestion automatisée, modules de nettoyage et transformation, composant d’étiquetage automatique, rapport d’évaluation de la qualité des jeux de données.
Modalités : stage de 4 à 6 mois (PFE), travail en coordination avec l’équipe pour validation et tests.
Modalités de candidature
Candidature via le lien fourni (voir "application_link").
TAC TIC - SUJET 20 Mettre en place un système intel l igent capable d’automatiser la création de jeux de données thématiques à partir de diverses sources (sites web, APIs , documents…) PFE | Hi Interns | Hi Interns