Orange Tunisie
Orange Tunisie
Tunisie

DSI 002 Mise en œuvre de DataGalaxy pour la gouvernance des données pour un environnement big data : cartographie, traçabilité et automatisation des métadonnées PFE

Data GovernanceData Engineering / Big DataData Engineering / Machine Learning

Publié il y a 7 mois

Stage
⏱️4-6 mois
💼Hybride
📅Expiré il y a 6 mois
Reste lisible (ATS friendly).

Description du poste

Contexte et objectifs

  • Mettre en place DataGalaxy comme Data Catalog dans un environnement Big Data (Hadoop, Spark, Hive, etc.).
  • Objectifs principaux : centraliser la cartographie des sources, flux et transformations, assurer la traçabilité des données, automatiser la collecte et l’actualisation des métadonnées et favoriser la collaboration entre équipes data, IT et métier.

Missions principales

  • Intégration de DataGalaxy avec l’écosystème Big Data existant : configuration des connecteurs et ingestion des métadonnées depuis Hive/Impala, HDFS, Spark, NiFi, etc.
  • Cartographier les sources, flux et transformations, documenter les datasets côté technique et métier, et mettre en place la gestion des dépendances et de la traçabilité.

Activités techniques détaillées

  • Développement et configuration de connecteurs pour automatiser la collecte des métadonnées (OpenLineage, API, crawlers) et alimentation du catalogue.
  • Travail sur pipelines Big Data (Spark/PySpark), interrogation de métadonnées via Hive/Impala, et modélisation des relations en graph (Neo4j) pour la traçabilité et l’impact analysis.

Technologies & compétences requises

  • Connaissances / outils mentionnés : Data Catalog & Gouvernance (DataHub, Amundsen, Apache Atlas, OpenLineage), BIG DATA (Apache Hive/Impala, HDFS, Spark/PySpark, NiFi), Neo4j.
  • Compétences en développement back-end / microservices (Python, Flask, FastAPI) ou Node.js pour l’intégration et l’automatisation des workflows.

Livrables attendus

  • Catalogue DataGalaxy déployé et alimenté automatiquement avec connecteurs configurés et documentation des datasets (technique et métier).
  • Rapport de gouvernance précisant les bonnes pratiques, la configuration des connecteurs, la stratégie de traçabilité et la gestion des dépendances.

Encadrement & contexte d’accueil

  • Entité d’accueil : Data et IA Factory - service production de la donnée.
  • Durée du stage : 6 mois (modalité indiquée : 4-6 mois dans l’offre).
  • Nombre de stagiaires requis : 1.

Modalités de candidature

  • Pour postuler : Postuler ici.
  • Mentionnez en objet : "Candidature stage DSI 002 — Mise en œuvre de DataGalaxy PFE" et joignez CV + lettre de motivation.
Orange Tunisie - DSI 002 Mise en œuvre de DataGalaxy pour la gouvernance des données pour un environnement big data : cartographie, traçabilité et automatisation des métadonnées PFE | Hi Interns | Hi Interns