EXCELLIA Solutions
EXCELLIA Solutions
Tunisie

12 Mise en place d’une plateforme SRE pour la gestion et la surveillance centralisée des environnements Dockerisés sur Microsoft Azure PFE

Site Reliability Engineering (SRE)DevOps / Cloud (Microsoft Azure)Observability & Monitoring

Publié il y a 3 jours

Stage
⏱️4-6 mois
💼Hybride
📅Expire dans 10 jours
Cohérence LinkedIn / CV vérifiée.

Description du poste

Contexte et objectifs

  • Concevoir et déployer une plateforme Site Reliability Engineering (SRE) pour la gestion et la surveillance centralisée des environnements de développement.
  • Objectifs précis : gestion de multiples environnements dockerisés via une plateforme PaaS, surveillance des environnements cloud et on-premise (machines virtuelles, containers, services Docker), centralisation des logs, surveillance des pipelines CI/CD et mise en place d’un système d’alerting/notification (Teams, Mail).

Missions principales

  • Déployer et administrer une solution centralisée de monitoring et observabilité (Prometheus, Grafana, Alertmanager, ELK) pour suivre métriques, logs et alertes.
  • Intégrer la surveillance des pipelines GitLab CI/CD et automatiser la détection et la notification des échecs.
  • Mettre en place la gestion des environnements Dockerisés via une solution PaaS (orchestration et déploiement avec Docker/Docker Compose / Dokploy).

Compétences et technologies requises

  • Maîtrise des technologies listées : Docker, Docker Compose, Dokploy, Microsoft Azure, Prometheus, Grafana, Alertmanager, Elasticsearch / Logstash / Kibana, GitLab CI/CD.
  • Compétences d’infrastructure et d’automatisation : Linux, Bash, Python, Terraform, Ansible, et bonnes pratiques SRE (alerting, SLIs/SLOs, gestion des incidents).

Livrables attendus

  • Plateforme opérationnelle SRE intégrée à l’écosystème Microsoft Azure, avec dashboards Grafana, alerting configuré (Teams/Mail) et centralisation des logs via ELK.
  • Documentation technique couvrant l’architecture, les étapes de déploiement (IaC), les playbooks Ansible/Terraform et procédures de récupération en cas d’incident.

Profil et modalités

  • Profil souhaité : ingénieur.
  • Durée du PFE : 6 mois.
  • Pour postuler : envoyer CV et lettre de motivation à stages@excellia.tn en indiquant en objet : "Candidature PFE - Sujet n°12 : Mise en place d’une plateforme SRE pour la gestion et la surveillance centralisée des environnements Dockerisés sur Microsoft Azure".