LinSoft ®
LinSoft ®
Tunisie

Sujet 2 : RF-02 Piloter l’Autonomie Opérationnelle des Microservices avec Observabilité et Remédiation Automatisée PFE

Cloud/DevOpsObservabilité (Prometheus/Grafana)automatisation

Publié il y a 3 jours

Stage
⏱️4-6 mois
💼Hybride
📅Expire dans 11 jours
Tu te rapproches. Continue.

Description du poste

Contexte et objectifs

  • Mettre en place une solution DevOps/SRE pour piloter l’autonomie opérationnelle de microservices déployés sur OpenShift.
  • Réduire le MTTR (temps moyen de résolution) et les risques d’indisponibilité en automatisant la détection et la remédiation des incidents.

Tâches principales

  • Configurer le stack de monitoring sur OpenShift : Prometheus, Grafana, Alertmanager (et optionnellement Kibana pour logs).
  • Définir et paramétrer un système d’alertes basé sur des seuils et métriques clés : utilisation CPU, mémoire, pods en crashloop, erreurs HTTP, etc.
  • Créer une passerelle entre Alertmanager et le moteur d’automatisation (webhook / API) — possibilité d’implémentation via Flask API ou AWX webhook.
  • Développer une passerelle API en Python (API bridge) et scripts Bash pour intégrer Alertmanager à Ansible/Automation Controller.

Playbooks, remédiation automatique et orchestration

  • Développer des playbooks Ansible capables de corriger automatiquement des incidents types : redémarrage d’un pod en erreur, redéploiement d’un service défaillant, purge de ressources temporaires saturées.
  • Orchestrer les remédiations via Automation Controller / Ansible Tower et intégrer ces actions dans des pipelines CI/CD (Jenkins ou Tekton).
  • Gérer la configuration en YAML pour les playbooks, webhooks et dashboards.

Dashboard, supervision et tests

  • Concevoir et déployer des dashboards Grafana pour la supervision en temps réel et un historique des remédiations effectuées.
  • Mettre en place des tests et scénarios simulés de panne pour valider les règles d’alerte et l’efficacité des playbooks automatisés.
  • Documenter les scénarios testés, les logs d’intervention et les métriques de succès (réduction du temps de résolution, taux de succès des remédiations).

Livrables et organisation du projet

  • Livrables attendus : configuration du monitoring (Prometheus/Grafana/Alertmanager), code de la passerelle (Python/Flask), playbooks Ansible, pipelines d’automatisation (Jenkins/Tekton), dashboards Grafana, rapport de tests et guide d’exploitation.
  • Nombre de stagiaires : 1-2. Durée : 4 mois (à adapter selon planning).

Environnement technique

  • Technologies citées : Red Hat OpenShift (ou OKD), Prometheus, Alertmanager, Grafana, Ansible / Automation Controller, Webhook (Flask API / AWX webhook), YAML, Python (API bridge), Bash, Jenkins ou Tekton Pipelines, Grafana dashboards, Kibana (optionnel).
  • Compétences recommandées : expérience en DevOps/CI-CD, scripting Python/Bash, connaissance d’OpenShift/Kubernetes et d’Ansible, compréhension de la supervision et des métriques.

📧 Pour postuler: internship@linsoft.com