Contexte et objectifs
- Mettre en place une solution DevOps/SRE pour piloter l’autonomie opérationnelle de microservices déployés sur OpenShift.
- Réduire le MTTR (temps moyen de résolution) et les risques d’indisponibilité en automatisant la détection et la remédiation des incidents.
Tâches principales
- Configurer le stack de monitoring sur OpenShift : Prometheus, Grafana, Alertmanager (et optionnellement Kibana pour logs).
- Définir et paramétrer un système d’alertes basé sur des seuils et métriques clés : utilisation CPU, mémoire, pods en crashloop, erreurs HTTP, etc.
- Créer une passerelle entre Alertmanager et le moteur d’automatisation (webhook / API) — possibilité d’implémentation via Flask API ou AWX webhook.
- Développer une passerelle API en Python (API bridge) et scripts Bash pour intégrer Alertmanager à Ansible/Automation Controller.
Playbooks, remédiation automatique et orchestration
- Développer des playbooks Ansible capables de corriger automatiquement des incidents types : redémarrage d’un pod en erreur, redéploiement d’un service défaillant, purge de ressources temporaires saturées.
- Orchestrer les remédiations via Automation Controller / Ansible Tower et intégrer ces actions dans des pipelines CI/CD (Jenkins ou Tekton).
- Gérer la configuration en YAML pour les playbooks, webhooks et dashboards.
Dashboard, supervision et tests
- Concevoir et déployer des dashboards Grafana pour la supervision en temps réel et un historique des remédiations effectuées.
- Mettre en place des tests et scénarios simulés de panne pour valider les règles d’alerte et l’efficacité des playbooks automatisés.
- Documenter les scénarios testés, les logs d’intervention et les métriques de succès (réduction du temps de résolution, taux de succès des remédiations).
Livrables et organisation du projet
- Livrables attendus : configuration du monitoring (Prometheus/Grafana/Alertmanager), code de la passerelle (Python/Flask), playbooks Ansible, pipelines d’automatisation (Jenkins/Tekton), dashboards Grafana, rapport de tests et guide d’exploitation.
- Nombre de stagiaires : 1-2. Durée : 4 mois (à adapter selon planning).
Environnement technique
- Technologies citées : Red Hat OpenShift (ou OKD), Prometheus, Alertmanager, Grafana, Ansible / Automation Controller, Webhook (Flask API / AWX webhook), YAML, Python (API bridge), Bash, Jenkins ou Tekton Pipelines, Grafana dashboards, Kibana (optionnel).
- Compétences recommandées : expérience en DevOps/CI-CD, scripting Python/Bash, connaissance d’OpenShift/Kubernetes et d’Ansible, compréhension de la supervision et des métriques.
📧 Pour postuler:
internship@linsoft.com