LinSoft ® - Sujet 2 : RF-02 Piloter l’Autonomie Opérationnelle des Microservices avec Observabilité et Remédiation Automatisée PFE | Hi Interns

Contexte et objectifs

Mettre en place une solution DevOps/SRE pour piloter l’autonomie opérationnelle de microservices déployés sur OpenShift.
Réduire le MTTR (temps moyen de résolution) et les risques d’indisponibilité en automatisant la détection et la remédiation des incidents.

Tâches principales

Configurer le stack de monitoring sur OpenShift : Prometheus, Grafana, Alertmanager (et optionnellement Kibana pour logs).
Définir et paramétrer un système d’alertes basé sur des seuils et métriques clés : utilisation CPU, mémoire, pods en crashloop, erreurs HTTP, etc.
Créer une passerelle entre Alertmanager et le moteur d’automatisation (webhook / API) — possibilité d’implémentation via Flask API ou AWX webhook.
Développer une passerelle API en Python (API bridge) et scripts Bash pour intégrer Alertmanager à Ansible/Automation Controller.

Playbooks, remédiation automatique et orchestration

Développer des playbooks Ansible capables de corriger automatiquement des incidents types : redémarrage d’un pod en erreur, redéploiement d’un service défaillant, purge de ressources temporaires saturées.
Orchestrer les remédiations via Automation Controller / Ansible Tower et intégrer ces actions dans des pipelines CI/CD (Jenkins ou Tekton).
Gérer la configuration en YAML pour les playbooks, webhooks et dashboards.

Dashboard, supervision et tests

Concevoir et déployer des dashboards Grafana pour la supervision en temps réel et un historique des remédiations effectuées.
Mettre en place des tests et scénarios simulés de panne pour valider les règles d’alerte et l’efficacité des playbooks automatisés.
Documenter les scénarios testés, les logs d’intervention et les métriques de succès (réduction du temps de résolution, taux de succès des remédiations).

Livrables et organisation du projet

Livrables attendus : configuration du monitoring (Prometheus/Grafana/Alertmanager), code de la passerelle (Python/Flask), playbooks Ansible, pipelines d’automatisation (Jenkins/Tekton), dashboards Grafana, rapport de tests et guide d’exploitation.
Nombre de stagiaires : 1-2. Durée : 4 mois (à adapter selon planning).

Environnement technique

Technologies citées : Red Hat OpenShift (ou OKD), Prometheus, Alertmanager, Grafana, Ansible / Automation Controller, Webhook (Flask API / AWX webhook), YAML, Python (API bridge), Bash, Jenkins ou Tekton Pipelines, Grafana dashboards, Kibana (optionnel).
Compétences recommandées : expérience en DevOps/CI-CD, scripting Python/Bash, connaissance d’OpenShift/Kubernetes et d’Ansible, compréhension de la supervision et des métriques.

📧 Pour postuler: internship@linsoft.com

Sujet 2 : RF-02 Piloter l’Autonomie Opérationnelle des Microservices avec Observabilité et Remédiation Automatisée PFE