Objectif du stage: Construire un coéquipier SRE capable de classifier les alertes, proposer un runbook et déclencher une remédiation GitOps (PR → ArgoCD) sous contrôle, en exploitant les données d’observabilité pour expliquer l’incident et documenter les actions.
Missions:
- Brancher Prometheus/Alertmanager et définir les priorités d’alerte
- Concevoir l’agent (Azure OpenAI + LangChain/CrewAI) et ses outils
- Orchestrer via n8n (PR, validation, déploiement ArgoCD)
- Sécuriser par politiques Kyverno et RBAC
- Mesurer MTTR, taux d’automatisation et dérive
Exigences:
- Ingéniorat
- Kubernetes, GitOps/ArgoCD, n8n, Azure OpenAI, LangChain ou CrewAI, Prometheus, Helm, Kyverno
Durée: 4 à 5 mois Nombre de stagiaires: 1