Concevoir, développer et déployer une solution AIOps pour automatiser la détection, l’analyse et la résolution des incidents dans une infrastructure cloud.
Intégrer une analyse prédictive pour anticiper les incidents logiciels (SW) et matériels (HW) afin de réduire les délais d’indisponibilité et les interventions manuelles.
Missions principales
Collecte et corrélation des données d’observabilité (logs, métriques, traces) depuis l’environnement cloud et les composants réseau/serveurs.
Développement de pipelines de traitement des événements, mise en place d’algorithmes de détection d’anomalies et d’analyses causales pour automatiser les diagnostics.
Conception et entraînement de modèles prédictifs pour anticiper les incidents SW et HW, et définition de seuils d’alerte pertinents.
Intégration de la solution avec les outils d’orchestration, de monitoring et de ticketing pour automatiser la résolution ou l’escalade.
Compétences et profil recherché
Diplôme d’ingénieur requis, intérêt marqué pour le cloud, le monitoring, le Machine Learning et l’automatisation.
Connaissances en data engineering (collecte, nettoyage, corrélation de données), en ML (modèles de détection d’anomalies, séries temporelles) et en SRE/DevOps.
Capacités de scripting (Python, PowerShell, Bash), expérience avec des frameworks ML (scikit-learn, TensorFlow, PyTorch) et outils d’observabilité (ELK, Prometheus, Grafana, Jaeger) appréciées.
Environnement technique et livrables attendus
Cible cloud (public ou privé) avec conteneurs/Kubernetes, intégration possible avec AWS/Azure/GCP selon l’infra.
Outils possibles : ELK/Elastic Stack, Prometheus/Grafana, solutions APM, pipelines ETL, systèmes de ticketing (Jira, ServiceNow), CI/CD pour déploiement automatisé.
Livrables : prototype AIOps déployé, rapport technique, documentation d’architecture, jeux de tests et procédure d’exploitation.
Modalités & candidature
Durée du stage : 6 mois (1 stagiaire requis). Entité d’accueil : DRS/DTO - Infra et OSS.