Créer une plateforme d’ingénierie du chaos pilotée par l’IA pour Kubernetes.
Objectifs : exécuter des pannes simulées, analyser automatiquement leur impact, détecter les faiblesses cachées et tester la résilience ainsi que les défenses de sécurité du système.
Responsabilités principales
Déploiement de la plateforme de chaos sur des clusters Kubernetes et automatisation des scénarios de panne.
Mise en place d’une stack d’observabilité complète (métriques, logs, traces) pour corréler incidents et comportement applicatif.
Intégration de la dimension Sécurité (SecOps) pour tester les défenses et vecteurs d’attaque pendant les scénarios de chaos.
Développement d’un modèle d’analyse d’impact basé sur l’IA et d’un moteur de scoring et de reporting des résultats.
Technologies et compétences requises
Langages et bibliothèques : Python, Scikit-learn, Pandas, TensorFlow/Keras.
Frameworks web / UI : Flask ou Streamlit pour interfaces et API REST.
Connaissances Kubernetes, observabilité (Prometheus, ELK/EFK, Jaeger/Tempo ou équivalent) et pratiques DevOps/SecOps.
Livrables attendus
Plateforme opérationnelle capable d’exécuter scénarios de chaos et de collecter les données d’impact.
Modèle IA d’analyse d’impact et moteur de scoring automatisé avec tableaux de reporting.
Documentation de déploiement, tests et recommandations d’amélioration de résilience/sécurité.