Contexte et objectif
- Réaliser un moteur de recommandations basé sur l'IA pour proposer des programmes de bien‑être personnalisés aux employés.
- Améliorer l'engagement et la santé des collaborateurs en recommandant des actions, contenus et parcours adaptés au profil, historique et préférences de chaque salarié.
- Stage destiné à un(e) étudiant(e) en Diplôme : Ingénieur Informatique, durée du stage : 6 mois.
Missions principales
- Concevoir et implémenter des modèles de recommandation (collaboratif, basé contenu, modèles hybrides et approches basées deep learning) et pipelines de traitement des données.
- Exploiter des techniques NLP pour analyser questionnaires, retours utilisateurs et descriptions d'activités afin d'enrichir les profils et caractéristiques des items.
- Entraîner et comparer des modèles avec PyTorch et/ou TensorFlow, suivre les expériences avec MLflow et définir métriques (precision@k, recall@k, NDCG, A/B testing).
- Développer une API de service de recommandations avec FastAPI, containeriser l'application avec Docker et préparer le déploiement sur AWS EC2.
Compétences et technologies requises
- Maîtrise de Python, connaissance de TensorFlow et/ou PyTorch pour le développement de modèles ML/DL.
- Expérience ou intérêt pour le NLP (prétraitement texte, embeddings, fine-tuning de modèles) et manipulation SQL pour l'accès aux données.
- Connaissance des outils MLOps : MLflow pour le tracking des expériences, gestion des modèles et reproductibilité ; Docker pour le packaging ; déploiement sur EC2.
- Bonnes pratiques d'engineering : tests, CI/CD basique, documentation du code et gestion de versions.
Livrables et encadrement
- Livrables attendus : code source complet, jeu(s) de données (prétraités et anonymisés), modèles entraînés, pipeline d'entraînement/reprise, API de recommandation déployable, documentation technique et rapport de stage.
- Encadrement technique par l'équipe TECH (WHUB TECH TEAM) avec points réguliers, revue de code et validation des livrables.
- Critères d'évaluation : qualité des recommandations (métriques), robustesse du pipeline, documentation, facilité d'intégration et déploiement ainsi que présentation finale.
Contraintes et points pratiques
- Respecter la confidentialité et l'anonymisation des données employés.
- Prioriser la reproductibilité (MLflow), scalabilité (containerisation) et latence raisonnable pour l'API.
- Langue de travail : français/anglais selon besoin des documents techniques.