Ekimetrics
Ekimetrics
France

Stage 2026 - Data Science et Machine Learning/AI practitionner - Sujet : Data attribution (H/F/N)

Data Analysis / Data ScienceData Science & Machine LearningArtificial Intelligence & Automation (AI/RPA)

Publié il y a environ 1 mois

Stage
⏱️4-6 mois
💼Hybride
📅Expiré il y a 18 jours
Pas motivé ? 5 minutes chrono, puis stop si tu veux.

Description du poste

Ekimetrics est leader en data science et fournisseur de solutions AI. Depuis 2006, nous utilisons la data science au service de l’optimisation de la performance marketing, du business et de la transition vers une performance plus durable.

Si vous êtes passionné.e de data, ou de technologie en général, et que vous avez envie d’être acteur.rice de votre avenir professionnel, votre place est sûrement chez Ekimetrics !

📊 Et si nous vous présentions quelques chiffres ?

  • 400 expert.e.s en data science
  • 1000 projets divers et variés pour plus de 350 clients
  • 5 bureaux : Paris, Hong Kong, Shanghai, Londres et New York
  • 1 milliard de dollars de profits générés pour nos clients depuis 2006

Chez Ekimetrics, nous avons l’ambition d’accompagner nos clients à repenser leur business model, en réconciliant performance économique et objectifs durables, grâce à la data science.

C’est pourquoi nous disposons en interne de toutes les compétences nécessaires pour répondre aux besoins de nos clients: Product Managers, Product Designers, Data Architects, Lead Tech, Data Engineers, DevOps Engineers, Data Scientists.

L’équipe que vous pourriez rejoindre

Pourquoi recrutons-nous ?

Au sein d’Ekimetrics, le département Innovation travaille sur des sujets de recherche en IA en collaboration avec nos partenaires industriels et académiques. Le département réunit plusieurs docteurs experts dans l’IA générative, le deep learning, la série temporelle, l’explicabilité/interprétabilité et la causalité. Trois thèses CIFRE sont en cours. Autour de chaque expert des équipes sont constituées pour tester les algorithmes état de l’art et les adapter à des problématiques business spécifiques, créer de nouvelles méthodologies ou algorithmes répondant à un problème relevé, et assurer la passation en vue d’une intégration dans l’écosystème industriel d’Ekimetrics.

Le stream interprétabilité/explicabilité a pour vocation de développer des modèles ou des méthodes permettant une meilleure compréhension du comportement de modèles de machine learning/deep learning.

Ce stage portera sur la data attribution. Celle-ci consiste à évaluer dans quelle mesure chaque point de donnée d’entraînement a contribué à la performance du modèle, une fois entraîné. Il s’agira d’explorer différentes méthodes de data attribution, appliquées à des modèles de machine learning classiques (XGBoost, LightGBM), des modèles de deep learning pour données tabulaires (TabPFN, TabICL) ou pour le texte (Mistral, Gemma).

Dans un premier temps, le stagiaire réalisera une revue de littérature basée sur celles existantes, puis testera les différentes librairies disponibles et les méthodes ayant fait leurs preuves. Enfin, nous étudierons différents cas d’usage liés à l’utilisation de la data attribution, comme la détection d’erreurs de labellisation et le déploiement au sein de solutions existantes chez Ekimetrics.

Le stage débouche sur un poste de data scientist en IA pour les très bons profils.

Dans ce contexte, vos responsabilités sont de :

  • Assurer une veille sur l’état de l’art dans le cadre du machine learning au global, et du deep learning en particulier.
  • Effectuer un travail de recherche au sein du département Innovation.
  • Respecter les bonnes pratiques de code pour assurer l’industrialisation de ceux-ci avec nos experts Solution.
  • Partager vos connaissances en interne en apportant un support d’expert.

Profile :

  • En stage de fin d’études d’une grande école d’ingénieurs ou de master 2, vous avez acquis de solides connaissances en machine learning.
  • Expérience dans les méthodologies et bonnes pratiques de développement : Tests unitaires, versioning.
  • Compétences approfondies en Python.
  • Maîtrise des librairies PyTorch, NumPy, scikit-learn.
  • Connaissances en deep learning.
  • Connaissances approfondies en probabilités, mathématiques et statistiques.
  • Des connaissances en interprétabilité/explicabilité sont un plus.
  • Anglais courant.

🤝 Pourquoi nous rejoindre ?

Évoluer dans un environnement de type startup et non traditionnel, animé par la curiosité. Savoir accepter le feedback pour s’améliorer; viser l’excellence. Se former dès l’arrivée et tout au long de l’expérience grâce à une démarche apprenante et à de nombreuses ressources (internes, externes, live et digital) alliant savoir-faire technique, savoir-être et savoir-faire. Faire partie d’une communauté accueillante et soudée; plaisir. Imaginer des solutions inattendues et sortir de sa zone de confort; créativité.

En 2023, Ekimetrics a obtenu le statut d’entreprise à mission qui témoigne de notre ambition forte en matière de RSE. Nous sommes également certifiés Great Place to Work.

🤩 Vous aurez accès à …

  • Au catalogue de formation EkiA qui contient des programmes qui vous feront monter en compétences sur nos solutions et nos métiers, des parcours apprenants sur notre plateforme digitale ainsi que des programmes dédiés à nos enjeux prioritaires, dont la Climate School AXA.
  • Une vie sportive, artistique, musicale, ludique, caritative et engagée : de notre salle de sport privatisée à nos expositions d’art, en passant par des jeux vidéo et des concerts, ou encore les défis RSE sur la plateforme Vendredi.
  • De nombreux événements et séminaires pour rester proche de votre communauté.
  • Des locaux modernes dans un quartier dynamique au cœur de Paris (Grands boulevards).
  • Une politique de télétravail flexible.

🔄 Notre processus recrutement

  • Un test technique sur HackerRank
  • Un entretien RH avec un.e Talent Acquisition
  • Une étude de cas avec un.e Consultant.e
  • Un entretien final avec un.e Consultant.e Senior

Nous serions ravis de vous donner de plus amples informations lors d’un entretien et attendons votre candidature avec impatience !

Références

  1. Training Data Attribution: Examining Its Adoption & Use Cases: https://www.alignmentforum.org/posts/aHgvu6mz8gqQQqJwP/training-data-attribution-examining-its-adoption-and-use
  2. SelfIE: Self-Interpretation of Large Language Model Embeddings
  3. Data Attribution at Scale: https://ml-data-tutorial.org/
  4. Deng, J., Hu, Y., Hu, P., Li, T. W., Liu, S., Wang, J. T., ... & Ma, J. W. (2025). A Survey of Data Attribution: Methods, Applications, and Evaluation in the Era of Generative AI.
  5. Hammoudeh, Z., & Lowd, D. (2024). Training data influence analysis and estimation: A survey. Machine Learning, 113(5), 2351-2403.
  6. Jiang, K. F., Liang, W., Zou, J., & Kwon, Y. (2023, December). OpenDataVal: a unified benchmark for data valuation. In Proceedings of the 37th International Conference on Neural Information Processing Systems.
  7. Deng, J., Li, T. W., Zhang, S., Liu, S., Pan, Y., Huang, H., ... & Zhang, X. (2024). dattri: A Library for Efficient Data Attribution. Advances in Neural Information Processing Systems, 37, 136763-136781.
  8. Ghorbani, A., & Zou, J. (2019, May). Data shapley: Equitable valuation of data for machine learning. In International conference on machine learning (pp. 2242-2251). PMLR.
  9. Bae, J., Lin, W., Lorraine, J., & Grosse, R. B. (2024). Training data attribution via approximate unrolling. Advances in Neural Information Processing Systems, 37, 66647-66686.
  10. Wang, J. T., Mittal, P., Song, D., & Jia, R. Data Shapley in One Training Run. In The Thirteenth International Conference on Learning Representations, 2025
  11. Pruthi, G., Liu, F., Kale, S., & Sundararajan, M. (2020). Estimating training data influence by tracing gradient descent. Advances in Neural Information Processing Systems, 33, 19920-19930.