El Mehdi Bechnikha

Data Scientist & Data Engineer

emb@portfolio ~ $

Je conçois des systèmes intelligents de bout en bout — des pipelines documentaires propulsés par LLM chez AXA France à l'ingénierie Databricks à grande échelle. Je fais le pont entre la data science rigoureuse et l'ingénierie de production.

Ans d'exp.

10×

Speedup

M lignes

Explorer mon parcours → ✉ Me contacter

🐍

⚡

👁️

🤖

☁️

NLP / GenAI Computer Vision Azure Databricks LLM · RAG · OCR

📍 Paris, Île-de-France

🏢 AXA France · Crédit Agricole CIB

Scroll

De la donnée brute à la production

Mon expertise : construire des pipelines IA complets, industrialisés et mesurables.

📄

→

Ingestion

Documents, PDF, contrats, données financières

OCR · Surya · Tesseract

👁️

→

Vision & NLP

Détection zones, classification, extraction sémantique

YOLOv9 · LightGBM · NLP

🤖

→

GenAI / LLM

Extraction contractuelle, RAG, few-shot prompting

GPT · LangChain

⚡

→

Big Data

Traitement à l'échelle, règles métier, qualité

PySpark · Databricks

🚀

Production

CI/CD, dashboards, monitoring, workflows autonomes

Azure DevOps · Power BI

Impact

Résultats mesurables

Des chiffres concrets issus de missions en environnement bancaire et assurance.

10×

Accélération de l'extraction de clauses chez Crédit Agricole CIB — de semaines à minutes.

1–2 semaines

10 min

8×

Migration d'un audit comptable multi-outils vers une plateforme cloud unifiée Azure Databricks chez AXA IARD, avec une donnée fiabilisée.

15 min

Millions de lignes traitées (CACIB analytics POC)

Années d'expérience IA/ML en finance

Domaines IA maîtrisés — NLP, Vision, GenAI & Big Data

Millions d'observations pour la prévision de demande passagers (LSTM, ONCF)

Demo · GenAI

Assistant RAG

Simulation d'un chatbot propulsé par RAG — posez une question sur mon profil et observez le pipeline en action.

Simulation · GPT + RAG

Cette démo illustre un flux Retrieval-Augmented Generation : embedding de la requête, recherche vectorielle dans ma base de connaissances, puis génération de la réponse.

Pipeline en cours

1Embedding requête · text-embedding

2Recherche vectorielle · cosine similarity

3Récupération top-k chunks · k=3

4Génération LLM · GPT few-shot

Questions suggérées :

🤖

emb-assistant

RAG · portfolio-knowledge-base

En ligne

01 — Profil

À propos de moi

Data Scientist & Data Engineer basé à Paris, spécialisé dans l'IA appliquée aux environnements financiers exigeants.

Je suis Data Scientist & Data Engineer basé à Paris avec plus de 2 ans d'expérience dans la livraison de systèmes pilotés par l'IA dans des environnements financiers exigeants.

Chez AXA France, j'ai dirigé des pipelines IA de bout en bout : intelligence documentaire OCR, classification multi-labels, extraction LLM, et ingénierie PySpark à grande échelle sur Azure Databricks.

Mon double parcours — Ingénieur Statistiques & Recherche Opérationnelle (INSEA) et M2 Machine Learning (Paris Cité) — me permet de relier fondements mathématiques rigoureux et logiciels de production réels.

Trilingue : Français, Anglais et Arabe. Champion du Maroc de basketball. Passionné de Formule 1.

Builder Data-driven Researcher Production-focused Trilingue

elmehdi.bechnikha@gmail.com

Téléphone

07 58 45 99 48

/el-mehdi-bechnikha

Localisation

Paris, Île-de-France

Langues

FR · EN · AR

⚡0Années d'expérience professionnelle en IA/ML

🚀10×Accélération extraction de clauses chez CACIB

📊0Millions de lignes traitées chez CACIB

02 — Parcours

Expériences professionnelles

Un pipeline de missions — de l'IA documentaire à l'ingénierie de données à l'échelle.

Glisser pour explorer · ou cliquer un onglet

Oct 2025 — Mars 2026 Terminé

AXA France

IARD & Partnerships · Nanterre

Data Scientist / Data Engineer

⚡ 8× speedup · 2h → 15 min

Migration d'un processus métier d'audit comptable, jusque-là réparti sur plusieurs outils, vers une plateforme cloud unifiée sur Azure Databricks.
Traitement de données financières à grande échelle avec PySpark : règles métier, contrôles et fiabilisation de la donnée.
Industrialisation et déploiement via Azure DevOps : CI/CD, versioning Git, tests automatisés.
Mise en place du monitoring, de la gestion d'erreurs et de l'alerting pour le suivi du pipeline en production.
Résultat : temps de traitement moyen réduit de 2h à 15 min (×8), avec une donnée fiabilisée.

Azure DatabricksPySpark Azure DevOpsPower BI SASPython

Mai 2024 — Mai 2025 CDD

AXA France

Santé & Collectives · Nanterre

Data Scientist

🤖 GenAI end-to-end · OCR + YOLO + GPT

Pipeline GenAI / NLP centralisant les données contrats Épargne-Retraite.
Prétraitement documentaire et extraction texte avec SURYA OCR.
Classification multi-labels avec LightGBM.
Détection signatures/tampons via YOLOv9 fine-tuné.
Extraction contractuelle automatisée via l'API GPT en few-shot prompting.

GPTYOLOv9 LightGBMSurya-OCR NLPDatabricks

Mar 2023 — Sep 2023 Stage

Crédit Agricole CIB

AI Factory · Paris

Data Scientist

🚀 10× speedup · 30M lignes

Outil NLP clauses — temps d'extraction de 1–2 semaines → 10 minutes.
Entraînement YOLOv8 pour détection de zones ; pipeline OCR + Elasticsearch.
POC analytics : détection opportunités prêts — 30M lignes, modélisation ML dans Dataiku.

YOLOv8Tesseract OCR ElasticsearchDataikuPython

Mar 2022 — Jul 2022 Stage

ONCF

Revenue Management · Rabat

Data Scientist / Recherche Opérationnelle

💰 Revenue Management · LSTM + Optimisation PL

Recueil du besoin auprès des équipes métier pour passer d'une gestion statique et intuitive des prix à une approche pilotée par la donnée.
Modèle de prévision de la demande passagers par train avec un LSTM (deep learning), entraîné sur 4M d'observations.
Modèle d'optimisation par programmation linéaire déterminant le nombre de places à allouer à chaque niveau de prix, à partir des prévisions de demande.
Application Streamlit pour simuler facilement les allocations de places par trajet auprès des équipes.

LSTMDeep Learning Linear ProgrammingStreamlitMySQL

03 — Expertise

Compétences techniques

Du machine learning à l'ingénierie cloud — un stack complet pour l'IA en production.

AI / Machine Learning

Machine Learning

95%

Deep Learning / NLP

90%

GenAI / LLM / RAG

88%

Computer Vision

86%

Recherche Opérationnelle

82%

Années d'expérience professionnelle en IA/ML

96%

Maîtrise Python — stack principal

Engineering & Cloud

Python

96%

Azure Databricks

85%

PySpark / Big Data

83%

SQL / NoSQL

80%

Power BI / Dataiku

80%

Stack complet

Profil compétences

04 — Formation

Parcours académique

2022 — 2023

Master 2 — Machine Learning for Data Science

Université Paris Cité

Paris, France

ML · Deep Learning · NLP · Time Series · Text Mining · Data Engineering · Project Management

2019 — 2022

Diplôme d'Ingénieur — Statistiques & Recherche Opérationnelle

INSEA — Institut National de Statistique et d'Économie Appliquée

Rabat, Maroc

Statistiques avancées · Recherche Opérationnelle · Optimisation · Métaheuristiques · Programmation

2017 — 2019

CPGE — Concours National Commun Maths-Physique

Lycée Moulay Youssef