Chargement du portfolio
À propos Impact Expériences Assistant IA Compétences Formation Contact Me contacter

El Mehdi Bechnikha

Data Scientist & Data Engineer
emb@portfolio ~ $

Je conçois des systèmes intelligents de bout en bout — des pipelines documentaires propulsés par LLM chez AXA France à l'ingénierie Databricks à grande échelle. Je fais le pont entre la data science rigoureuse et l'ingénierie de production.

0
Ans d'exp.
10×
Speedup
0
M lignes
🐍
👁️
🤖
☁️
El Mehdi Bechnikha
NLP / GenAI Computer Vision Azure Databricks LLM · RAG · OCR
📍 Paris, Île-de-France
🏢 AXA France · Crédit Agricole CIB
Scroll

De la donnée brute à la production

Mon expertise : construire des pipelines IA complets, industrialisés et mesurables.

📄
Ingestion
Documents, PDF, contrats, données financières
OCR · Surya · Tesseract
👁️
Vision & NLP
Détection zones, classification, extraction sémantique
YOLOv9 · LightGBM · NLP
🤖
GenAI / LLM
Extraction contractuelle, RAG, few-shot prompting
GPT · LangChain
Big Data
Traitement à l'échelle, règles métier, qualité
PySpark · Databricks
🚀
Production
CI/CD, dashboards, monitoring, workflows autonomes
Azure DevOps · Power BI
PythonPySpark TensorFlowGPT YOLOv8/v9Azure Databricks LangChainElasticsearch LightGBMSurya OCR Azure DevOpsPower BI DataikuScikit-learn SQL / NoSQLStreamlit
Impact

Résultats mesurables

Des chiffres concrets issus de missions en environnement bancaire et assurance.

0
Millions de lignes traitées (CACIB analytics POC)
0
Années d'expérience IA/ML en finance
4
Domaines IA maîtrisés — NLP, Vision, GenAI & Big Data
0
Millions d'observations pour la prévision de demande passagers (LSTM, ONCF)
Demo · GenAI

Assistant RAG

Simulation d'un chatbot propulsé par RAG — posez une question sur mon profil et observez le pipeline en action.

Simulation · GPT + RAG

Cette démo illustre un flux Retrieval-Augmented Generation : embedding de la requête, recherche vectorielle dans ma base de connaissances, puis génération de la réponse.

Pipeline en cours
1Embedding requête · text-embedding
2Recherche vectorielle · cosine similarity
3Récupération top-k chunks · k=3
4Génération LLM · GPT few-shot

Questions suggérées :

🤖
emb-assistant
RAG · portfolio-knowledge-base
En ligne
01 — Profil

À propos de moi

Data Scientist & Data Engineer basé à Paris, spécialisé dans l'IA appliquée aux environnements financiers exigeants.

Je suis Data Scientist & Data Engineer basé à Paris avec plus de 2 ans d'expérience dans la livraison de systèmes pilotés par l'IA dans des environnements financiers exigeants.

Chez AXA France, j'ai dirigé des pipelines IA de bout en bout : intelligence documentaire OCR, classification multi-labels, extraction LLM, et ingénierie PySpark à grande échelle sur Azure Databricks.

Mon double parcours — Ingénieur Statistiques & Recherche Opérationnelle (INSEA) et M2 Machine Learning (Paris Cité) — me permet de relier fondements mathématiques rigoureux et logiciels de production réels.

Trilingue : Français, Anglais et Arabe. Champion du Maroc de basketball. Passionné de Formule 1.

Builder Data-driven Researcher Production-focused Trilingue
Téléphone
07 58 45 99 48
Localisation
Paris, Île-de-France
Langues
FR · EN · AR
0Années d'expérience professionnelle en IA/ML
🚀10×Accélération extraction de clauses chez CACIB
📊0Millions de lignes traitées chez CACIB

Expériences professionnelles

Un pipeline de missions — de l'IA documentaire à l'ingénierie de données à l'échelle.

Glisser pour explorer · ou cliquer un onglet
Oct 2025 — Mars 2026 Terminé
AXA France
IARD & Partnerships · Nanterre
Data Scientist / Data Engineer
⚡ 8× speedup · 2h → 15 min
  • Migration d'un processus métier d'audit comptable, jusque-là réparti sur plusieurs outils, vers une plateforme cloud unifiée sur Azure Databricks.
  • Traitement de données financières à grande échelle avec PySpark : règles métier, contrôles et fiabilisation de la donnée.
  • Industrialisation et déploiement via Azure DevOps : CI/CD, versioning Git, tests automatisés.
  • Mise en place du monitoring, de la gestion d'erreurs et de l'alerting pour le suivi du pipeline en production.
  • Résultat : temps de traitement moyen réduit de 2h à 15 min (×8), avec une donnée fiabilisée.
Azure DatabricksPySpark Azure DevOpsPower BI SASPython
Mai 2024 — Mai 2025 CDD
AXA France
Santé & Collectives · Nanterre
Data Scientist
🤖 GenAI end-to-end · OCR + YOLO + GPT
  • Pipeline GenAI / NLP centralisant les données contrats Épargne-Retraite.
  • Prétraitement documentaire et extraction texte avec SURYA OCR.
  • Classification multi-labels avec LightGBM.
  • Détection signatures/tampons via YOLOv9 fine-tuné.
  • Extraction contractuelle automatisée via l'API GPT en few-shot prompting.
GPTYOLOv9 LightGBMSurya-OCR NLPDatabricks
Mar 2023 — Sep 2023 Stage
Crédit Agricole CIB
AI Factory · Paris
Data Scientist
🚀 10× speedup · 30M lignes
  • Outil NLP clauses — temps d'extraction de 1–2 semaines → 10 minutes.
  • Entraînement YOLOv8 pour détection de zones ; pipeline OCR + Elasticsearch.
  • POC analytics : détection opportunités prêts — 30M lignes, modélisation ML dans Dataiku.
YOLOv8Tesseract OCR ElasticsearchDataikuPython
Mar 2022 — Jul 2022 Stage
ONCF
Revenue Management · Rabat
Data Scientist / Recherche Opérationnelle
💰 Revenue Management · LSTM + Optimisation PL
  • Recueil du besoin auprès des équipes métier pour passer d'une gestion statique et intuitive des prix à une approche pilotée par la donnée.
  • Modèle de prévision de la demande passagers par train avec un LSTM (deep learning), entraîné sur 4M d'observations.
  • Modèle d'optimisation par programmation linéaire déterminant le nombre de places à allouer à chaque niveau de prix, à partir des prévisions de demande.
  • Application Streamlit pour simuler facilement les allocations de places par trajet auprès des équipes.
LSTMDeep Learning Linear ProgrammingStreamlitMySQL
03 — Expertise

Compétences techniques

Du machine learning à l'ingénierie cloud — un stack complet pour l'IA en production.

AI / Machine Learning
Machine Learning
95%
Deep Learning / NLP
90%
GenAI / LLM / RAG
88%
Computer Vision
86%
Recherche Opérationnelle
82%
96%
Maîtrise Python — stack principal
Engineering & Cloud
Python
96%
Azure Databricks
85%
PySpark / Big Data
83%
SQL / NoSQL
80%
Power BI / Dataiku
80%
Stack complet
PythonPySparkTensorFlow Scikit-learnLangChainPandas YOLOv8/v9LightGBMGPT Surya OCRTesseractAzure Databricks Azure DevOpsElasticsearchMySQL Power BIDataikuStreamlit GitRLaTeXSAS
Profil compétences
04 — Formation

Parcours académique

2022 — 2023
Master 2 — Machine Learning for Data Science
Université Paris Cité
Paris, France
ML · Deep Learning · NLP · Time Series · Text Mining · Data Engineering · Project Management
2019 — 2022
Diplôme d'Ingénieur — Statistiques & Recherche Opérationnelle
INSEA — Institut National de Statistique et d'Économie Appliquée
Rabat, Maroc
Statistiques avancées · Recherche Opérationnelle · Optimisation · Métaheuristiques · Programmation
2017 — 2019
CPGE — Concours National Commun Maths-Physique
Lycée Moulay Youssef
Rabat, Maroc
Dataiku Core Designer Udemy — Machine Learning A–Z AWS Bedrock · GenAI · AI Agents · RAG Champion du Maroc Basketball 2014 8ème place Euro Pacé 2013
05 — Contact

Restons en contact

Ouvert aux opportunités

Je recherche des postes Data Scientist, Data Engineer ou ML Engineer à Paris et en remote. Si vous construisez quelque chose d'ambitieux avec l'IA, j'aimerais en discuter !

Envoyer un email →