Présentation de la société : SNCF
Le département IP3M (Intégration projet multi-métiers et mesure) de la Direction Technique assure, dès l'émergence, l'intégration des projets de conception multi-métiers de bout en bout en développant les nouveaux leviers de la modélisation dans le cadre de la continuité numérique.
Pour cela, IP3M déploie l'ingénierie d'intégration système et les outils accompagnant le pilotage des Haute Performance (projets ETCS ou CBTC) sur le réseau ferroviaire.
Dans ce cadre, la division Matrice, analysant et croisant les données multi-sources, et l'Agence Projets, pilotant les projets de modernisation de la signalisation Haute Performance, souhaitent développer un modèle RAG permettant de former les agents à la signalisation européenne, simplifier la lecture des référentiels et accompagner les études.
Missions
Spécialité : Data Science LLM
Description du poste :
Ce stage vise à explorer et implémenter des modèles LLM capables de traiter simultanément des données issues de différents formats, en particulier tableaux et images issus de PDF.
L'intégration de ces données multimodales est un défi important pour améliorer les performances des systèmes d'IA en matière d'analyse et de génération de contenu.
MISSIONS et RESPONSABILITES :
Le stagiaire sera affilié à deux entités : la section Datascience et Aide à la décision de la Division Matrice et à l'équipe RBC Argos de l'Agence Projets.
Il aura principalement pour mission de développer des algorithmes d'IA générative LLM pour la création de modules d'aide à la recherche sémantique :
o Effectuer une recherche bibliographique sur les dernières méthodes d'intégration multimodale dans les LLM et les techniques de pré-traitement des images, PDF et tableaux.
o Mettre en place un pipeline de traitement de données permettant d'extraire et de normaliser les informations contenues dans les fichiers PDF, images et tableaux pour les rendre compatibles avec les modèles de langage.
o Adapter et développer un fine-tuning des LLM sous Aws pour intégrer et traiter simultanément ces différents types de données.
o Évaluer les performances des modèles et des techniques développées.
Pour cela, le stagiaire devra :
- Connaitre le développement informatique Python sous l'environnement Aws
- Analyser de données multi-sources
- Echanger avec les métiers pour comprendre et analyser les besoins
- Valider et recetter les phases des projets
- Travailler avec des méthodes agiles avec les équipes
- Documenter les travaux afin d'assurer leur pérennité et de permettre d'envisager l'industrialisation
Profil recherché
Bac+4 / Bac+5 (Master, École d'ingénieurs)
- Domaine : Intelligence Artificielle, Machine Learning, Data Science
- Bonne compréhension des modèles LLM et de leur fonctionnement.
- Expérience avec les données multimodales : manipulation de textes, images (OpenCV, PIL, etc.) , et tableaux (Pandas, Excel) .
- Compétences en pré-traitement de données issues de PDF (extraction de texte et de tableaux, OCR) et en traitement d'images.
- Connaissance des frameworks Python et des bibliothèques de machine learning (Hugging Face, TensorFlow, PyTorch) .
- Esprit analytique et de recherche, capacité à résoudre des problèmes complexes et curiosité pour les nouvelles technologies.
- Frugalité
- Bon relationnel
- Maitrise de l'anglais technique (pour veille, publication et collaboration avec des partenaires européens)