Stage M 2 : Système hybride d’optimisation du covoiturage étudiant : intégration planification offline et décisions dynamiques temps réel par apprentissage par renforcement H/F CESI

Vandœuvre-lès-Nancy (54)Stage
Il y a 1 heuresSoyez parmi les premiers à postulerCandidature facile

Description du poste

Intégrer Linéact au sein de CESI pour un stage de recherche serait une formidable opportunité de contribuer à des projets innovants, tout en approfondissant mes compétences dans un environnement à la pointe de la transformation numérique et de l'industrie 4.0.

Projet de stage

Sujet de stage résumé

Ce stage s'inscrit dans le cadre du projet 'Mon Trajet Vert' et vise à développer un système hy- bride d'optimisation du covoiturage étudiant intégrant deux horizons temporels complémentaires

: une couche de planification offline (optimisation MILP à J-1) pour les étudiants confirmés, et une couche de décisions dynamiques temps réel (apprentissage par renforcement) pour gérer les demandes spontanées et les perturbations.

L'originalité de l'approche réside dans la coordination formalisée entre optimisation math- ématique et apprentissage automatique séquentiel. La méthodologie s'appuiera sur les travaux antérieurs du laboratoire. Le stage étendra ces infrastructures en développant un agent PPO (Proximal Policy Optimization) contraint opérant sur un graphe dynamique des opportunités de covoiturage.

Les statistiques du campus CESI Strasbourg révèlent que 32% des étudiants décident de leur venue moins de 24h avant le départ, et 15% d'annulations surviennent le jour même. Le système hybride proposé permettra de capturer ces opportunités tout en garantissant la stabilité des plans établis pour les étudiants planificateurs. L'approche combinera modélisation par processus de décision markovien contraint (CMDP), algorithmes de réoptimisation incrémentale, et validation expérimentale par simulation Monte Carlo sur données réelles, avec un potentiel de publication.

Projet de stage

Contexte scientifique

Les systèmes de covoiturage contemporains adoptent majoritairement soit une approche pure- ment planifiée (optimisation offline avec engagements à l'avance), soit une approche purement dynamique (matching temps réel sans préplanification). Cette dichotomie présente des limita- tions structurelles : les systèmes planifiés manquent de flexibilité face aux imprévus, tandis que les systèmes dynamiques souffrent d'une fragmentation des opportunités et d'une sous-optimalité globale.

État de l'art et positionnement scientifique

Les travaux récents sur l'optimisation du covoiturage étudiant [1, 2] ont établi des résultats prometteurs avec des réductions de véhicules de l'ordre de 35-51% via optimisation MILP multi- objectifs. Parallèlement, les approches d'apprentissage par renforcement pour le covoiturage dynamique [3, 4] ont démontré leur capacité à gérer des décisions séquentielles dans des environ- nements incertains. Cependant, l'intégration cohérente de ces deux paradigmes dans un cadre unifié reste largement inexplorée.

Les rares travaux hybrides existants [5, 6] utilisent soit des heuristiques de réaffectation sans garanties théoriques, soit des modèles simplifiés ne capturant pas la complexité des contraintes réelles (capacités véhicules, fenêtres temporelles, préférences utilisateurs). Notre approche se distingue par :

  1. Formalisation CMDP rigoureuse : modélisation par processus de décision markovien contraint avec fonction de récompense multi-objectifs et contraintes explicites (temporelles, capacité, équité)

  1. Architecture à deux couches coordonnées : décomposition claire entre planifica- tion stratégique (MILP) et gestion tactique temps réel (RL) avec mécanismes de verrouil- lage/flexibilité

  1. Graphe dynamique des opportunités : représentation évolutive du réseau de cov- oiturage avec mise à jour incrémentale des compatibilités spatio-temporelles

  1. Validation empirique robuste : simulation Monte Carlo sur 1000+ journées avec mod- élisation stochastique des annulations et demandes spontanées

Ces travaux s'inscrivent dans la continuité directe des recherches antérieures du laboratoire sur l'optimisation du covoiturage étudiant et l'apprentissage des préférences [7, 8], en les étendant au cadre dynamique avec des défis algorithmiques et théoriques significativement accrus.

Sujet de stage

Ce stage vise à développer un système hybride complet d'optimisation du covoiturage pour la mo- bilité étudiante du campus CESI Strasbourg, en capitalisant sur les infrastructures d'optimisation et de prédiction ML existantes. Le système intégrera de manière cohérente :

  • Une couche planifiée offline : optimisation MILP multi-objectifs (réutilisation pipeline existant) pour étudiants confirmant leur venue à J-1 (68% de la population)

  • Une couche dynamique online : agent d'apprentissage par renforcement (PPO contraint) gérant demandes spontanées (22%) et annulations (15%)

  • Un module d'arbitrage ML : extension du réseau de neurones existant pour prédiction temps réel de l'acceptabilité des matchings proposés

  • Des mécanismes de fallback : alternatives automatiques (transport public, vélo) en cas d'échec de matching

Le/la stagiaire travaillera en étroite collaboration avec l'encadrant sur la formalisation théorique du CMDP, l'implémentation de l'agent RL, l'intégration avec le pipeline d'optimisation existant, et la validation expérimentale rigoureuse. Le projet s'inscrit dans l'initiative 'Mon Trajet Vert' et bénéficiera de l'accès aux données d'enquêtes et aux infrastructures de simulation SUMO existantes.

Objectifs de stage

Formalisation théorique et architecture système (Mois 1-2) :

  • Modélisation CMDP : définition espace d'états (graphe opportunités dynamique), actions (assignation, création véhicule, refus), contraintes (temporelles, capacité, équité)

  • Spécification fonction de récompense multi-objectifs (CO2, utilisation capacité, satisfaction, temps attente)

  • Conception architecture à deux couches avec protocoles de communication (états verrouil- lés/flexibles, triggers de réoptimisation)

  • Formalisation mécanismes de gestion de l'incertitude (modèles stochastiques annulations, prédiction fiabilité demandes)

    Implémentation graphe dynamique et gestion événementielle (Mois 2-3) :

  • Développement structure de données graphe dynamique (nœuds : étudiants/conducteurs, arêtes : compatibilités spatio-temporelles)

  • Implémentation moteur événementiel (nouvelle…

Description du profil

Profil recherché :

  • Étudiant(e) en Master 2 Recherche Opérationnelle, Intelligence Artificielle, Data Science, ou équivalent

  • Élève-ingénieur(e) 5ème année avec spécialisation RL/Optimisation/Transport

  • Fort intérêt pour les systèmes décisionnels séquentiels et l'optimisation sous incertitude

  • Motivation pour la publication scientifique et potentiellement une poursuite en thèse

Compétences scientifiques et techniques :

  • Apprentissage par renforcement : Solides connaissances en RL (Q-learning, DQN, Pol- icy Gradient, PPO). Expérience pratique avec frameworks (Stable-Baselines3, Ray RLlib) fortement valorisée.

  • Recherche opérationnelle : Bonnes connaissances en programmation linéaire mixte (MILP), optimisation multi-objectifs, et compréhension des compromis optimisation exacte vs heuris- tique.

  • Programmation scientifique avancée : Excellente maîtrise Python (NumPy, Pandas, PyTorch/TensorFlow, OR-Tools/Gurobi). Expérience avec architectures événementielles et systèmes temps réel.

  • Modélisation stochastique : Compréhension des processus de décision markoviens (MDP/CMDP), théorie des graphes dynamiques, et gestion de l'incertitude.

  • Rigueur méthodologique : Capacité à mener une démarche scientifique complète incluant formalisation mathématique, implémentation, validation expérimentale et analyse statistique.

Compétences relationnelles :

  • Autonomie et esprit d'initiative dans la conduite de travaux de recherche appliquée

  • Capacité à travailler en équipe pluridisciplinaire (optimisation, ML, transport)

  • Rigueur et méthodologie dans l'approche scientifique et la documentation technique

  • Bonnes capacités rédactionnelles en français et anglais scientifique

Gratification à 15% du plafond horaire de la Sécurité Sociale

Date de début : Février 2026

Votre candidature devra comporter :

  • Un Curriculum-Vitae ;

  • Une lettre de motivation pour le sujet ;

  • Notes du parcours (Licence ou autre) et du master en cours ;

  • Lettres de recommandation si disponibles.

Références.

  1. El Mourabit, B., & Bezoui, M. (2025). 'Conception d'un système d'optimisation de trajets partagés pour la mobilité étudiante.' Rapport de stage Master IMSD, Université de Lorraine.

  1. Ibnelbey, R., & Bezoui, M. (2025). 'Preference-based multi-criteria optimization for student transportation: A machine learning approach.' Actes ROADEF 2025, Champs-sur-Marne, France.

  1. Wen, J., Zhao, J., & Jaillet, P. (2017). 'Rebalancing shared mobility-on-demand systems: A reinforcement learning approach.' 20th IEEE International Conference on Intelligent Trans- portation Systems (ITSC), 220-225.

  1. Lin, K., Zhao, R., Xu, Z., & Zhou, J. (2018). 'Efficient large-scale fleet management via multi-agent deep reinforcement learning.' Proceedings of the 24th ACM SIGKDD, 1774-1783.

  1. Ma, T. Y., Rasulkhani, S., Chow, J. Y., & Klein, S. (2019). 'A dynamic ridesharing dispatch and idle vehicle repositioning strategy with integrated transit transfers.' Transportation Re- search Part E: Logistics and Transportation Review, 128, 417-442.

  1. Alonso-Mora, J., Samaranayake, S., Wallar, A., Frazzoli, E., & Rus, D. (2017). 'On-demand high-capacity ride-sharing via dynamic trip-vehicle assignment.' Proceedings of the National Academy of Sciences, 114(3), 462-467.

  1. Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O. (2017). 'Proximal policy optimization algorithms.' arXiv preprint arXiv:1707.06347.

  1. Altman, E. (1999). 'Constrained Markov decision processes.' CRC Press, Vol. 7.

  1. Agatz, N., Erera, A., Savelsbergh, M., & Wang, X. (2012). 'Optimization for dynamic ride-sharing: A review.' European Journal of Operational Research, 223(2), 295-303.

  1. Furuhata, M., et al. (2013). 'Ridesharing: The state-of-the-art and future directions.'

Transportation Research Part B: Methodological, 57, 28-46.

  1. Bezoui, M., Olteanu, A. L., & Sevaux, M. (2022). 'Integrating preferences within multi- objective flexible job shop scheduling.' European Journal of Operational Research, 305(3), 1079-1086.

  1. Sutton, R. S., & Barto, A. G. (2018). 'Reinforcement learning: An introduction.' MIT press, Second Edition.

Intégrer Linéact au sein de CESI pour un stage de recherche serait une formidable opportunité de contribuer à des projets innovants, tout en approfondissant mes compétences dans un environnement à la

L'entreprise : CESI

CESI est une école d'ingénieurs qui fait de la promotion sociale par l'excellence un modèle de réussite. Rejoignez un environnement stimulant où l'esprit d'équipe, la diversité des projets et l'autonomie ne font qu'un. Découvrez une école qui a su développer un modèle unique et se donne les moyens au quotidien de relever les grands défis de l'époque. Nos 25 campus, 28 000 étudiants, 8000 entreprises partenaires et 106 000 alumni témoignent de l'impact de CESI au niveau national.

CESI accompagne ses étudiants en utilisant des méthodes innovantes de pédagogie active. L'établissement forme avec rigueur les futurs ingénieurs, techniciens et managers, dans les secteurs suivants : l'Industrie & l'Innovation, le BTP, l'Informatique et le Numérique et le Développement Durable. Parallèlement, CESI concrétise son engagement dans la Recherche à travers des activités menées au sein de son Laboratoire d'Innovation Numérique, CESI LINEACT.

Les partenariats établis avec 130 universités à travers le globe, attestent de l'engagement international de CESI. Ces liens privilégiés offrent aux élèves ingénieurs une mobilité sortante et entrante à l'échelle internationale, façonnée notamment par des stages obligatoires faisant partie intégrante de leur cursus.

Référence : 2379285

Recommandé pour vous

Expert(e) en Marketing Automation & IA H/F PLUS QUE PRO
Obernai (67)CDI Il y a 10 jours
Alternance Data Analyst H/F - Strasbourg (F/H) ISCOD ALTERNANCE
Strasbourg (67)Alternance / Apprentissage Il y a 7 jours