Reinforcement Learning: Algorithms and Applications

linfo2275  2026-2027  Louvain-la-Neuve

Reinforcement Learning: Algorithms and Applications
La version que vous consultez n'est pas définitive. Cette fiche d’activité peut encore faire l'objet de modifications. La version finale sera disponible le 1er juin.
5.00 crédits
30.0 h + 15.0 h
Q2
Enseignants
Préalables
Intelligence artificielle, tel que couvert par LINFO1361
Thèmes abordés
  • Fondements de l’apprentissage par renforcement (RL)
  • Bandits multi-bras et exploration/exploitation
  • Processus de décision de Markov (MDP)
  • Résolution par programmation dynamique
  • Méthodes de Monte Carlo
  • Méthodes de Temporal Difference Learning (Q-learning)
  • Apprentissage par renforcement profond
  • Approximations de valeur (DQN et variantes)
  • Méthodes de policy gradient (REINFORCE, AC, PPO)
  • Arbres de recherche de Monte-Carlo
  • Large Reasoning Models et RL from Human Feedback
  • Applications aux jeux et environnements simulés
  • Enjeux contemporains, limites et perspectives du RL
Acquis
d'apprentissage

A la fin de cette unité d’enseignement, l’étudiant est capable de :

Eu égard au référentiel AA du programme « Master en sciences informatiques », ce cours contribue au développement, à l’acquisition et à l’évaluation des acquis d’apprentissage suivants :
  • SINF1.M4
  • SINF2.1-4
  • SINF5.3-4
  • SINF6.1, SINF6.4, SINF6.5
Les étudiants ayant suivi ce cours seront capables de :
  • Modéliser un problème en termes de processus de décision de Markov
  • Implémenter des algorithmes de RL classiques (Q-Learning, Monte Carlo, etc.)
  • Comprendre les enjeux de l’exploration et de l’approximation des fonctions de valeur
  • Implémenter des algorithmes de RL contemporains (DQN, REINFORCE, PPO, etc.)
  • Décrire le fonctionnement des Large Reasoning Models et leur usage dans le RL from Human Feedback
  • Appliquer le RL sur des environnements simulés (jeux, tâches de contrôle)
  • Lire, comprendre, et analyser des articles scientifiques dans le domaine du RL
  • Analyser les performances et les limites des approches implémentées
 
Contenu
  • Introduction générale au RL (agent, environnement, états, actions, récompenses, politique, fonctions de valeurs, convergence). 
  • Bandits multi-bras (Exploration/Exploitation, ε-greedy, upper confidence bound, softmax, Thompson sampling, Regrets
  • Processus de décision de Markov : formalisme et dynamique (Propriété de Markov, Politiques stochastiques vs déterministes, Fonctions action-valeur, équation de Bellman, Optimalité) 
  • Résolution par programmation dynamique (policy evaluation, policy iteration, value iteration
  • Méthodes de Monte Carlo (estimation de valeurs d’états et valeur d’actions, convergence) 
  • Temporal Difference Learning (Bootstrap, TD(0), Variance, Apprentissage en ligne) 
  • Algorithmes Q-Learning 
  • Approximation de fonction et Deep Q-Networks (Gradient, Approximation non linéaire, DQN
  • Arbres de recherche de Monte-Carlo et variantes profondes 
  • Exploration avancée (REINFORCE, Actor-Critic, Proximal Policy Optimization
  • Introduction aux Large Reasoning Models (LRMs) et RL from Human Feedback (RLHF) - Language Modeling, Direction Preference Optimization (DPO), supervised Fine-Turning 
  • Applications aux jeux et environnements simulés avec la librairie open-source Gymnasium 
  • Études de cas (Atari, CartPole, LunarLander) et/ou projet pratique d’implémentation et analyse comparative des méthodes
Autres infos
Préalables :
  • LBIR1304 ou LFSAB1105 : un cours de calcul des probabilités et de statistique mathématique,
  • LBIR1200 ou LFSAB1101 : un cours de calcul matriciel et d'algèbre linéaire,
  • LFSAB1402 : un bon cours de programmation Python,
  • Un cours d'analyse multivariée (mathématiques).
Ressources
en ligne
Disponibles sur la page Moodle du cours
Bibliographie
Some recommended reference books :
  • Alpaydin (2004), "Introduction to machine learning". MIT Press.
  • Bardos (2001), "Analyse discriminante. Application au risque et scoring financier. Dunod.
  • Bishop (1995), "Neural networks for pattern recognition". Clarendon Press.
  • Bishop (2006), "Pattern recognition and machine learning". Springer-Verlag.
  • Bouroche & Saporta (1983), "L'analyse des données". Que Sais-je.
  • Cornuéjols & Miclet (2002), "Apprentissage artificiel. Concepts et algorithmes". Eyrolles.
  • Duda, Hart & Stork (2001), "Pattern classification, 2nd ed". John Wiley & Sons.
  • Dunham (2003), "Data mining. Introductory and advanced topics". Prentice-Hall.
  • Greenacre (1984), "Theory and applications of correspondence analysis". Academic Press.
  • Han & Kamber (2005), "Data mining: Concepts and techniques, 2nd ed.". Morgan Kaufmann.
  • Hand (1981), "Discrimination and classification". John Wiley & Sons.
  • Hardle & Simar (2003), "Applied multivariate statistical analysis". Springer-Verlag. Disponible à http://www.quantlet.com/mdstat/scripts/mva/htmlbook/mvahtml.html
  • Hastie, Tibshirani & Friedman (2001), "The elements of statistical learning". Springer-Verlag.
  • Johnson & Wichern (2002), "Applied multivariate statistical analysis, 5th ed". Prentice-Hall.
  • Lebart, Morineau & Piron (1995), "Statistique exploratoire multidimensionnelle". Dunod.
  • Mitchell (1997), "Machine learning". McGraw-Hill.
  • Naim, Wuillemin, Leray, Pourret & Becker (2004), "Réseaux bayesiens". Editions Eyrolles.
  • Nilsson (1998), "Artificial intelligence: A new synthesis". Morgan Kaufmann.
  • Ripley (1996), "Pattern recognition and neural networks". Cambridge University Press.
  • Rosner (1995), "Fundamentals of biostatistics, 4th ed".Wadsworth Publishing Company.
  • Saporta (1990), "Probabilités, analyse des données et statistique". Editions Technip.
  • Tan, Steinbach & Kumer (2005), "Introduction to data mining". Pearson.
  • Theodoridis & Koutroumbas (2003), "Pattern recognition, 3th ed". Academic Press.
  • Therrien (1989), "Decision, estimation and classification". Wiley & Sons.
  • Venables & Ripley (2002), "Modern applied statistics with S. Springer-Verlag.
  • Webb (2002), "Statistical pattern recognition, 2nd ed". John Wiley and Sons.
Faculté ou entité
en charge


Programmes / formations proposant cette unité d'enseignement (UE)

Intitulé du programme
Sigle
Crédits
Prérequis
Acquis
d'apprentissage
Master [120] en science des données, orientation statistique

Master [120] : ingénieur civil en chimie et science des matériaux

Master [120] : ingénieur civil des constructions

Master [120] : ingénieur civil biomédical

Master [120] : bioingénieur en gestion des forêts et des espaces naturels

Master [120] : bioingénieur en sciences et technologies de l'environnement

Master [120] : ingénieur civil mécanicien

Master [120] : ingénieur civil électricien

Master [120] : ingénieur civil physicien

Master [120] : bioingénieur en chimie et bioindustries

Master [120] : ingénieur civil en informatique

Master [120] en sciences informatiques

Master [120] : ingénieur civil électromécanicien

Master [120] : ingénieur civil en mathématiques appliquées

Master [120] : ingénieur civil en science des données

Certificat d'université : Statistique et science des données (15/30 crédits)

Master [120] : bioingénieur en sciences agronomiques

Master [120] en science des données, orientation technologies de l'information

Master [120] : ingénieur civil en génie de l'énergie