Reinforcement Learning: Algorithms and Applications

linfo2275  2026-2027  Louvain-la-Neuve

Reinforcement Learning: Algorithms and Applications
5.00 crédits
30.0 h + 15.0 h
Q2
Préalables
Intelligence artificielle, tel que couvert par LINFO1361
Thèmes abordés
  • Fondements de l’apprentissage par renforcement (RL)
  • Bandits multi-bras et exploration/exploitation
  • Processus de décision de Markov (MDP)
  • Résolution par programmation dynamique
  • Méthodes de Monte Carlo
  • Méthodes de Temporal Difference Learning (Q-learning)
  • Apprentissage par renforcement profond
  • Approximations de valeur (DQN et variantes)
  • Méthodes de policy gradient (REINFORCE, AC, PPO)
  • Arbres de recherche de Monte-Carlo
  • Large Reasoning Models et RL from Human Feedback
  • Applications aux jeux et environnements simulés
  • Enjeux contemporains, limites et perspectives du RL
Acquis
d'apprentissage

A la fin de cette unité d’enseignement, l’étudiant est capable de :

Eu égard au référentiel AA du programme « Master en sciences informatiques », ce cours contribue au développement, à l’acquisition et à l’évaluation des acquis d’apprentissage suivants :
  • SINF1.M4
  • SINF2.1-4
  • SINF5.3-4
  • SINF6.1, SINF6.4, SINF6.5
Les étudiants ayant suivi ce cours seront capables de :
  • Modéliser un problème en termes de processus de décision de Markov
  • Implémenter des algorithmes de RL classiques (Q-Learning, Monte Carlo, etc.)
  • Comprendre les enjeux de l’exploration et de l’approximation des fonctions de valeur
  • Implémenter des algorithmes de RL contemporains (DQN, REINFORCE, PPO, etc.)
  • Décrire le fonctionnement des Large Reasoning Models et leur usage dans le RL from Human Feedback
  • Appliquer le RL sur des environnements simulés (jeux, tâches de contrôle)
  • Lire, comprendre, et analyser des articles scientifiques dans le domaine du RL
  • Analyser les performances et les limites des approches implémentées
 
Contenu
  • Introduction générale au RL (agent, environnement, états, actions, récompenses, politique, fonctions de valeurs, convergence). 
  • Bandits multi-bras (Exploration/Exploitation, ε-greedy, upper confidence bound, softmax, Thompson sampling, Regrets
  • Processus de décision de Markov : formalisme et dynamique (Propriété de Markov, Politiques stochastiques vs déterministes, Fonctions action-valeur, équation de Bellman, Optimalité) 
  • Résolution par programmation dynamique (policy evaluation, policy iteration, value iteration
  • Méthodes de Monte Carlo (estimation de valeurs d’états et valeur d’actions, convergence) 
  • Temporal Difference Learning (Bootstrap, TD(0), Variance, Apprentissage en ligne) 
  • Algorithmes Q-Learning 
  • Approximation de fonction et Deep Q-Networks (Gradient, Approximation non linéaire, DQN
  • Arbres de recherche de Monte-Carlo et variantes profondes 
  • Exploration avancée (REINFORCE, Actor-Critic, Proximal Policy Optimization
  • Introduction aux Large Reasoning Models (LRMs) et RL from Human Feedback (RLHF) - Language Modeling, Direction Preference Optimization (DPO), supervised Fine-Turning 
  • Applications aux jeux et environnements simulés avec la librairie open-source Gymnasium 
  • Études de cas (Atari, CartPole, LunarLander) et/ou projet pratique d’implémentation et analyse comparative des méthodes
Autres infos
Préalables :
  • LBIR1304 ou LFSAB1105 : un cours de calcul des probabilités et de statistique mathématique,
  • LBIR1200 ou LFSAB1101 : un cours de calcul matriciel et d'algèbre linéaire,
  • LFSAB1402 : un bon cours de programmation Python,
  • Un cours d'analyse multivariée (mathématiques).
Ressources
en ligne
Disponibles sur la page Moodle du cours
Bibliographie
Some recommended reference books :
  • Alpaydin (2004), "Introduction to machine learning". MIT Press.
  • Bardos (2001), "Analyse discriminante. Application au risque et scoring financier. Dunod.
  • Bishop (1995), "Neural networks for pattern recognition". Clarendon Press.
  • Bishop (2006), "Pattern recognition and machine learning". Springer-Verlag.
  • Bouroche & Saporta (1983), "L'analyse des données". Que Sais-je.
  • Cornuéjols & Miclet (2002), "Apprentissage artificiel. Concepts et algorithmes". Eyrolles.
  • Duda, Hart & Stork (2001), "Pattern classification, 2nd ed". John Wiley & Sons.
  • Dunham (2003), "Data mining. Introductory and advanced topics". Prentice-Hall.
  • Greenacre (1984), "Theory and applications of correspondence analysis". Academic Press.
  • Han & Kamber (2005), "Data mining: Concepts and techniques, 2nd ed.". Morgan Kaufmann.
  • Hand (1981), "Discrimination and classification". John Wiley & Sons.
  • Hardle & Simar (2003), "Applied multivariate statistical analysis". Springer-Verlag. Disponible à http://www.quantlet.com/mdstat/scripts/mva/htmlbook/mvahtml.html
  • Hastie, Tibshirani & Friedman (2001), "The elements of statistical learning". Springer-Verlag.
  • Johnson & Wichern (2002), "Applied multivariate statistical analysis, 5th ed". Prentice-Hall.
  • Lebart, Morineau & Piron (1995), "Statistique exploratoire multidimensionnelle". Dunod.
  • Mitchell (1997), "Machine learning". McGraw-Hill.
  • Naim, Wuillemin, Leray, Pourret & Becker (2004), "Réseaux bayesiens". Editions Eyrolles.
  • Nilsson (1998), "Artificial intelligence: A new synthesis". Morgan Kaufmann.
  • Ripley (1996), "Pattern recognition and neural networks". Cambridge University Press.
  • Rosner (1995), "Fundamentals of biostatistics, 4th ed".Wadsworth Publishing Company.
  • Saporta (1990), "Probabilités, analyse des données et statistique". Editions Technip.
  • Tan, Steinbach & Kumer (2005), "Introduction to data mining". Pearson.
  • Theodoridis & Koutroumbas (2003), "Pattern recognition, 3th ed". Academic Press.
  • Therrien (1989), "Decision, estimation and classification". Wiley & Sons.
  • Venables & Ripley (2002), "Modern applied statistics with S. Springer-Verlag.
  • Webb (2002), "Statistical pattern recognition, 2nd ed". John Wiley and Sons.
Faculté ou entité
en charge


Programmes / formations proposant cette unité d'enseignement (UE)

Intitulé du programme
Sigle
Crédits
Prérequis
Acquis
d'apprentissage
Master [120] en science des données, orientation statistique

Master [120] : ingénieur civil en chimie et science des matériaux

Master [120] : ingénieur civil des constructions

Master [120] : ingénieur civil biomédical

Master [120] : bioingénieur en gestion des forêts et des espaces naturels

Master [120] : bioingénieur en sciences et technologies de l'environnement

Master [120] : ingénieur civil mécanicien

Master [120] : ingénieur civil électricien

Master [120] : ingénieur civil physicien

Master [120] : bioingénieur en chimie et bioindustries

Master [120] : ingénieur civil en informatique

Master [120] en sciences informatiques

Master [120] : ingénieur civil électromécanicien

Master [120] : ingénieur civil en mathématiques appliquées

Master [120] : ingénieur civil en science des données

Certificat d'université : Statistique et science des données (15/30 crédits)

Master [120] : bioingénieur en sciences agronomiques

Master [120] en science des données, orientation technologies de l'information

Master [120] : ingénieur civil en génie de l'énergie