Reinforcement Learning: Algorithms and Applications

5.00 crédits

30.0 h + 15.0 h

Enseignants

Cappart Quentin; Piette Eric;

Langue
d'enseignement

Anglais
> Facilités pour suivre le cours en français

Préalables

Intelligence artificielle, tel que couvert par LINFO1361

Thèmes abordés

Fondements de l’apprentissage par renforcement (RL)
Bandits multi-bras et exploration/exploitation
Processus de décision de Markov (MDP)
Résolution par programmation dynamique
Méthodes de Monte Carlo
Méthodes de Temporal Difference Learning (Q-learning)
Apprentissage par renforcement profond
Approximations de valeur (DQN et variantes)
Méthodes de policy gradient (REINFORCE, AC, PPO)
Arbres de recherche de Monte-Carlo
Large Reasoning Models et RL from Human Feedback
Applications aux jeux et environnements simulés
Enjeux contemporains, limites et perspectives du RL

Acquis
d'apprentissage

A la fin de cette unité d’enseignement, l’étudiant est capable de :

Eu égard au référentiel AA du programme « Master en sciences informatiques », ce cours contribue au développement, à l’acquisition et à l’évaluation des acquis d’apprentissage suivants :

SINF1.M4
SINF2.1-4
SINF5.3-4
SINF6.1, SINF6.4, SINF6.5

Les étudiants ayant suivi ce cours seront capables de :

Modéliser un problème en termes de processus de décision de Markov
Implémenter des algorithmes de RL classiques (Q-Learning, Monte Carlo, etc.)
Comprendre les enjeux de l’exploration et de l’approximation des fonctions de valeur
Implémenter des algorithmes de RL contemporains (DQN, REINFORCE, PPO, etc.)
Décrire le fonctionnement des Large Reasoning Models et leur usage dans le RL from Human Feedback
Appliquer le RL sur des environnements simulés (jeux, tâches de contrôle)
Lire, comprendre, et analyser des articles scientifiques dans le domaine du RL
Analyser les performances et les limites des approches implémentées

Contenu

Introduction générale au RL (agent, environnement, états, actions, récompenses, politique, fonctions de valeurs, convergence).

Bandits multi-bras (Exploration/Exploitation, ε-greedy, upper confidence bound, softmax, Thompson sampling, Regrets)

Processus de décision de Markov : formalisme et dynamique (Propriété de Markov, Politiques stochastiques vs déterministes, Fonctions action-valeur, équation de Bellman, Optimalité)

Résolution par programmation dynamique (policy evaluation, policy iteration, value iteration)

Méthodes de Monte Carlo (estimation de valeurs d’états et valeur d’actions, convergence)

Temporal Difference Learning (Bootstrap, TD(0), Variance, Apprentissage en ligne)

Algorithmes Q-Learning

Approximation de fonction et Deep Q-Networks (Gradient, Approximation non linéaire, DQN)

Arbres de recherche de Monte-Carlo et variantes profondes

Exploration avancée (REINFORCE, Actor-Critic, Proximal Policy Optimization)

Introduction aux Large Reasoning Models (LRMs) et RL from Human Feedback (RLHF) - Language Modeling, Direction Preference Optimization (DPO), supervised Fine-Turning

Applications aux jeux et environnements simulés avec la librairie open-source Gymnasium

Études de cas (Atari, CartPole, LunarLander) et/ou projet pratique d’implémentation et analyse comparative des méthodes

Autres infos

Préalables :

LBIR1304 ou LFSAB1105 : un cours de calcul des probabilités et de statistique mathématique,
LBIR1200 ou LFSAB1101 : un cours de calcul matriciel et d'algèbre linéaire,
LFSAB1402 : un bon cours de programmation Python,
Un cours d'analyse multivariée (mathématiques).

Ressources
en ligne

Disponibles sur la page Moodle du cours

Bibliographie

Some recommended reference books :

Alpaydin (2004), "Introduction to machine learning". MIT Press.
Bardos (2001), "Analyse discriminante. Application au risque et scoring financier. Dunod.
Bishop (1995), "Neural networks for pattern recognition". Clarendon Press.
Bishop (2006), "Pattern recognition and machine learning". Springer-Verlag.
Bouroche & Saporta (1983), "L'analyse des données". Que Sais-je.
Cornuéjols & Miclet (2002), "Apprentissage artificiel. Concepts et algorithmes". Eyrolles.
Duda, Hart & Stork (2001), "Pattern classification, 2nd ed". John Wiley & Sons.
Dunham (2003), "Data mining. Introductory and advanced topics". Prentice-Hall.
Greenacre (1984), "Theory and applications of correspondence analysis". Academic Press.
Han & Kamber (2005), "Data mining: Concepts and techniques, 2nd ed.". Morgan Kaufmann.
Hand (1981), "Discrimination and classification". John Wiley & Sons.
Hardle & Simar (2003), "Applied multivariate statistical analysis". Springer-Verlag. Disponible à http://www.quantlet.com/mdstat/scripts/mva/htmlbook/mvahtml.html
Hastie, Tibshirani & Friedman (2001), "The elements of statistical learning". Springer-Verlag.
Johnson & Wichern (2002), "Applied multivariate statistical analysis, 5th ed". Prentice-Hall.
Lebart, Morineau & Piron (1995), "Statistique exploratoire multidimensionnelle". Dunod.
Mitchell (1997), "Machine learning". McGraw-Hill.
Naim, Wuillemin, Leray, Pourret & Becker (2004), "Réseaux bayesiens". Editions Eyrolles.
Nilsson (1998), "Artificial intelligence: A new synthesis". Morgan Kaufmann.
Ripley (1996), "Pattern recognition and neural networks". Cambridge University Press.
Rosner (1995), "Fundamentals of biostatistics, 4th ed".Wadsworth Publishing Company.
Saporta (1990), "Probabilités, analyse des données et statistique". Editions Technip.
Tan, Steinbach & Kumer (2005), "Introduction to data mining". Pearson.
Theodoridis & Koutroumbas (2003), "Pattern recognition, 3th ed". Academic Press.
Therrien (1989), "Decision, estimation and classification". Wiley & Sons.
Venables & Ripley (2002), "Modern applied statistics with S. Springer-Verlag.
Webb (2002), "Statistical pattern recognition, 2nd ed". John Wiley and Sons.

Faculté ou entité
en charge

> INFO

Programmes / formations proposant cette unité d'enseignement (UE)

Intitulé du programme

Sigle

Crédits

Prérequis

Acquis
d'apprentissage

Master [120] en science des données, orientation statistique

DATS2M

Master [120] : ingénieur civil en chimie et science des matériaux

KIMA2M

Master [120] : ingénieur civil des constructions

GCE2M

Master [120] : ingénieur civil biomédical

GBIO2M

Master [120] : bioingénieur en gestion des forêts et des espaces naturels

BIRF2M

Master [120] : bioingénieur en sciences et technologies de l'environnement

BIRE2M

Master [120] : ingénieur civil mécanicien

MECA2M

Master [120] : ingénieur civil électricien

ELEC2M

Master [120] : ingénieur civil physicien

FYAP2M

Master [120] : bioingénieur en chimie et bioindustries

BIRC2M

Master [120] : ingénieur civil en informatique

INFO2M

Master [120] en sciences informatiques

SINF2M

Master [120] : ingénieur civil électromécanicien

ELME2M

Master [120] : ingénieur civil en mathématiques appliquées

MAP2M

Master [120] : ingénieur civil en science des données

DATE2M

Certificat d'université : Statistique et science des données (15/30 crédits)

STAT2FC

Master [120] : bioingénieur en sciences agronomiques

BIRA2M

Master [120] en science des données, orientation technologies de l'information

DATI2M

Master [120] : ingénieur civil en génie de l'énergie

NRGY2M