GRO860 - Apprentissage par renforcement et commande optimale

Préface

Pourquoi ce cours?

Comprendre les fondements de l'apprentissage par renforcement et la commande optimale
Faire les liens avec la science des asservissements;
Apprendre à utiliser des algorithmes pour synthétiser des politiques optimales

"Du choix des forces dans un robot jusqu'au choix de la pièce à déplacer dans un jeu d'échec."

Cours à option à l'université de sherbrooke, typiquement offert à l'automne, sigle GRO860

Vidéo de présentation du cours

Aperçu visuel

Approximation du coût-à-venir

Visualisation de politiques optimales

Introduction

Une approche unifiée pour la science de la prise de decision en temps réel.

Le but du cours est de faire le lien entre le domaine des asservissements et les algorithmes de décision basé sur l'IA. Le cours présentera les outils pour vous permettre de de traduire un problème de décisions en temps réel sous la représentation mathématique adapté pour synthétiser et optimiser une politique de décision, avec des applications dans plusieurs domaines de la robotique à la finance.

Ce cours présente les approches pour prendre des décisions intelligentes sous un cadre théorique unifié basé sur le principe de la programmation dynamique. Il vise d'abord a établir les liens entre les approches issues du domaine de l'ingénierie (la science des asservissements et la commande optimale) et les approches issues des sciences informatiques (recherche opérationnelle et l'apprentissage par renforcement) qui ont en fait les même bases mathématiques.

Plusieurs problèmes en apparence très différents, sont en fait des problèmes qu'on peut analyser et résoudre avec les mêmes outils mathématiques

Cibles de formation

À la fin de ce cours, vous serez en mesure de :

Formuler un problème complexe de décision séquentielle en temps réel sour la forme d'un problème de commande optimale ou d'apprentissage par renforcement.
Concevoir et optimiser une loi de commande ou une politique de décision intelligente en utilisant les algorithmes adaptés.
Évaluer la performance et la robustesse d'une politique de décision dans un environnement de simulation.

Déroulement du cours et Évaluation

Déroulement

Le cours combine des séances de cours théorique, des démonstrations algorithmiques et des laboratoires pratiques (Python/Gymnasium) pour mettre en œuvre les concepts d'apprentissage par renforcement.

Évaluation

L'évaluation repose sur des devoirs analytiques et de programmation (Python), un examen théorique mi-session et un projet final de session au choix de l'étudiant.

Guide du cours

Cette section présente les liens vers le matériel et les livrables semaines par semaines:

Semaine	Matériel	Exercices	Livrables
1 25 Août	Introduction Formulation du problème: fonction de coût, contraintes, politique, etc. Lectures = Notes chapitre 1	C.1.1 C.1.2 C.1.3 C.1.4 : Learn to fly with PPO	C.1.5 : Fonction de coût pour un pendule
2 8 Sept	Programmation dynamique Lectures : Notes chapitre 2	C.2.3 : Thermostat optimal C.2.4 : Chemin le plus court dans un graphe	C.2.1 : Navigation optimale dans un graphe
3 15 Sept	Commande stochastique Lectures = Notes chapitre 3 et 4	C.3.2 Gestion d'une diva à l'opéra C.4.1 Commande minimax pour tic-tac-toe C.3.3 Stratégie optimale aux échecs	C.3.1 Loi de commande pour une suspension active
4 22 Sept	Équation de Bellman et algorithmes Lectures = Notes chapitres 5 et 7	C.6.2 : Algorithme d'itération de valeur C.6.3 : Évaluation d'une politique	C.6.1 Gestion optimale d'un barrage
5 29 Sept	Laboratoire Pratique Gymnasium et Stable-baseline3	C.8.1 C.8.2	C.8.3
6 6 Oct	Apprentissage par renforcement (Q-learning) Lecture = Notes chapitre 8	C.7.3 From DP to Q-learning C.7.4 Q-learning avec des échantillons	C.7.1 Q-learning pour une navigation optimale
7 27 Oct	Solution LQR Lectures = Notes chapitre 6	C.5.2 Équation HJB et solution LQR	C.5.1 Solution LQR par dynamique
8 3 Nov	Approximation de fonctions Lecture = Notes chapitre 9	C.7.5 C.7.6	C.7.2 Q-learning approx.
9 10 Nov	Familles d'algorithmes	-	Définition de projet
10 17 Nov	Examen Théorique	-	-
11-12	Support projet	-	-
13 8 Déc	Présentations finales	-	Projet de session

Préface

Pourquoi ce cours?

"Du choix des forces dans un robot jusqu'au choix de la pièce à déplacer dans un jeu d'échec."

Aperçu visuel

Introduction

Une approche unifiée pour la science de la prise de decision en temps réel.

Cibles de formation

Déroulement du cours et Évaluation

Déroulement

Évaluation

Guide du cours

1

Introduction

2

Programmation dynamique

3

Commande stochastique

4

Équation de Bellman et algorithmes

5

Laboratoire Pratique

6

Apprentissage par renforcement (Q-learning)

7

Solution LQR

8

Approximation de fonctions

9

Familles d'algorithmes

10

Examen Théorique

11-12

Support projet

13

Présentations finales

Ressources