Descriptif
Ce cours explore le développement d'agents autonomes, c'est-à-dire des systèmes qui perçoivent, apprennent et agissent de manière indépendante pour atteindre des objectifs dans des environnements incertains et dynamiques. Il s'appuie sur les fondements de la prise de décision probabiliste, de l'inférence et de la planification. Nous développons les processus de décision de Markov et les concepts clés associés. Pour acquérir des agents autonomes, nous nous tournons principalement vers les algorithmes d'apprentissage par renforcement, notamment le Q-Learning profond (et ses variantes), les architectures Policy Gradient et Actor Critic. Nous étudions également des méthodologies telles que l'apprentissage basé sur les modèles, l'optimisation sans gradient, l'apprentissage par imitation et d'autres approches pour obtenir des agents capables de prendre des décisions séquentielles, telles que le contrôle basé sur les modèles et les transformateurs de décision. Nous abordons également des sujets connexes et spécialisés tels que l'apprentissage par renforcement hors ligne, l'apprentissage par renforcement distributionnel, ainsi que l'apprentissage par imitation et par renforcement inverse. Nous nous concentrons sur la construction d'algorithmes basés sur des architectures neuronales profondes modernes, qui permettent une évolutivité face à des problèmes concrets. Nous ne perdons pas de vue les implications pratiques des choix architecturaux et algorithmiques, et soulignons l'importance de bien formuler les problèmes d'agents autonomes et de prise de décision séquentielle. Les étudiants mettront en œuvre, étudieront et compareront des algorithmes dans différents contextes. Un projet de cours (50 %) constitue l'un des principaux éléments de notation, ainsi que des travaux pratiques (50 %).
Diplôme(s) concerné(s)
- M2 DATAAI - Data and Artificial Intelligence
 - M1 DATAAI - Data and Artificial Intelligence
 - M2 IGD - Interaction, Graphic and Design
 - M1 IGD - Interaction, Graphic and Design
 
Parcours de rattachement
Format des notes
Numérique sur 20Littérale/grade réduitPour les étudiants du diplôme M2 DATAAI - Data and Artificial Intelligence
L'UE est acquise si Note finale >= 10- Crédits ECTS acquis : 5 ECTS
 
Pour les étudiants du diplôme M1 DATAAI - Data and Artificial Intelligence
L'UE est acquise si Note finale >= 10- Crédits ECTS acquis : 5 ECTS
 
Pour les étudiants du diplôme M1 IGD - Interaction, Graphic and Design
L'UE est acquise si Note finale >= 10- Crédits ECTS acquis : 5 ECTS
 
Pour les étudiants du diplôme M2 IGD - Interaction, Graphic and Design
L'UE est acquise si Note finale >= 10- Crédits ECTS acquis : 5 ECTS
 
Programme détaillé
1. Raisonnement probabiliste et prise de décision
Nous étudions les modèles graphiques probabilistes et les réseaux bayésiens comme représentation de la connaissance et posons le cadre de la résolution d'un processus de décision markovien comme tâche d'inférence probabiliste. Nous abordons brièvement des concepts tels que l'échantillonnage d'importance et les méthodes de Monte-Carlo séquentielles.
Dans le TD, nous dériverons et implémenterons un modèle de réseau bayésien, que nous utiliserons comme représentation de la connaissance pour raisonner et prendre des décisions pour un agent dans un environnement/scénario à une seule étape.
2. Apprentissage, représentation et planification
Nous nous concentrons sur les architectures de représentations d'apprentissage modernes adaptées à la modélisation séquentielle. Nous abordons la planification et des sujets tels que la recherche d'architecture et la modélisation séquentielle, par exemple les transformateurs de décision.
3. Bandits et recherche arborescente de Monte-Carlo
L'étude des Bandits constitue une incursion intéressante dans la prise de décision séquentielle. Ce cadre couvre de nombreuses applications importantes (par exemple, en médecine, en finance et en marketing), mais il sert également de passerelle vers les agents autonomes, notamment compte tenu du compromis exploration/exploitation. À partir de Bandits, nous lançons une étude sur la recherche arborescente de Monte-Carlo.
4. Fondamentaux de l'apprentissage par renforcement, Programmation dynamique
Nous présenterons et examinerons les applications de l'apprentissage par renforcement, et aborderons les principaux concepts et intuitions nécessaires à la poursuite des études et des applications dans ce domaine. Nous développerons notamment des processus de décision markoviens (PDM). Le TD comprendra des implémentations d'itérations de valeur et de politique, ainsi que des méthodes de Monte-Carlo pour l'apprentissage par renforcement.
5. Apprentissage par différences temporelles, Q-Learning, Q-Learning profond
Cette semaine, nous procédons sous une contrainte supplémentaire (généralement réelle) : nous ne connaissons pas le PDM sous-jacent, c'est-à-dire que nous ne disposons pas d'un modèle de l'environnement. Nous étudierons l'apprentissage par différences temporelles (y compris le Q-Learning et SARSA), en particulier la construction du Q-Learning profond et de ses variantes.
6. Architectures Q-Learning profondes et architectures acteur-critique
Nous nous concentrerons sur les architectures pour le Q-Learning profond et ses variantes (par exemple, avec rejeu d'expériences priorisé), et leur rôle dans les architectures acteur-critique modernes, DDPG, etc.
7. Thèmes d'optimisation
Nous examinerons les différentes approches de développement d'agents autonomes, notamment en tant que problèmes d'optimisation (stochastique, multi-objectif, multimodal, contraint, dynamique, etc.). Ce cours se concentrera plus particulièrement sur les méthodes d'optimisation dynamique utilisables dans la recherche directe de politiques, telles que les méthodes évolutionnaires. En guise de prolongement, et si le temps le permet, nous aborderons également les problèmes multi-objectifs et d'autres méthodes avancées.
8. et 9. Architectures avancées pour agents autonomes
Ayant acquis de solides bases et compte tenu de l'évolution rapide de ce domaine, nous consacrons du temps à l'exploration des méthodes et applications émergentes en apprentissage par renforcement, ainsi qu'aux défis concrets tels que la sécurité et la transférabilité. Nous explorons également des méthodes connexes telles que l'apprentissage par imitation, l'apprentissage par renforcement inverse, et l'apprentissage par renforcement hors ligne et basé sur des modèles, et apprentissage par renforcement distributionnel.