Descriptif
This course presents techniques of reinforcement learning (Markov decision processes, TD-learning, Q-learning, bandit algorithms, Monte-Carlo Tree Search) and their application to real use cases (games, content recommendation).
Objectifs pédagogiques
Acquis d'apprentissageÀ l'issue de l'UE, l'élève sera capable de:
- modéliser un problème complexe sous forme d'un processus de décision Markovien
- appliquer des méthodes d'apprentissage par renforcement pour résoudre un problème d'optimisation continue
Compétences de rattachement (et justification)
- BC5.1 – Modéliser mathématiquement une situation, des données, des phénomènes physiques dans le contexte du numérique; Justification : L'UE montre comment modéliser de nombreux problèmes pratiques par des processus de décision markoviens.
- BC5.2 – Concevoir un système de traitement de données, d’intelligence artificielle, d’apprentissage machine dans un objectif d’aide à la décision ou de recherche automatique d’information; Justification : L'UE expose de nombreuses méthodes de résolution de processus de décision markoviens.
Diplôme(s) concerné(s)
- Echange international non diplomant
- Programme de mobilité des établissements français partenaires
- M2 DS - Data Science
- M2 DATAAI - Data and Artificial Intelligence
- M1 DATAAI - Data and Artificial Intelligence
- Diplôme d'ingénieur
Parcours de rattachement
Pour les étudiants du diplôme Echange international non diplomant
Probability theory Python programming
Pour les étudiants du diplôme Programme de mobilité des établissements français partenaires
Probability theory Python programming
Pour les étudiants du diplôme M2 DATAAI - Data and Artificial Intelligence
Probability theory Python programming
Pour les étudiants du diplôme Diplôme d'ingénieur
Probability theory Python programming
Format des notes
Numérique sur 20Littérale/grade européenPour les étudiants du diplôme Echange international non diplomant
Vos modalités d'acquisition :
L’évaluation est basée sur :
des TPs notés = TP
un examen final écrit= CC
Note finale = 0.4*TP + 0.6*CC
- Crédits ECTS acquis : 2.5 ECTS
- Crédits ECTS acquis : 2 ECTS
La note obtenue rentre dans le calcul de votre GPA.
Pour les étudiants du diplôme Programme de mobilité des établissements français partenaires
Vos modalités d'acquisition :
L’évaluation est basée sur :
des TPs notés = TP
un examen final écrit= CC
Note finale = 0.4*TP + 0.6*CC
- Crédits ECTS acquis : 2.5 ECTS
La note obtenue rentre dans le calcul de votre GPA.
Pour les étudiants du diplôme Diplôme d'ingénieur
Vos modalités d'acquisition :
L’évaluation est basée sur :
des TPs notés = TP
un examen final écrit= CC
Note finale = 0.4*TP + 0.6*CC
- Crédits ECTS acquis : 2.5 ECTS
- Crédit d'Option 3A acquis : 2.5
La note obtenue rentre dans le calcul de votre GPA.
Pour les étudiants du diplôme M2 DATAAI - Data and Artificial Intelligence
Vos modalités d'acquisition :
L’évaluation est basée sur :
des TPs notés = TP
un examen final écrit= CC
Note finale = 0.4*TP + 0.6*CC
- Crédits ECTS acquis : 2.5 ECTS
La note obtenue rentre dans le calcul de votre GPA.
Pour les étudiants du diplôme M2 DS - Data Science
Vos modalités d'acquisition :
L’évaluation est basée sur :
des TPs notés = TP
un examen final écrit= CC
Note finale = 0.4*TP + 0.6*CC
- Crédits ECTS acquis : 2 ECTS
La note obtenue rentre dans le calcul de votre GPA.
Pour les étudiants du diplôme M1 DATAAI - Data and Artificial Intelligence
Vos modalités d'acquisition :
L’évaluation est basée sur :
des TPs notés = TP
un examen final écrit= CC
Note finale = 0.4*TP + 0.6*CC
- Crédits ECTS acquis : 2.5 ECTS
Programme détaillé
- Markov Decision Process
- Dynamic programming
- Online evaluation
- Online control
- Value approximation
- Bandit algorithms
- Contextual bandit
Mots clés
Learning, Markov Decision Process, Bandit algorithmMéthodes pédagogiques
Cours + TPDes quiz permettent aux élèves de s'auto-évaluer.
Ressources : transparents + notes de cours + notebooks