Descriptif
This course presents techniques of reinforcement learning (Markov decision processes, TD-learning, Q-learning, bandit algorithms, Monte-Carlo Tree Search) and their application to a real use case (online recommendation).
        
    24 heures en présentiel (16 blocs ou créneaux) 
    
                Diplôme(s) concerné(s)
- Echange international non diplomant
 - Data Science
 - Programme de mobilité des établissements français partenaires
 - Diplôme d'ingénieur
 - Data & Artificial Intelligence
 
Parcours de rattachement
Pour les étudiants du diplôme Echange international non diplomant
Probability theory Python programming
Pour les étudiants du diplôme Data & Artificial Intelligence
Probability theory Python programming
Format des notes
Numérique sur 20Littérale/grade européenPour les étudiants du diplôme Echange international non diplomant
L'UE est acquise si Note finale >= 10- Crédits ECTS acquis : 2.5 ECTS
 
- Crédits ECTS acquis : 2 ECTS
 
La note obtenue rentre dans le calcul de votre GPA.
Pour les étudiants du diplôme Programme de mobilité des établissements français partenaires
L'UE est acquise si Note finale >= 10- Crédits ECTS acquis : 2.5 ECTS
 
La note obtenue rentre dans le calcul de votre GPA.
Pour les étudiants du diplôme Diplôme d'ingénieur
L'UE est acquise si Note finale >= 10- Crédits ECTS acquis : 2.5 ECTS
 - Crédit d'Option 3A acquis : 2.5
 
La note obtenue rentre dans le calcul de votre GPA.
Pour les étudiants du diplôme Data & Artificial Intelligence
L'UE est acquise si Note finale >= 10- Crédits ECTS acquis : 2.5 ECTS
 
La note obtenue rentre dans le calcul de votre GPA.
Pour les étudiants du diplôme Data Science
L'UE est acquise si Note finale >= 10- Crédits ECTS acquis : 2 ECTS
 
La note obtenue rentre dans le calcul de votre GPA.
Programme détaillé
- Markov Decision Process
 - TD-learning
 - Q-learning
 - Bandit algorithms
 - Contextual bandits
 - Monte-Carlo Tree Search
 - Online recommendation