v2.9.0 (4557)

Enseignement scientifique & technique - IA318 : Reinforcement learning

Domaine > Informatique.

Descriptif

This course presents techniques of reinforcement learning (Markov decision processes, TD-learning, Q-learning, bandit algorithms, Monte-Carlo Tree Search) and their application to a real use case (online recommendation).

Pour les étudiants du diplôme Echange international non diplomant

Probability theory Python programming

Pour les étudiants du diplôme Data & Artificial Intelligence

Probability theory Python programming

Format des notes

Numérique sur 20

Littérale/grade européen

Pour les étudiants du diplôme Echange international non diplomant

L'UE est acquise si Note finale >= 10
  • Crédits ECTS acquis : 2.5 ECTS
L'UE est partiellement acquise si Note finale >=
  • Crédits ECTS acquis : 2 ECTS

La note obtenue rentre dans le calcul de votre GPA.

Pour les étudiants du diplôme Programme de mobilité des établissements français partenaires

L'UE est acquise si Note finale >= 10
  • Crédits ECTS acquis : 2.5 ECTS

La note obtenue rentre dans le calcul de votre GPA.

Pour les étudiants du diplôme Diplôme d'ingénieur

L'UE est acquise si Note finale >= 10
  • Crédits ECTS acquis : 2.5 ECTS
  • Crédit d'Option 3A acquis : 2.5

La note obtenue rentre dans le calcul de votre GPA.

Pour les étudiants du diplôme Data & Artificial Intelligence

L'UE est acquise si Note finale >= 10
  • Crédits ECTS acquis : 2.5 ECTS

La note obtenue rentre dans le calcul de votre GPA.

Pour les étudiants du diplôme Data Science

L'UE est acquise si Note finale >= 10
  • Crédits ECTS acquis : 2 ECTS

La note obtenue rentre dans le calcul de votre GPA.

Programme détaillé

  1. Markov Decision Process
  2. TD-learning
  3. Q-learning
  4. Bandit algorithms
  5. Contextual bandits
  6. Monte-Carlo Tree Search
  7. Online recommendation

Mots clés

Reinforcement learning,, bandits

Méthodes pédagogiques

Lectures + Labs
Veuillez patienter