2.12.15 (706)

Enseignement scientifique & technique - APM_5AI18_TP : Reinforcement learning

Domaine > Informatique.

Descriptif

This course presents techniques of reinforcement learning (Markov decision processes, TD-learning, Q-learning, bandit algorithms, Monte-Carlo Tree Search) and their application to real use cases (games, content recommendation).

Objectifs pédagogiques

Acquis d'apprentissage
À l'issue de l'UE, l'élève sera capable de:
- modéliser un problème complexe sous forme d'un processus de décision Markovien
- appliquer des méthodes d'apprentissage par renforcement pour résoudre un problème d'optimisation continue

Compétences de rattachement (et justification)
- BC5.1 – Modéliser mathématiquement une situation, des données, des phénomènes physiques dans le contexte du numérique; Justification : L'UE montre comment modéliser de nombreux problèmes pratiques par des processus de décision markoviens.
- BC5.2 – Concevoir un système de traitement de données, d’intelligence artificielle, d’apprentissage machine dans un objectif d’aide à la décision ou de recherche automatique d’information; Justification : L'UE expose de nombreuses méthodes de résolution de processus de décision markoviens.

Pour les étudiants du diplôme Echange international non diplomant

Probability theory Python programming

Pour les étudiants du diplôme Programme de mobilité des établissements français partenaires

Probability theory Python programming

Pour les étudiants du diplôme M2 DAIIG - Maj. DATAAI - Data and Artificial Intelligence

Probability theory Python programming

Pour les étudiants du diplôme Diplôme d'ingénieur

Probability theory Python programming

Format des notes

Numérique sur 20

Littérale/grade européen

Pour les étudiants du diplôme Echange international non diplomant

Vos modalités d'acquisition :

L’évaluation est basée sur :
des TPs notés = TP
un examen final écrit= CC

Note finale = 0.4*TP + 0.6*CC

L'UE est acquise si Note finale >= 10
  • Crédits ECTS acquis : 2.5 ECTS
L'UE est partiellement acquise si Note finale >=
  • Crédits ECTS acquis : 2 ECTS

La note obtenue rentre dans le calcul de votre GPA.

Pour les étudiants du diplôme Diplôme d'ingénieur

Vos modalités d'acquisition :

L’évaluation est basée sur :
des TPs notés = TP
un examen final écrit= CC

Note finale = 0.4*TP + 0.6*CC

Le rattrapage est autorisé (Note de rattrapage conservée écrêtée à une note seuil de 10)
    L'UE est acquise si Note finale >= 10
    • Crédits ECTS acquis : 2.5 ECTS

    La note obtenue rentre dans le calcul de votre GPA.

    Pour les étudiants du diplôme Auditeurs libres des cycles ingénieurs IP Paris

    Le rattrapage est autorisé (Note de rattrapage conservée écrêtée à une note seuil de 10)
      L'UE est acquise si Note finale >= 10
      • Crédits ECTS acquis : 2 ECTS

      La note obtenue rentre dans le calcul de votre GPA.

      Pour les étudiants du diplôme M2 DAIIG - Maj. DATAAI - Data and Artificial Intelligence

      Vos modalités d'acquisition :

      L’évaluation est basée sur :
      des TPs notés = TP
      un examen final écrit= CC

      Note finale = 0.4*TP + 0.6*CC

      L'UE est acquise si Note finale >= 10
      • Crédits ECTS acquis : 2.5 ECTS

      La note obtenue rentre dans le calcul de votre GPA.

      Pour les étudiants du diplôme M2 DS - Data Science

      Vos modalités d'acquisition :

      L’évaluation est basée sur :
      des TPs notés = TP
      un examen final écrit= CC

      Note finale = 0.4*TP + 0.6*CC

      L'UE est acquise si Note finale >= 10
      • Crédits ECTS acquis : 2 ECTS

      La note obtenue rentre dans le calcul de votre GPA.

      Pour les étudiants du diplôme M1 DAIIG - Maj. DATAAI - Data and Artificial Intelligence

      Vos modalités d'acquisition :

      L’évaluation est basée sur :
      des TPs notés = TP
      un examen final écrit= CC

      Note finale = 0.4*TP + 0.6*CC

      L'UE est acquise si Note finale >= 10
      • Crédits ECTS acquis : 2.5 ECTS

      Pour les étudiants du diplôme Programme de mobilité des établissements français partenaires

      Vos modalités d'acquisition :

      L’évaluation est basée sur :
      des TPs notés = TP
      un examen final écrit= CC

      Note finale = 0.4*TP + 0.6*CC

      Le rattrapage est autorisé (Note de rattrapage conservée écrêtée à une note seuil de 10)
        L'UE est acquise si Note finale >= 10
        • Crédits ECTS acquis : 2.5 ECTS

        La note obtenue rentre dans le calcul de votre GPA.

        Programme détaillé

        1. Markov Decision Process
        2. Dynamic programming
        3. Online evaluation
        4. Online control
        5. Value approximation
        6. Bandit algorithms
        7. Contextual bandit

        Mots clés

        Learning, Markov Decision Process, Bandit algorithm

        Méthodes pédagogiques

        Cours + TP
        Des quiz permettent aux élèves de s'auto-évaluer.

        Ressources : transparents + notes de cours + notebooks

        Support pédagogique multimédia

        Oui

        Veuillez patienter