v2.11.0 (5932)

Enseignement scientifique & technique - APM_4AI12_TP : Machine Learning for Text Mining

Domaine > Mathématiques.

Descriptif

Course in English
 
This course proposes an introduction to automatic text processing, from how to numerically represent text to basic machine learning algorithms develloped for these representations. It should be followed in parallel to SD-TSIA 210, which introduces general machine learning methods. This course does not address deep learning for natural language processing, as SD-TSIA 203 is in the following period. Rather, it provides a detailled tour of pre-deep learning methods of natural language processing, and will help contextualize the development of deep learning - as this represents one of its main application domain. It is strongly advised to students wishing to choose courses about NLP/LLMs in their third year.

Objectifs pédagogiques

Acquis d'apprentissage
À l'issue de l'UE, l'élève sera capable de:
- Expliquer les difficultés liées au traitement des données textuelles langagières et aux tâches associées.
- Expliquer les méthodes de représentation numérique du texte, et les méthodes basiques de traitement du texte pour des tâches classiques.
- Décrire les éléments menant au succès de l'utilisation de modèles neuronaux pour la représentation et le traitement du langage écrit.
- Mettre en œuvre des méthodes (traditionnelles et premières approches neuronales) sur un éventail de tâches simples, à l'aide de python et de manipulation de librairies spécialisées (NLTK, Gensim, Scikit-learn)

Compétences de rattachement (et justification)
- BC5.1 – Modéliser mathématiquement une situation, des données, des phénomènes physiques dans le contexte du numérique; Justification : Dans l'étude des méthodes de représentations du langage naturel sous forme textuelle.
- BC5.3 – Structurer, dimensionner un système de traitement de données, d’intelligence artificielle, d’apprentissage machine dans un objectif d’aide à la décision ou de recherche automatique d’information; Justification : Dans l'étude des choix architecturaux des modèles pour le traitement du texte.
- BC5.4 – Tester, gérer un système de traitement de données, d’intelligence artificielle, d’apprentissage machine dans un objectif d’aide à la décision ou de recherche automatique d’information; Justification : Dans la mise en œuvre des principales méthodes non-neuronales des tâches classiques de traitement automatique du langage.

24 heures en présentiel (16 blocs ou créneaux)

18 heures de travail personnel estimé pour l’étudiant.

Diplôme(s) concerné(s)

Parcours de rattachement

Pour les étudiants du diplôme Echange international non diplomant

Machine learning (theoretical foundations) and basis of neural networks

Pour les étudiants du diplôme Diplôme d'ingénieur

Students are supposed to follow SD-TSIA 210 Machine learning

Format des notes

Numérique sur 20

Littérale/grade européen

Pour les étudiants du diplôme Echange international non diplomant

Vos modalités d'acquisition :

L'évaluation est basée sur deux éléments:
- Des TP notés, à rendre à la fin de la séance pour évaluer la mise en œuvre des méthodes,
- Un examen final écrit pour évaluer les autres acquis.

La note obtenue rentre dans le calcul de votre GPA.

Pour les étudiants du diplôme Diplôme d'ingénieur

Vos modalités d'acquisition :

L'évaluation est basée sur deux éléments:
- Des TP notés, à rendre à la fin de la séance pour évaluer la mise en œuvre des méthodes,
- Un examen final écrit pour évaluer les autres acquis.

L'UE est acquise si Note finale >= 10
  • Crédits ECTS acquis : 2.5 ECTS
  • Crédit d'UE électives acquis : 2.5

La note obtenue rentre dans le calcul de votre GPA.

Programme détaillé

The techniques and concepts that will be studied include:
-Text pre-processing and representation : tokenization, document representation and word embeddings; how they can be used for classical NLP tasks.

- An introduction to non-neural Language models.
- HMM and their application to NLP tasks.
- A first application of simple neural models to text representation.

Mots clés

Texte, Langage Naturel, Traitement automatique du langage, Modèles de langue

Méthodes pédagogiques

Les concepts clés sont présentés ne cours magistral et mis en application d'abord via des exercices simples lors de ceux-ci, puis via un TP correspondant, en python. L'évaluation se fait par contrôle de connaissance et une partie des TPs.
Ressource: Slides + bibliographie disponible en ligne.
Veuillez patienter