Descriptif
Beaucoup d applications modernes (données web, génomique, finance, e-marketing, etc.) requièrent de manipuler et traiter des données de très grande dimension. La discipline qui développe et étudie des méthodes concrètes pour modéliser ce type de données Beaucoup dapplications modernes (données web, génomique, finance, e-marketing, etc.) requièrent de manipuler et traiter des données de très grande dimension. La discipline qui développe et étudie des méthodes concrètes pour modéliser ce type de données sappelle lapprentissage statistique (statistical machine learning). Il sagit, in fine, de produire des outils de prédiction et daide à la décision dédiés à une application spécifique. Lapparition dalgorithmes très performants pour la classification de données en grande dimension, tels que le boosting ou les Support Vector Machines dans le milieu des années 90, a progressivement transformé le champ occupé jusqualors par la statistique traditionnelle qui sappuyait en grande partie sur le prétraitement réalisé par lopérateur humain. En sappuyant sur la théorie popularisée par Vapnik (The Nature of Statistical Learning, 1995), un nouveau courant de recherche est né: il se situe à linterface entre les communautés mathématique et informatique et mobilise un nombre croissant de jeunes chercheurs tournés vers les applications liées à lanalyse de données massives. Dans ce module, on présentera le domaine, ses fondements, les problèmes quil permet daborder (problèmes supervisés et non supervisés), et les méthodes les plus récentes qui sont actuellement étudiées (SVM, Boosting, Lasso, etc.). Lintérêt de ces concepts et techniques sera illustré au travers applications concrètes et variées (données textuelles, images, signaux audio, données génomiques, problèmes industriels, etc.)
Diplôme(s) concerné(s)
Format des notes
Numérique sur 20Littérale/grade européenPour les étudiants du diplôme IA : Intelligence Artificielle
Le rattrapage est autorisé (Max entre les deux notes)- le rattrapage est obligatoire si :
- Note initiale < 6
- le rattrapage peut être demandé par l'étudiant si :
- 6 ≤ note initiale < 10
- Crédits ECTS acquis : 5 ECTS
La note obtenue rentre dans le calcul de votre GPA.
Pour les étudiants du diplôme Big Data : gestion et analyse des données massives
Vos modalités d'acquisition :
- le rattrapage est obligatoire si :
- Note initiale < 6
- le rattrapage peut être demandé par l'étudiant si :
- 6 ≤ note initiale < 10
- Crédits ECTS acquis : 5 ECTS
La note obtenue rentre dans le calcul de votre GPA.
Programme détaillé
1 Introduction générale du cours. Problèmes de prédiction: classification, régression, détection d'anomalies, ranking et estimation de densité. Le cas de la classification : modèle statistique, mesure de performance, optimalité. 2 - Eléments de la théorie de l'apprentissage. Le cas de la classification: les aspects statistiques, principe de la minimisation du risque empirique. Complément : Inégalités exponentielles, déviation et concentration. 3 - Contrôle de la complexité dans le cas de la classification. Entropie métrique vs. mesures combinatoires. Méthodes de classification standard: classifieurs linéaires, arbres de décision, noyaux, réseaux de neurones 4 - Les méthodes de classification « dernier cri »: boosting, SVM, bagging. Vers des stratégies pragmatiques : minimisation du risque convexifié, aspects statistiques. 5 - Méthodes de régularisation pour le contrôle de la complexité. 6 Régression. Méthodes de régression linéaire pénalisée vs. Lasso. Performance vs. « Sparsity » 7 - Détection d'anomalies et Ranking. La courbe ROC et l'AUC: critères de performance pour la discrimination. 8 - Problèmes non supervisés. Estimation nonparamétrique de la densité. Clustering. Modèles à variables latentes (analyse en composantes indépendantes, ACP à noyau, modèles markoviens cachés). Aspects algorithmiques (algorithme EM et variantes)