Descriptif
L'objectif de cet enseignement très pratique est de présenter comment installer et configurer Hadoop, d’initier au modèle de programmation MapReduce et à l’utilisation de technologies de l'écosystème YARN tels que Spark en mode cluster, dans la perspective du projet Fil Rouge démarrant en P2. Parmi les points abordés : aspects théoriques du calcul distribué (verrous distribués, algorithmes d'élection, paradigmes de calcul distribué, problème de consensus, tolérance à la panne, etc.), utilisation des machines virtuelles (Openstack), installation du framework Hadoop (Zookeeper + HDFS + MapReduce), administration du framework Hadoop (taux de réplication HDFS, copie distribuée inter-cluster), utilisation du framework Hadoop pour la mise en œuvre d'opérations MapReduce, utilisation de la bibliothèque Hadoop streaming, utilisation de Spark en distribué
effectifs minimal / maximal:
2/60Diplôme(s) concerné(s)
Format des notes
Numérique sur 20Littérale/grade européenPour les étudiants du diplôme IA : Intelligence Artificielle
Vos modalités d'acquisition :
Rentre dans le calcul de la moyenne du BE1.
Conformément au règlement scolaire (art.3.3.2 page 6) : "Si l'étudiant obtient une note de BE inférieure à 10, il peut passer un examen de rattrapage pour toute ue de ce BE pour laquelle il a obtenu une note inférieure à 10".
Le rattrapage est autorisé (Max entre les deux notes)- le rattrapage peut être demandé par l'étudiant si :
- Note initiale < 10
- Crédits ECTS acquis : 1 ECTS
Pour les étudiants du diplôme Big Data : gestion et analyse des données massives
Vos modalités d'acquisition :
Rentre dans le calcul de la moyenne du BE1.
Conformément au règlement scolaire (art.3.3.2 page 6) : "Si l'étudiant obtient une note de BE inférieure à 10, il peut passer un examen de rattrapage pour toute ue de ce BE pour laquelle il a obtenu une note inférieure à 10".
- le rattrapage peut être demandé par l'étudiant si :
- Note initiale < 10
- Crédits ECTS acquis : 2 ECTS
La note obtenue rentre dans le calcul de votre GPA.
Programme détaillé
Partie I Spark:
TP spark 1: Setup et spark-shell
TP spark 2: Début du projet (prédiction de completion de campagnes Kickstarter), preprocessings
TP spark 2: Début du projet (prédiction de completion de campagnes Kickstarter), preprocessings