Descriptif
L'objectif de cet enseignement très pratique est de présenter comment installer et configurer Hadoop, d’initier au modèle de programmation MapReduce et à l’utilisation de technologies NoSQL, dans la perspective du projet Fil Rouge démarrant en P2. Parmi les points abordés : aspects théoriques du calcul distribué (verrous distribués, algorithmes d'élection, paradigmes de calcul distribué, problème de consensus, tolérance à la panne, etc.), utilisation des machines virtuelles AWS, installation du framework Hadoop (Zookeeper + HDFS + MapReduce), administration du framework Hadoop (taux de réplication HDFS, copie distribuée inter-cluster), utilisation du framework Hadoop pour la mise en œuvre d'opérations MapReduce, utilisation de la bibliothèque Hadoop streaming, installation de la base de données orientée documents MongoDB.
20 heures en présentiel (20 blocs ou créneaux)
effectifs minimal / maximal:
2/60Format des notes
Numérique sur 20Littérale/grade européenPour les étudiants du diplôme Big Data : gestion et analyse des données massives
Vos modalités d'acquisition :
Rentre dans la moyenne du BE1
Le rattrapage est autorisé (Max entre les deux notes)- le rattrapage est obligatoire si :
- Note initiale < 6
- le rattrapage peut être demandé par l'étudiant si :
- 6 ≤ note initiale < 10
- Crédits ECTS acquis : 2 ECTS
La note obtenue rentre dans le calcul de votre GPA.
Programme détaillé
Partie I Spark:
Leçon - Introduction par un use case de l'industrie : le RTB
- Généralités sur les Systèmes distribués et l'écosystème Big Data
- Généralités sur Spark
TP spark 1: Setup et spark-shell
TP spark 1: Setup et spark-shell
TP spark 2: Début du projet (prédiction de completion de campagnes Kickstarter), preprocessings
TP spark 2: Début du projet (prédiction de completion de campagnes Kickstarter), preprocessings
TP spark 1: Setup et spark-shell
TP spark 2: Début du projet (prédiction de completion de campagnes Kickstarter), preprocessings
TP spark 2: Début du projet (prédiction de completion de campagnes Kickstarter), preprocessings
Leçon - Composants de Spark : Librairies, APIs
- Infrastructure de Spark : Ecosystème, Cluster, Fault-Tolerance
- Spark Internals : Partitionment, Actions/Transformations, Shuffling, Persistence, ...
TP spark 3: Suite du projet, machine learning avec Spark
Partie II : Hadoop
-Introduction:
Présentation du besoin de système d'information décisionnel en entreprise
DataWarehouse VS Datalake
Qu'est-ce que Hadoop
HDFS
YARN
MapReduce
TP: Manipulation de HDFS et Yarn
Utilisation des interfaces web et ligne de commande pour intéragir avec HDFS.
Lancement d'un job MapReduce
-Hive:
Les distributions Hadoop
Hadoop pour la DataScience
HBase
Introduction puis focus sur Hive.
TP: Création de tables, intégration de données, réconciliation et requêtes sur Hive
-Hive et Oozie:
UDF Hive
Hive ACID, Hive LLAP
Hadoop 3
Présentation d'un flux batch d'intégration complet.
Oozie, qu'est-ce qu'un workflow.
TP: Implémenter un workflow d'intégration complet avec Oozie
-Stream Processing:
Qu'est-ce que le stream processing, exemple d'implémentation en entreprise.
Kafka
Nifi
TP: Monter un petit cluster Kafka, l'interfacer avec nifi (HDF?) depuis des données provenant d'API (Twitter?).
- Interventions externes