UE INF729 | Catalogue 2021-2022

Descriptif

L'objectif de cet enseignement très pratique est de présenter comment installer et configurer Hadoop, d’initier au modèle de programmation MapReduce et à l’utilisation de technologies NoSQL, dans la perspective du projet Fil Rouge démarrant en P2. Parmi les points abordés : aspects théoriques du calcul distribué (verrous distribués, algorithmes d'élection, paradigmes de calcul distribué, problème de consensus, tolérance à la panne, etc.), utilisation des machines virtuelles AWS, installation du framework Hadoop (Zookeeper + HDFS + MapReduce), administration du framework Hadoop (taux de réplication HDFS, copie distribuée inter-cluster), utilisation du framework Hadoop pour la mise en œuvre d'opérations MapReduce, utilisation de la bibliothèque Hadoop streaming, installation de la base de données orientée documents MongoDB.

20 heures en présentiel (20 blocs ou créneaux)

effectifs minimal / maximal:

2/60

Diplôme(s) concerné(s)

Big Data : gestion et analyse des données massives

Format des notes

Numérique sur 20

Littérale/grade européen

Pour les étudiants du diplôme Big Data : gestion et analyse des données massives

Vos modalités d'acquisition :

Rentre dans la moyenne du BE1

Le rattrapage est autorisé (Max entre les deux notes)

le rattrapage est obligatoire si :
Note initiale < 6
le rattrapage peut être demandé par l'étudiant si :
6 ≤ note initiale < 10

L'UE est acquise si Note finale >= 10

Crédits ECTS acquis : 2 ECTS

La note obtenue rentre dans le calcul de votre GPA.

Programme détaillé

Partie I Spark:

Leçon - Introduction par un use case de l'industrie : le RTB

- Généralités sur les Systèmes distribués et l'écosystème Big Data

- Généralités sur Spark

TP spark 1: Setup et spark-shell
TP spark 1: Setup et spark-shell
TP spark 2: Début du projet (prédiction de completion de campagnes Kickstarter), preprocessings
TP spark 2: Début du projet (prédiction de completion de campagnes Kickstarter), preprocessings

Leçon - Composants de Spark : Librairies, APIs

- Infrastructure de Spark : Ecosystème, Cluster, Fault-Tolerance

- Spark Internals : Partitionment, Actions/Transformations, Shuffling, Persistence, ...

TP spark 3: Suite du projet, machine learning avec Spark

Partie II : Hadoop

-Introduction:

Présentation du besoin de système d'information décisionnel en entreprise

DataWarehouse VS Datalake

Qu'est-ce que Hadoop

HDFS

YARN

MapReduce

TP: Manipulation de HDFS et Yarn

Utilisation des interfaces web et ligne de commande pour intéragir avec HDFS.

Lancement d'un job MapReduce

-Hive:

Les distributions Hadoop

Hadoop pour la DataScience

HBase

Introduction puis focus sur Hive.

TP: Création de tables, intégration de données, réconciliation et requêtes sur Hive

-Hive et Oozie:

UDF Hive

Hive ACID, Hive LLAP

Hadoop 3

Présentation d'un flux batch d'intégration complet.

Oozie, qu'est-ce qu'un workflow.

TP: Implémenter un workflow d'intégration complet avec Oozie

-Stream Processing:

Qu'est-ce que le stream processing, exemple d'implémentation en entreprise.

Kafka

Nifi

TP: Monter un petit cluster Kafka, l'interfacer avec nifi (HDF?) depuis des données provenant d'API (Twitter?).

- Interventions externes

Mots clés

hadoop - spark - hive

Méthodes pédagogiques

Projet - use cases

Enseignement scientifique & technique - INF729 : Introduction au framework HADOOP