Les distributions HADOOP
Data Analyst – Analyse de données en environnement Hadoop
Reference : HAD01

3
jours - 2 150 € € HT Télécharger la fiche
Prochaines sessions

Objectifs
- Expliquer ce qu’est Hadoop et YARN
- Expliquer les cas d’utilisation de Hadoop
- Expliquer comment HDFS Federation fonctionne dans Hadoop 2.0
- Expliquer les différents outils et les Framework dans un environnement Hadoop 2.0
- Expliquer l’architecture d’Hadoop Distributed File System (HDFS)
- Utiliser le client Hadoop pour saisir les données dans HDFS
- Utiliser Sqoop pour transférer les données entre Hadoop et une base de données en relation.
- Expliquer l’architecture de MapReduce
- Expliquer l’architecture de YARN
- Faire tourner une tache de MapReduce sur YARN
- Ecrire un script Pig pour explorer et transformer les données dans le HDFS
- Définir les liens Pig avancées
- Utiliser Pig pour structurer les données dans le Big Data non structuré.
- Expliquer et utiliser les différences formats de fichiers Hive
- Appeler une fonction User defined avec Pig
- Comprendre comment les tables Hive sont définies et implémentées.
- Utiliser les nouvelles fonctions de fenêtres de Hive
- Planifier un workflow récurant en utilisant Oozie Coordinator
- Utiliser Hive pour SQL- Requêtes pour performer l’analyse de données
- Ecrire des requêtes Hive
- Performer l’analyse de données comme quantiles et le rang de page de données Big Data en utilisant la bibliothèque DataFu Pig.
- Expliquer l’utilisation et le but de HCatalog
- Utiliser HCatalog avec Pig et Hive
- Définir un workflow en utilisant Oozie.
- Planifier un workflow récurant en utilisant Oozie Coordinator
- Connaitre les principes de la variante Impala portée par la distribution Cloudera
- Connaitre les principes de la variante Apache TEZ portée par la distribution Hortonworks
- Interroger une base NoSQL à partir d’Hadoop
Pré requis
- Cette formation Data Analyst – Analyse de données en environnement Hadoop nécessite de connaitre les principes de la programmation et avoir de l’expérience dans le développement de logiciels.
- Une connaissance de SQL est un plus.
Descriptions
Modalités et délais d’accès
Pré-inscription
Bulletin d'inscription à retourner complété
Programmes de Data Analyst – Analyse de données en environnement Hadoop
INTRODUCTION
- Présentation générale d’Hadoop
- Exemples d’utilisation dans différents secteurs
- Historique et chiffres clés : Quand parle-t-on de Big Data ?
L’ECOSYSTEME D’HADOOP
- Le système de fichier HDFS
- Le paradigme MapReduce et l’utilisation à travers YARN
MANIPULATION DES DONNEES DANS UN CLUSTER HADOOP
- Hue : Comment fonctionne cette interface web ?
- Hive : Pourquoi Hive n’est pas une base de données ?
- Requête sur Hive
- Utilisation de HCatalog
- Utilisation avancée sur Hive
- Utilisation de fonctions utilisateurs
- Paramétrage de requête
Pig : Fonctionnement de Pig
- Programmation avec Pig Latin
- Utilisation du mode Local
- Utilisation de fonctions utilisateurs
Tez : Qu’est-ce que Tez ?
- Comment et quand l’utiliser ?
Oozie : Fonctionnement de Oozie
- Création de Workflows avec Oozie
- Manipulation des workflows
- Ajout d’éléments d’exploitation dans les workflows
- Ajout de conditions d’exécution
- Paramétrage des workflows
Sqoop : A quoi sert Sqoop ?
- Chargement des données depuis une base de données relationnelle
- Chargement des données depuis Hadoop
- Utilisation et paramétrage avancée
Les particularités des distributions : Impala, Hawq
- Quelles sont les bonnes pratiques d’utilisation des différents outils ?