[wpms_breadcrumb reverse="0"]
Les distributions HADOOP

Data Analyst – Analyse de données en environnement Hadoop

Reference : HAD01

3

jours
- 2 150 €  € HT
Télécharger la fiche
Prochaines sessions
    Data Analyst – Analyse de données en environnement Hadoop
    Objectifs

    • Expliquer ce qu’est Hadoop et YARN
    • Expliquer les cas d’utilisation de Hadoop
    • Expliquer comment HDFS Federation fonctionne dans Hadoop 2.0
    • Expliquer les différents outils et les Framework dans un environnement Hadoop 2.0
    • Expliquer l’architecture d’Hadoop Distributed File System (HDFS)
    • Utiliser le client Hadoop pour saisir les données dans HDFS
    • Utiliser Sqoop pour transférer les données entre Hadoop et une base de données en relation.
    • Expliquer l’architecture de MapReduce
    • Expliquer l’architecture de YARN
    • Faire tourner une tache de MapReduce sur YARN
    • Ecrire un script Pig pour explorer et transformer les données dans le HDFS
    • Définir les liens Pig avancées
    • Utiliser Pig pour structurer les données dans le Big Data non structuré.
    • Expliquer et utiliser les différences formats de fichiers Hive
    • Appeler une fonction User defined avec Pig
    • Comprendre comment les tables Hive sont définies et implémentées.
    • Utiliser les nouvelles fonctions de fenêtres de Hive
    • Planifier un workflow récurant en utilisant Oozie Coordinator
    • Utiliser Hive pour SQL- Requêtes pour performer l’analyse de données
    • Ecrire des requêtes Hive
    • Performer l’analyse de données comme quantiles et le rang de page de données Big Data en utilisant la bibliothèque DataFu Pig.
    • Expliquer l’utilisation et le but de HCatalog
    • Utiliser HCatalog avec Pig et Hive
    • Définir un workflow en utilisant Oozie.
    • Planifier un workflow récurant en utilisant Oozie Coordinator
    • Connaitre les principes de la variante Impala portée par la distribution Cloudera
    • Connaitre les principes de la variante Apache TEZ portée par la distribution Hortonworks
    • Interroger une base NoSQL à partir d’Hadoop

    Pré requis

    • Cette formation Data Analyst – Analyse de données en environnement Hadoop nécessite de connaitre les principes de la programmation et avoir de l’expérience dans le développement de logiciels.
    • Une connaissance de SQL est un plus.

    Descriptions

    Modalités et délais d’accès

    Bulletin d'inscription à retourner complété

    Pré-inscription

    Programmes de Data Analyst – Analyse de données en environnement Hadoop

    INTRODUCTION

    • Présentation générale d’Hadoop
    • Exemples d’utilisation dans différents secteurs
    • Historique et chiffres clés : Quand parle-t-on de Big Data ?

    L’ECOSYSTEME D’HADOOP

    • Le système de fichier HDFS
    • Le paradigme MapReduce et l’utilisation à travers YARN

    MANIPULATION DES DONNEES DANS UN CLUSTER HADOOP

    • Hue : Comment fonctionne cette interface web ?
    • Hive : Pourquoi Hive n’est pas une base de données ?
    • Requête sur Hive
    • Utilisation de HCatalog
    • Utilisation avancée sur Hive
    • Utilisation de fonctions utilisateurs
    • Paramétrage de requête

    Pig : Fonctionnement de Pig

    • Programmation avec Pig Latin
    • Utilisation du mode Local
    • Utilisation de fonctions utilisateurs

    Tez : Qu’est-ce que Tez ?

    • Comment et quand l’utiliser ?

    Oozie :    Fonctionnement de Oozie

    • Création de Workflows avec Oozie
    • Manipulation des workflows
    • Ajout d’éléments d’exploitation dans les workflows
    • Ajout de conditions d’exécution
    • Paramétrage des workflows

    Sqoop : A quoi sert Sqoop ?

    • Chargement des données depuis une base de données relationnelle
    • Chargement des données depuis Hadoop
    • Utilisation et paramétrage avancée

    Les particularités des distributions : Impala, Hawq

    • Quelles sont les bonnes pratiques d’utilisation des différents outils ?