Réaliser des analyses Big Data avec Microsoft R

3
jours - Nous consulter Télécharger la fiche
- Avoir suivi la formation « Les fondamentaux de l’analyse statistique avec R » (BI103) ou disposer des connaissances équivalentes
- Connaissance des méthodes statistiques et des meilleures pratiques d’analyse de données
- Connaissances de Windows et de ses fonctionnalités principales
- Connaissance pratique des bases de données relationnelles
Bulletin d'inscription à retourner complété
• Avoir de l’expérience dans l’utilisation du langage R et des packages communs ;
• Connaître les méthodes de statistiques courantes et les meilleures pratiques des analyses de données ;
• Avoir des connaissances de base sur le système d’exploitation Windows et ses fonctionnalités principales ;
• Travailler régulièrement sur des bases de données relationnelles
Programmes de Réaliser des analyses Big Data avec Microsoft R
MICROSOFT R SERVER ET R CLIENT
- Qu’est-ce qu’un serveur Microsoft R
- Utilisation du client Microsoft R
- Les fonctions ScaleR
EXPLORER DE GRANDES DONNÉES
- Comprendre les sources de données ScaleR
- Lecture de données dans un objet XDF
- Résumer des données dans un objet XDF
VISUALISATION D’UN GRAND NOMBRE DE DONNÉES
- Visualisation des données en mémoire
- Visualisation d’un grand nombre de données
TRAITEMENT D’UN GRAND NOMBRE DE DONNÉES
- Transformer un grand nombre de données
- Gestion d’un ensemble de données
OPÉRATIONS D’ANALYSE EN PARALLÈLE
- Utilisation du contexte de calcul RxLocalParallel avec rxExec
- Utilisation du package revoPemaR
CRÉATION ET ÉVALUATION DE MODÈLES DE RÉGRESSION
- Clustering Big Data
- Générer des modèles de régression et faire des prédictions
CRÉATION ET ÉVALUATION DE MODÈLES DE PARTITIONNEMENT
- Création de modèles de partitionnement basés sur des arbres de décision
- Tester les modèles de partitionnement en effectuant et en comparant des prédictions
TRAITEMENT D’UN GRAND NOMBRE DE DONNÉES DANS SQL SERVER ET HADOOP
- Utilisation de R dans SQL Server
- Utilisation de Hadoop Map / Reduce
- Utilisation de Hadoop Spark