Big Data avec Pig, Hive, et Impala

Formation #1254 - 4 jours

Cette formation vous apporte les connaissances pour exploiter Pig et Hive afin de préparer et d'analyser de grands ensembles de données dans Hadoop. La productivité est accrue en évitant un codage MapRéduce de niveau inférieur dans le sens où les programmeurs nettoient, filtrent et imposent une structure et interrogent des données pour obtenir plus d'informations de valeur. Cela permet de meilleures décision. Les requêtes à faible latence sont exécutées avec Impala et Shark.

  • Manipuler des ensembles de données complexes stockés dans Hadoop sans avoir à écrire de code complexe avec Java
  • Automatiser le transfert des données dans le stockage Hadoop avec Flume et Sqoop
  • Filtrer les données avec les opérations Extract-Transform-Load (ETL) avec Pig
  • Interroger plusieurs ensembles de données pour une analyse avec Pig et Hive

  • Charger les données dans HDFS avec Flume et Sqoop
  • Transformer les ensembles de données avec Pig et Hive
  • Simplifier les requêtes en créant les vues Hive
  • Découper et joindre les ensembles de données dans Pig et Hive
  • Exploiter HCatalog pour exposer le metastore de Hive à Pig
  • Activer Impala et Shark pour des requêtes plus rapides

Cette formation est destinée aux professionnels techniques et spécialistes des bases de données, aux responsables, aux analystes métier et aux professionnels de l'aide à la décision, souhaitant utiliser les technologies Big Data dans leur entreprise.

Aucune expérience de programmation Java n’est nécessaire pour suivre cette formation mais des connaissances fondamentales des bases de données et de SQL sont un atout majeur.

  • Vue d'ensemble de Hadoop
  • Analyser les composants Hadoop
  • Définir l'architecture Hadoop

Stocker les données dans HDFS

  • Réaliser un stockage fiable et sécurisé
  • Surveiller les mesures du stockage
  • Contrôler HDFS à partir de la ligne de commande

Traitement parallèle avec MapReduce

  • Détailler l'approche MapReduce
  • Transférer les algorythmes et non les données
  • Décomposer les étapes clés d'une tâche MapReduce

Automatiser le transfert des données

  • Faciliter l'entrée et la sortie des données
  • Agréger les données avec Flume
  • Configurer le fan in et le fan out des données
  • Déplacer les données relationnelles avec Sqoop

Décrire les caractéristiques d'Apache Pig

  • Exposer les différences entre Pig et MapReduce
  • Identifier les cas d'utilisation de Pig
  • Identifier les configurations clés de Pig

Structurer les données non structurées

  • Représenter les données dans le modèle de données de Pig
  • Exécuter les commandes Pig Latin au Grunt Shell
  • Exprimer les transformations dans la syntaxe Pig Latin
  • Appeler les fonctions de chargement et de stockage

Transformer les données avec les opérateurs relationnels

  • Créer des nouvelles relations avec des jointures
  • Réduire la taille des données par échantillonnage
  • Exploiter Pig et les fonctions définies par l'utilisateur

Filtrer les données avec Pig

  • Consolider les ensembles de données avec les unions
  • Partitionner les ensembles de données avec les splits
  • Ajouter des paramètres dans des scripts Pig

Exploiter les avantages métier de Hive

  • Factoriser Hive en composants
  • Imposer la structure sur les données avec Hive

Organiser les données dans Hive

  • Créer des bases de données et des tables Hive
  • Exposer les différences entre les types de données dans Hive
  • Charger et stocker les données efficacement avec SerDes

Concevoir la disposition des données pour la performance

  • Remplir les tables à partir de requêtes
  • Partitionner les tables de Hive pour des requêtes optimales
  • Composer des requêtes HiveQL

Réaliser des jointures sur des données non structurées

  • Distinguer les jointures disponibles dans Hive
  • Optimiser la structure des jointures pour les performances

Repousser les limites de HiveQL

  • Trier, répartir et regrouper des données
  • Réduire la complexité des requêtes avec les vues
  • Améliorer la performance des requêtes avec les index

Déployer Hive en production

  • Concevoir les schémas de Hive
  • Établir la compression des données
  • Déboguer les scripts de Hive

Rationaliser la gestion du stockage avec HCatalog

  • Unifier la vue des données avec HCatalog
  • Exploiter HCatalog pour accéder au metastore Hive
  • Communiquer via les interfaces HCatalog
  • Remplir une table Hive à partir de Pig

Traitement parallèle avec Impala

  • Décomposer les composants fondamentaux d'Impala
  • Soumettre des requêtes à Impala
  • Accéder aux données Hive à partir d'Impala

Lancer le framework Spark

  • Réduire le temps d'accès aux données avec Shark
  • Interroger les données Hive avec Shark

Sessions planifiées inter-entreprises

Inscrivez-vous à une de nos sessions en sélectionnant un mode de suivi :

5 septembre 2017 - 2220 € - À Paris ou À distance
5 décembre 2017 - 2220 € - À Paris ou À distance

Aucune session ne vous convient ? Faites-nous part de vos disponibilités dans votre demande de devis.

Demander un devis

Intra-entreprise

Organisez cette formation Learning Tree sur votre lieu de travail avec notre solution intra-entreprise.

Demander un devis

Crédits ECTS : 10

Formation éligible aux parcours diplômants de SUPINFO International University.

Financez votre formation

  • Programmes Visa Société et Passeport
  • Réduction Return to Learn

Pour en savoir plus, cliquez ici.

Votre formation à distance et en direct

Sans frais supplémentaires, depuis tout lieu possédant une connexion Internet, connectez-vous en temps réel et en direct à une session dispensée par nos formateurs grâce à AnyWare™, la plateforme de formation en distanciel de Learning Tree.

Notre catalogue

Vous souhaitez parcourir toute notre offre de formation ultérieurement ?

Téléchargez notre catalogue

Suivez une formation Learning Tree et profitez des avantages de SUPINFO International University !

Pour toute formation que vous aurez suivi chez Learning Tree, SUPINFO International University vous offre pendant un an le statut Advanced Member d'une valeur de 250€.
Ce statut privilégié vous permettra de profiter de ressources pédagogiques sélectionnées par SUPINFO :

* Services disponibles prochainement.