Windows Azure HDInsight

 

Introduction

Windows Azure HDInsight déploie dans le Cloud la plateforme Windows Azure et le Framework Apache Hadoop.

Le Framework facilite la gestion de gros volumes de données grâce à son système de fichier distribué HDFS (Hadoop Distributed File System) et un modèle de programmation MapReduce permettant de traiter rapidement de grandes quantités de données en parallèle.

 

Big Data

Aujourd’hui il est difficile de gérer / traiter un grand volume de données dans un SGBDR (Système de gestion de base de données relationnelle) conventionnel.

En effet, sois :

  • Les volumes de données sont trop grands
  • Les données arrivent à une vitesse trop élevée
  • Les données sont variées et non structurées

Voici ce qui définit donc le Big Data (4V) : Volume, Velocity, Variety et Variability

Big_Data_4V

 

Apache Hadoop

Les capacités des disques durs ont évolué de façon spectaculaire depuis les 20 dernières années, d’énormes quantités de données sont générées chaque jour (« Every day, we create 2.5 quintillion bytes of data — so much that 90% of the data in the world today has been created in the last two years alone. » An IBM eBook). Cependant, les temps de lecture / écriture restent lents.

Voici comment Hadoop réduit ce goulot d’étranglement :

  • HDFS propose une architecture distribuée qui stocke les données sur plusieurs disques et permet une lecture parallélisée des données
  • MapReduce permet de travailler avec des données non structurées sans schéma prédéfini (il interprète les données lorsqu’elles sont traitées)
On utilisera majoritairement Hadoop lorsqu’il s’agira de traiter une grande quantité de données enregistrées ou archivées qui ne nécessitent pas de mise à jour fréquente et qui sont souvent lues.
 

L’écosystème d’Hadoop

hadoop_ecosystem

  • Pig : l’ETL (Extract-Transform-Load)
  • Hive : gestionnaire des données distribuées
  • Mahout : constructeur de bibliothèques évolutives d’apprentissage automatique
  • Pegasus : permets d’analyser des pétaoctets de données graphiques
  • Sqoop : permets de transferer des données entre Hadoop et des SGBDR (Bulk)
  • Flume : un service fiable, efficace et disponible pour la collecte, le regroupement et le déplacement de grandes quantités de données
  • Business intelligence tools : des outils tels qu’Excel, PowerPivot, SQL Server Analysis Services et Reporting Services permettent d’analyser les données provenant de Hadoop en utilisant les pilotes ODBC (Hive ODBC)

 

Hadoop dans Windows Azure CTP

Le service Hadoop sur Windows Azure est disponible uniquement sur invitation CTP (Community Technical Preview). La CTP permet aux développeurs de tester le service et de remonter à Microsoft les éventuelles erreurs.

Les clusters sont provisionnés pour une durée de quelque jour (pour 5 jours aujourd’hui).
Lorsqu’il reste moins de 6 heures, une prolongation est possible après quoi le cluster expirera.
 
WindowsAzure1

WindowsAzure2WindowsAzure3
 

Leave a comment