Microsoft Analytics Platform System

 

Le 15 Avril dernier, un grand évènement pour le lancement de SQL Server 2014 a u lieu à San Francisco. Le PDG Satya Nadella, Quentin Clark Corporate Vice PresidAccelerate your insightsent Data Platform Group et le COO Kevin Turner ont partagé leurs points de vue sur le rôle des données dans l’entreprise. Satya a exposé sa vision d’une plate-forme construite pour l’ère de l’intelligence, il a également souligné l’importance d’une « Culture » de la donnée encourageant la curiosité, l’action et l’expérimentation et ceux grâce à des solutions technologiques mettant les données à la portée de tous !

Pour revoir le replay : Accelerate your insights

Dans cet article je ne vais pas vous faire un résumé de ce qui s’est dit durant la Keynote mes collègues en ont déjà parlé : Jean-Pierre Riehl, Florian Eiden, …

Je citerais cependant les trois grandes nouveautés :

  • SQL Server 2014 : Cette version apporte entre autres les capacités de l’In Memory pour l’OLTP et la Business Intelligence.
  • Analytics Platform System (APS) : Combine le meilleur de la base de données SQL Server et les technologies Hadoop dans une Appliance.
  • Preview of Intelligent Systems Service : Nouveau service Azure permettant de capturer, transformer et gérer des données provenant de différentes machines et capteurs.

Vous l’aurez compris, dans cet article je vais faire un focus sur Analytics Platform System, l’évolution de Parallel Data Warehouse intégrant désormais la possibilité d’interroger des données dans l’entrepôt de données relationnelles traditionnelles et les données stockées dans Hadoop, la vraie nouveauté est la possibilité d’avoir un clusteur HDInsight à l’intérieur de l’Appliance.

Revenons avant toute chose sur la description de chacun de ces composants.

 

Parallel Data Warehouse (PDW)

PDW est une Appliance qui offre une puissance de traitement de données exceptionnelles basée sur une architecture dite MPP (Massive Parallel Processing). Elle permet d’obtenir des performances jusqu’à 100 fois supérieures à un serveur traditionnel et est capable de gérer des données structurées comme non structurées notamment avec PolyBase que nous verrons par la suite.

PDW

 

Polybase

polybasePolybase permet d’effectuer des requêtes T-SQL sur des données distribuées relationnelles stockées dans PDW et des données distribuées non relationnelles stockées dans HDFS (Hadoop Distributed File System).

Polybase support Hadoop sur Linux et Windows et est dit « agnostique » car le format, la structure et l’emplacement des données peuvent être variée et connue que lors de l’exécution de la requête.

Avec Polybase il n’est question que de données, de questions et de réponses, les utilisateurs n’ont pas a se soucier de la technologie et de ses complexités. Ils n’ont plus qu’a se soucier des coûts (en particulier OPEX), d’obtenir des réponses (rapidement) dans le but de rester compétitif :

  • Réduire les coûts en conservant les compétences existantes et en utilisant des outils familiers (KISS principe).
  • Obtenir des réponses grâce à une intégration simple, performante et Scalable en minimisant le mouvement de données.
  • Rester compétitif en augmentant le nombre de questions, leurs complexités et leurs volumétries tout en réduisant les temps de réponse en utilisant une plateforme flexible encourageant l’expérimentation.

 

HDInsight

HDInsightHDInsight n’est plus à présenter, surtout si vous suivez mon blog : HDInsight.

HDInsight est une version du framework Apache Hadoop s’exécutant sous un OS Windows . Plusieurs versions sont disponibles : HDInsight service dans Azure et HDInsight Server On Premise. Microsoft travaille en collaboration avec Hortonworks pour améliorer le service (initiative Stinger).

La dernière version de HDInsight est la version 3.0 se basant sur Hortonworks Data Platform version 2.0 (Hadoop 2.2). Cependant la version par défaut reste la version 2.1 se basant sur Hortonworks Data Platform version 1.3.

 

Analytics Platform System

Rentrons maintenant dans le vif du sujet, et à ce titre voici une petite vidéo (en anglais) d’APS :

L’Appliance Microsoft Analytics Platform System (APS) contient à la fois Microsoft SQL Server 2012 Parallel Data Warehouse (PDW) et HDInsight. Simple à déployer, APS est livré pré-configuré avec les logiciels, les matériaux et les composants réseaux dans un souci d’optimisation de performance. Il est aussi conçu pour évoluer suivant les besoins des utilisateurs.

Regardons plus en détail son architecture :

APS est découpé en Région et en Workload, une Région est conteneur logique permettant de cloisonner la charge de travail, la sécurité, les services. Un Workload est un clusteur de traitement de données.

La Region PDW contient :

APS_Regions

  • L’infrastructure de l’Appliance
  • Le moteur de base de données distribué (PDW)
  • Hadoop Data Integration (Polybase)
  • Management Console

La Region Hadoop contient :

  • HDInsight (HDP 1.3)
  • Un tableau de bord pour les développeurs

APS_RACK
 

Contrairement aux solutions SMP qui exécutent des requêtes sur un seul rack partageant CPU, mémoire et les opérations sur disques nécessitant l’achat de serveur de plus en plus puissant, les infrastructures MPP tel que APS permettent de commencer avec un petit rack et de l’agrandir pour soutenir les charges de travail des entrepôts de données jusqu’à 6 pétaoctets.

 

En utilisant les index en mémoire columnstore clusteur pour stocker des données sur le disque, PDW atteint des taux élevés de compression de données qui permettent d’économiser les coûts de stockage et d’améliorer les performances des requêtes :

APS_Workload

Pour charger les données dans l’Appliance, il existe les solutions suivantes :

  • File Based : La commande « dwloader.exe », Hadoop tools
  • Heterogeneous Sources : SSIS 2010 & 2012, Informatica PowerCenter, SAP Business ODI

APS_SSIS

 

Quelques imprime écran de la console d’administration permettant de surveiller l’Applicance :

APS1
APS2
APS3
APS4

 

Ressources

 

Comments are closed.

En savoir plus sur Pulsweb - Romain Casteres

Abonnez-vous pour poursuivre la lecture et avoir accès à l’ensemble des archives.

Continue reading