HDInsight: Big Data de acordo com a Microsoft

A Microsoft apresentou em 2012 sua iniciativa BigData para o Azure: O HDInsight.

O Azure HDInsight implanta e provisiona clusters do Apache Hadoop na nuvem, fornecendo uma estrutura de software criada para gerenciar, analisar e relatar Big Data. O núcleo do Hadoop fornece armazenamento de dados com o HDFS (Sistema de Arquivos Distribuído Hadoop) e um modelo de programação MapReduce para processar e analisar, paralelamente, os dados armazenados nesse sistema distribuído.

Nesse seguimento, a Microsoft tem como principal concorrente a Amazon, que utiliza a tecnologia Hadoop desde 2009 com seu Elastic MapReduce (EMR).

O HDInsight Destaca-se pela facilidade de implementação “User Friendly” de clusters, uma leitura no bom livro: Developing BigData Solutions on Microsoft Azure HDInsight ratifica essa afirmação. Entretanto apenas agora a plataforma começa a ganhar evidência no seguimento BigData.

De acordo com o Gerente de Produto da Plataforma de Dados Microsoft, Frederico Rezende, a empresa procura desenvolver sua plataforma de processamento distribuído há muito tempo:

Pouca gente sabe, mas a Microsoft atua com Big Data há muito tempo. O Bing, por exemplo, analisa mais de 100 petabytes de dados para fornecer resultados de pesquisa de alta qualidade. Agora, as organizações podem usar a Plataforma de Big Data da Microsoft para gerar insights de negócios a partir de quaisquer tipos de dados, estruturados ou não, provenientes das mais diversas fontes, conhecidas ou não pela empresa, através de ferramentas já familiares aos usuários, como o Microsoft Office e o SharePoint, em qualquer lugar, através de qualquer device ou plataforma.

HDInsight em duas palavras

Sob o nome "HDInsight" escondem-se na verdade dois produtos:

  • Microsoft Servidor HDInsight Também conhecido Hortonworks Plataforma de Dados (HDP), é uma versão instalável do Hadoop no Windows Server (2008 e 2012), para integrar a plataforma com seu próprio cluster físico.
  • Windows Azure HDInsight HDInsight Azure é a versão SaaS da plataforma, que funciona na nuvem da Microsoft Azure.

HDInsight é uma plataforma de integração Hortonworks (versão 2.2 até à data) dentro do Windows. Essa distribuição foi desenvolvida conjuntamente pela Microsoft e Hortonworks. Ele irá incluir os componentes clássicos de uma distribuição do FrameWork Hadoop:

COMPONENTEVERSÃO
Apache Hadoop e YARN2.2
Tez0.5.2
Apache Pig/Hive e HCatalog0.14.0
Apache Sqoop1.4.5
Apache Oozie4.1.0
HBase0.98.4
Zookeeper/Storm/Mahout/Phoenix3.4.6/0.9.3/0.9.0/4.2.0

Observe que a Microsoft contribui ativamente para o projeto Apache, submetendo o seu trabalho para a comunidade open-source. Além disso, encontramos Chris Douglas e Ivan Mitic, ambos os desenvolvedores da Microsoft na lista de colaboradores do Hadoop.

A integração com o ecossistema Azure

Hortonworks é uma distribuição baseada em Java, em que medida a Microsoft foi capaz de integrar o produto em seu ecossistema?

Um rápido olhar para este diagrama dá-nos uma visão global do ecossistema HDInsight no Azure. Blocos roxos são componentes acrescentados pelo produto da Microsoft.

HDInsight Overview

Javascript

A administração portal Azure oferece uma console Javascript, que permite que você interaja com o cluster diretamente da interface web. Essas interações serão na forma de consultas Pig Latin ou Scripts Hive.

C# F# .NET

A integração com SDK possibilita desenvolver trabalhos MapReduce e executar Hive Query (LINQ para Hive) em .Net.

O SDK de desenvolvimento ( HadoopSDK ) está disponível codeplex ou diretamente sob a forma de NuGet no Visual Studio.

HDInsight Emulator

Uma boa ideia para quem quer testar seus algoritmos de “MapReduce.net” localmente é utilizar HDInsight Emulator. Sendo uma espécie de SandBox, ele permite o espelhamento do ambiente HDInsight do Azure na sua Máquina local.

Data Warehouse / Polybase

Polybase reconcilia os dados de um banco de dados relacional SQL Server com dados do cluster Hadoop. O usuário pode então consultar seus dados através de SQL tradicional, que pode agregar informações de um tratamento Hadoop.

Integrações

Os vários blocos de conectividade permitem que o cluster Hadoop se comunique com os sistemas de workflow Azure, ou SQL Server.

Microsoft especialmente enfatiza muito a integração com o Excel. O novo conector ODBC permite a conexão no Excel em uma base Hive, oferecendo ao usuário um serviço Self Service BI diretamente em uma ferramenta que ele conhece bem.

Conectores também permitem interface com as outras ferramentas de BI (PowerPivot / SQL Server Analysis Service / etc.)

Monitoramento

A interface de monitoramento é disponibilizada após a implantação de um cluster no Azure. Como os produtos mais recentes da Microsoft, a interface é clara e simples.

Azure Storage Vault

Como a Amazon, uma implantação de cluster no Azure não tem a intenção de persistir ao longo do tempo. Para isso, a Microsoft oferece a interface com o seu sistema de armazenamento de dados Azure HDFS (Azure Blobs), para reter seus dados ao longo do tempo, e reutilizar uma vez que o conjunto seja destruído.

Active Directory

Por último, HDInsight permite integrar facilmente um cluster ao seu ambiente existente atrelar o poder do Active Directory para o produto.

E sobre os preços?

O preço de um cluster HDInsight é calculado sobre uma taxa horária, dependendo da quantidade de instâncias ativas. Ou seja, que um cluster consiste em um nó mestre (NameNode) e vários nós de escravos (DataNodes) que pode ter uma configuração (e, portanto, de preços) diferentes.

Para obter informações, as taxas atuais da visualização são:

Tipo de NóPreço
NameNode (A4)R$2,184/h(~R$1.624/mo)
DataNodes (A3)R$1,092/h(~R$812/mo)

Para ir mais longe

Se você tem uma conta Azure, você pode Estudar a documentação, e ativar o seu cluster trial.

Outra alternativa é baixar diretamente a Distribuição HDP, utilizando como “sandbox” para fins didáticos.

Conclusão

Vamos analisar os pontos fortes do HDInsight:

  • A facilidade de criação de um cluster para uma sociedade acostumada ao ecossistema Microsoft, tanto para a administração e utilização.
  • A possibilidade de desenvolvimentos em .NET para as equipes Microsoft matizadas.
  • A consulta de dados diretamente no Excel, para não desenvolvedores Analistas.

Pontos fracos:

  • Microsoft parece estar apostando todas as fichas em uma área que não é seu forte:Vender um serviço a partir de um produto terceiro, via parceria.
  • Os preços precisam ser mais atrativos que aos da Amazon.

Fato, a Microsoft conseguiu adicionar os vários blocos que facilitam a integração entre tecnologias OpenSource e seu SDK no ambiente Windows.

Apesar de haver nenhuma grande revolução, O HDInsight é solução completa, simples de configurar e usar.

O próximo passo é entender como a performance do ambiente pode ser elevada aos níveis da Amazon, mas esse já é assunto para o próximo artigo ;-)