Data

Data

Geolocalização de publicações médico científicas

Na medicina, existem descobertas especiais que não apenas revolucionaram o conhecimento do corpo humano, das doenças e seus tratamentos, mas também salvaram milhões de pessoas. Essas descobertas aumentaram a qualidade e a expectativa de vida em todo o mundo, além de abrir horizontes para novos estudos. Mas atualmente, de onde as publicações médicas científicas estão vindo? Quais são os países que mais colaboram? Para investigar essas questões, nós nos concentramos na base de dados da biblioteca nacional de medicina dos Estados Unidos, a MEDLINE, com mais…

Lire la suite
Data

Melhorando o Desempenho dos Jobs Hadoop no HDInsight

  Há algum tempo ando experimentando alguns “macetes” para lidar com os dados de forma eficiente dentro do HDInsight, e como tenho obtido resultados conclusivos, fiz esse artigo para compartilhar com vocês essa experiência. Importante esclarecer que este artigo não se trata especificamente de uma comparação de desempenho e sim de uma experiência empírica, deliberadamente subjetiva, explicando a minha visão e as soluções que encontrei para otimizar o desempenho dos Jobs na plataforma BigData da Microsoft. Meu caso de uso é simples: uma POC com um cluster…

Lire la suite
Data

HDInsight: Big Data de acordo com a Microsoft

A Microsoft apresentou em 2012 sua iniciativa BigData para o Azure: O HDInsight. O Azure HDInsight implanta e provisiona clusters do Apache Hadoop na nuvem, fornecendo uma estrutura de software criada para gerenciar, analisar e relatar Big Data. O núcleo do Hadoop fornece armazenamento de dados com o HDFS (Sistema de Arquivos Distribuído Hadoop) e um modelo de programação MapReduce para processar e analisar, paralelamente, os dados armazenados nesse sistema distribuído.

Lire la suite
Data

Medindo a performance do seu cluster Hadoop

O Hadoop não é uma aplicação web, um banco de dados e tampouco um webservice, você não conseguiria estressar um cluster Hadoop com teste de carga tradicional (afinal ele é feito pra suportar grandes volumes de dados). Realizar um teste de estresse no cluster é um passo geralmente esquecido, porém muito importante quando você monta o seu ambiente hadoop, afinal, é importante ter um benchmark do cluster, ou seja, avaliar seu desempenho, executando uma variedade de tipos de jobs cada uma focado em um campo específico…

Lire la suite
Data

Prevendo o futuro com filtros colaborativos

É possível prever o futuro? Muitos acreditam que um homem chamado Michel de Nostradamus foi capaz. Suas previsões têm intrigado estudiosos por mais de quatrocentos anos. Prever o futuro sempre foi um dos maiores desejos do ser humano, isso pode ser visto em quadrinhos, filmes de Hollywood, e até mesmo na cigana que te aborda na rua para ler a sua mão. A ciência afirma que prever o futuro pode ser uma capacidade humana: uma pesquisa empírica sugere que o cérebro possui uma certa capacidade de perceber o…

Lire la suite
Data

Um sistema para aplicações em tempo real e bigdata análise, graças Hadoop e Cassandra

Enquanto ecosistema Apache Hadoop cresce e ao mesmo tempo o seu núcleo amadurece, existem atualmente várias empresas que oferecem distribuição Hadoop e serviços de primeira classe. Enquanto a EMC, depois de adquirir a Greenplum, parece se destacar e sair na frente, outras outras empresas, como Cloudera ou MapR ainda seguem no páreo. Este artigo apresenta o Datastax Brisk, uma inovadora distribuição Hadoop que coloca a infraestrutura Data Warehouse Apache Hive sob uma camada compatível com HDFS baseado no Cassandra. Brisk tenta combinar  aplicações de tempo-real…

Lire la suite