Big data

Big data

Geolocalização de publicações médico científicas

Geolocalização de publicações médico científicas

Na medicina, existem descobertas especiais que não apenas revolucionaram o conhecimento do corpo humano, das doenças e seus tratamentos, mas também salvaram milhões de pessoas. Essas descobertas aumentaram a qualidade e a expectativa de vida em todo o mundo, além de abrir horizontes para novos estudos.

Mas atualmente, de onde as publicações médicas científicas estão vindo? Quais são os países que mais colaboram?

Para investigar essas questões, nós nos concentramos na base de dados da biblioteca nacional de medicina dos Estados Unidos, a MEDLINE, com mais de 18 milhões de artigos e citações medicas.

Dados abertos estão fluindo ao redor do mundo, esperando por novos ângulos de análise e para enfrentar esses grandes problemas, um rico ecossistema de ferramentas tem evoluído, juntamente com novos paradigmas de arquitetura. O desafio Medline demonstra o que pode ser alcançado com o poder de ferramentas BigData.

Para fornecer alguns insights sobre como a nossa aplicação web interativa foi construída para explorar esses dados, vamos analisar o método de localização geográfica com base na filiação de texto livre. O Hadoop orientado para tratamento de dados com Scala e Spark e análise interativa com o Zeppelin notebook e renderização com React (um moderno framework JavaScript). O código foi aberto e publicado no github [1, 2] e o aplicativo está disponível funcional na Amazon AWS.

Leia mais

Big data

Melhorando o Desempenho dos Jobs Hadoop no HDInsight

 

HMelhorando o desempenho dos Jobs Hadoop no HDInsightá algum tempo ando experimentando alguns “macetes” para lidar com os dados de forma eficiente dentro do HDInsight, e como tenho obtido resultados conclusivos, fiz esse artigo para compartilhar com vocês essa experiência.

Importante esclarecer que este artigo não se trata especificamente de uma comparação de desempenho e sim de uma experiência empírica, deliberadamente subjetiva, explicando a minha visão e as soluções que encontrei para otimizar o desempenho dos Jobs na plataforma BigData da Microsoft.

Meu caso de uso é simples: uma POC com um cluster Hadoop instanciado no Azure, consistindo basicamente em filtrar informações de uma base de informações com um volume estimado em 1.3 TB ao ano.

Se você ainda não está familiarizado com o ecossistema de processamento paralelizado Hadoop, mas quer saber mais sobre o assunto, basta escolher a pílula vermelha, mas eu devo te advertir: esse é um caminho sem volta…

Leia mais

Big data

HDInsight: Big Data de acordo com a Microsoft

A Microsoft apresentou em 2012 sua iniciativa BigData para o Azure: O HDInsight.

O Azure HDInsight implanta e provisiona clusters do Apache Hadoop na nuvem, fornecendo uma estrutura de software criada para gerenciar, analisar e relatar Big Data. O núcleo do Hadoop fornece armazenamento de dados com o HDFS (Sistema de Arquivos Distribuído Hadoop) e um modelo de programação MapReduce para processar e analisar, paralelamente, os dados armazenados nesse sistema distribuído. Leia mais

Big data

Medindo a performance do seu cluster Hadoop

O Hadoop não é uma aplicação web, um banco de dados e tampouco um webservice, você não conseguiria estressar um cluster Hadoop com teste de carga tradicional (afinal ele é feito pra suportar grandes volumes de dados).

Realizar um teste de estresse no cluster é um passo geralmente esquecido, porém muito importante quando você monta o seu ambiente hadoop, afinal, é importante ter um benchmark do cluster, ou seja, avaliar seu desempenho, executando uma variedade de tipos de jobs cada uma focado em um campo específico (indexação, consulta estatísticas preditivas, aprendizado de máquina, …).

Bons testes de stresse nos ajudam a:

  • Assegurar que o software atende suas exigências de performances.
  • Garantir que o serviço vai entregar um tempo de resposta rápido, mesmo sob uma alta demanda de serviço.
  • Alcançar os limites de escalabilidade, que por sua vez é útil para planejar os próximos passos do desenvolvimento.

A Intel lançou o HiBench, uma ferramenta dedicada para executar esse tipo de teste. Neste artigo, vamos falar sobre essa ferramenta.

Leia mais

Big data

Prevendo o futuro com filtros colaborativos

É possível prever o futuro? Muitos acreditam que um homem chamado Michel de Nostradamus foi capaz. Suas previsões têm intrigado estudiosos por mais de quatrocentos anos.

Collaborative Filtering

Prever o futuro sempre foi um dos maiores desejos do ser humano, isso pode ser visto em quadrinhos, filmes de Hollywood, e até mesmo na cigana que te aborda na rua para ler a sua mão. A ciência afirma que prever o futuro pode ser uma capacidade humana: uma pesquisa empírica sugere que o cérebro possui uma certa capacidade de perceber o que está por vir…

Mas, falando em tecnologia, como os aplicativos atuais conseguem oferecer produtos e serviços como se tivessem “adivinhando” a necessidade do usuário? O Neo diria que eles usam os poderes do Oráculo, mas acredite, não é bem assim…

Leia mais

Big data

Um sistema para aplicações em tempo real e bigdata análise, graças Hadoop e Cassandra

Enquanto ecosistema Apache Hadoop cresce e ao mesmo tempo o seu núcleo amadurece, existem atualmente várias empresas que oferecem distribuição Hadoop e serviços de primeira classe. Enquanto a EMC, depois de adquirir a Greenplum, parece se destacar e sair na frente, outras outras empresas, como Cloudera ou MapR ainda seguem no páreo.

Este artigo apresenta o Datastax Brisk, uma inovadora distribuição Hadoop que coloca a infraestrutura Data Warehouse Apache Hive sob uma camada compatível com HDFS baseado no Cassandra. Brisk tenta combinar  aplicações de tempo-real com exigência de baixa-latência (OLTP) e grande massa de dados analíticos em um mesmo sistema.

É mesmo? Explorar o resto do artigo, em Inglês