Archi & techno

Melhorando o Desempenho dos Jobs Hadoop no HDInsight

  Há algum tempo ando experimentando alguns “macetes” para lidar com os dados de forma eficiente dentro do HDInsight, e como tenho obtido resultados conclusivos, fiz esse artigo para compartilhar com vocês essa experiência. Importante esclarecer que este artigo não se trata especificamente de uma comparação de desempenho e sim de uma experiência empírica, deliberadamente subjetiva, explicando a minha visão e as soluções que encontrei para otimizar o desempenho dos Jobs na plataforma BigData da Microsoft. Meu caso de uso é simples: uma POC com um cluster…

Lire la suite
Archi & techno

HDInsight: Big Data de acordo com a Microsoft

A Microsoft apresentou em 2012 sua iniciativa BigData para o Azure: O HDInsight. O Azure HDInsight implanta e provisiona clusters do Apache Hadoop na nuvem, fornecendo uma estrutura de software criada para gerenciar, analisar e relatar Big Data. O núcleo do Hadoop fornece armazenamento de dados com o HDFS (Sistema de Arquivos Distribuído Hadoop) e um modelo de programação MapReduce para processar e analisar, paralelamente, os dados armazenados nesse sistema distribuído.

Lire la suite
Archi & techno

Améliorer la performance des jobs Hadoop sur HDInsight

Cela fait quelque temps que j’expérimente des Tips & Tricks sur mes algos pour traiter de la data de façon performante et comme ça a été plutôt concluant dans mon cas, j’ai mis tout ça au propre pour les partager ici avec vous. Les quatre optimisations que je présente ici vont faire passer le temps d’exécution de 45 minutes à moins de 3 minutes. La plus importante étant le passage d’un script Pig à un code MapReduce.

Lire la suite
Archi & techno

HDInsight : Le Big Data selon Microsoft

Microsoft a lancé fin mars sa première preview publique de HDInsight sur Azure. Initialement limitée aux résidents des Etats-Unis, elle est ouverte depuis quelques temps au reste du monde. C'est  l'occasion de faire un rapide état des lieux du produit, et de voir ce que nous réserve Microsoft pour son entrée sur le marché du Big Data.

Lire la suite
Évènement

Techdays 2015 – Jour 1 – Nos impressions

Du 10 au 12 Février ont eu lieu les TechDays, l'événement annuel incontournable de Microsoft. Le thème de cette année étant "Ambient intelligence", nous retrouvons au programme les principaux thèmes : Mobilité, Cloud, Big Data et Internet Of Things. La première journée est dédiée aux développeurs, nous avons pu assister à des sessions plutôt techniques et pratiques. Voici donc un rapide compte-rendu des sessions que les Octos ont pu suivre ce jour.

Lire la suite
Évènement

TechDays 2015: Retrouvez toute l’actualité des technologies Microsoft avec OCTO

Les "Microsoft TechDays" sont LA conférence européenne à ne pas manquer si vous souhaitez découvrir et approfondir vos connaissances sur les technologies Microsoft. Cette conférence sera répartie sur 3 jours (10, 11 et 12 février) et se déroulera au Palais des Congrès de Paris. Le thème de cette année est l' "Ambiant Intelligence", c'est-à-dire que les sessions couvriront des sujets tels que le Big Data et le machine learning, les objets connectés / IoT, la mobilité, les technologies de développement et les infrastructures permettant de créer des services innovants et…

Lire la suite
Archi & techno

How to “crunch” your data stored in HDFS?

HDFS stores huge amount of data but storing it is worthless if you cannot analyse it and obtain information. Option #1 : Hadoop : the Map/Reduce engine Hadoop Overview Hadoop is a Map/Reduce framework that works on HDFS or on HBase. The main idea is to decompose a job into several and identical tasks that can be executed closer to the data (on the DataNode). In addition, each task is parallelized : the Map phase. Then all these intermediate results are merged into one result…

Lire la suite
Data Science

Intégrer au plus tôt la sécurité dans les delivery de Machine Learning

Cet article fait partie de la série “Accélérer le Delivery de projets de Machine Learning”, traitant de l’application d’Accelerate dans un contexte incluant du Machine Learning. Si vous n’êtes pas familier avec Accelerate, ou si vous souhaitez avoir plus de détails sur le contexte de cet article, nous vous invitons à commencer par lire l’article introduisant cette série. Vous y trouverez également le lien vers le reste des articles pour aller plus loin. Introduction Élément clef en logiciel, la sécurité doit bien entendu être considérée…

Lire la suite
Data

6 recommandations pour optimiser un job Spark

Exemple de gain de temps sur un cas d’usage exemple Spark est aujourd’hui un outil incontournable pour le traitement de données volumineuses. Cette technologie s’est imposée comme la plus sollicitée et recommandée pour de nombreuses applications business en data engineering. La dynamique est d’ailleurs soutenue par les offres de services managés comme Databricks qui permettent de s’affranchir d’une partie des coûts liés à l’achat et à la maintenance d’un cluster de machines distribués pour le calcul.  Les fournisseurs de Cloud les plus importants proposent également…

Lire la suite