Publications de Rémy Saissy

Archi & techno

Quelles solutions pour sécuriser un Data Lake sous Hadoop ?

Après la plateforme de batch scalable, le Data Lake, cette notion selon laquelle toutes les données de l'entreprise devraient être déversées et stockées sans discernement dans un entrepôt commun — de préférence un cluster Hadoop — est devenu au cours de l'année, un nouvel élément central de la communication des éditeurs autour d'Hadoop. Stocker de grands volumes de données dans un même cluster implique selon les industries, de faire cohabiter des données normales avec des données sensibles (données personnelles, données privées d'un client à qui on revend son service en…

Lire la suite
Archi & techno

Qu’est ce que Storm ?

Le domaine des big data est très prolifique, de nouveaux produits sortent régulièrement, certains meurent rapidement, d'autres, au contraire, connaissent un certain succès. Storm appartient à la seconde catégorie. Peut-être que vous vous demandez ce qu'est Storm. Est ce un concurrent d'Hadoop ? Une solution pour faire du requêtage en temps réel ? Encore autre chose ? Nous allons tenter, au travers de cet article, de vous aider à comprendre ce qu'est Storm et pourquoi il remporte un certain succès aujourd'hui.

Lire la suite
Archi & techno

Hadoop 2 en version stable : quel intérêt pour vous ?

Ca y est, Hadoop 2, ou plus précisément la 2.1.0 est passée en version "bêta". Et, plus intéressant, la sortie du four de la première version estampillée "stable", la 2.2.0, est maintenant officiellement prévue aux alentours de la mi-Septembre 2013. Nous ne sommes plus qu'à quelques bugs d'Hadoop 2 ! Tout ça c'est très bien mais quel est vraiment l'intérêt de cette nouvelle version majeure pour un datalab, un cluster de production, un poc ? Dans cet article, nous allons tâcher de balayer les différences majeures à…

Lire la suite
Archi & techno

Ambari, la supervision de cluster Hadoop

Présentation Lors du Hadoop Summit 2013, HortonWorks a présenté Ambari, un projet d’inbubation Apache destiné à la supervision et à l’administration de clusters Hadoop. Ambari se positionne en alternative à Chef, Puppet ou encore au Cloudera Manager. Le projet est aujourd’hui au stade de l’incubation, ce qui signifie que ses fonctionnalités sont encore limitées. Ambari ne se limite pas à Hadoop mais permet de gérer également les outils de l’écosystème. Les outils annoncés sont : HDFS Hadoop 1.0 uniquement, la version 2.0 devrait être supportée…

Lire la suite
Archi & techno

Hadoop Summit 2013 à Amsterdam – CR de deux jours de conférences techniques

Présentation Le Hadoop Summit arrive en Europe, et pour sa première édition Européenne, c’est la ville d’Amsterdam qui a été choisie. Beaucoup d'acteurs importants du monde Hadoop étaient présents : LinkedIn, HP, RedHat, Yahoo, HortonWorks, Cloudera, Microsoft, … L’article qui suit est un retour sur ce qui nous avons de retenu d’un point de vue architecture et technique de ces deux jours riches en conférences.

Lire la suite
Archi & techno

Hadoop dans ma DSI : benchmarker son cluster

Le test de performances est un élément incontournable des mises en production. De bons tests de performances permettent en effet : de s'assurer que la solution déployée répond aux attentes en termes de performances que le service rendu aux utilisateurs sera rapide sans mettre les serveurs à genoux de tester les limites de l'architecture déployée Hadoop n'est pas une application web, une base de données ou encore un webservice. Avec Hadoop, on ne teste pas les performances d'un job sous une haute charge d'utilisation. Au…

Lire la suite
Archi & techno

Hadoop dans ma DSI : comment dimensionner un cluster ?

Ca y est, vous avez décidé de mettre en place un cluster Hadoop. Prochaine étape, le dimensionnement... Hadoop étant une solution complexe, plusieurs questions se posent : HDFS gère des réplicas, Map Reduce génère des fichiers, comment faire pour prévoir mon stockage ? Comment prévoir mes besoins en CPU ? Comment prévoir mes besoins en mémoire ? Faut il faire une distinction sur certaines parties du cluster ? On m'a dit que Map Reduce déplace le code proche des fichiers... Concrètement, qu'est ce que cela…

Lire la suite
Archi & techno

Quoi de neuf dans Hadoop 2.0 ?

Introduction Cloudera a sorti une nouvelle version de sa distribution, la CDH4 qui intègre Hadoop 2.0.0. Cette version apporte de grosses nouveautés, la plus emblématique étant YARN (Yet Another Resource Negociator) que l'on nomme parfois MRv2 (Map Reduce 2) bien ces deux dénominations ne soit pas synonymes comme nous allons le voir par la suite. Les bases sont là mais il est à noter que certains éléments présentés ci dessous sont encore en cours d'implémentation dans Hadoop 2. Malgré tout, il nous semble intéressant de nous…

Lire la suite
Brèves de consultants

Du découplage

(Jean fait la queue avec Vincent au Starbucks) Jean : Quel monde ! Dire que je n'ai que 20 minutes, nous n'allons jamais avoir le temps de boire notre café ! Vincent : Ce n'est pas grave Jean, 20 minutes à faire la queue, ca reste un moment pour décompresser. Serveuse : Bonjour messieurs, que désirez vous commander ? Jean : Bonjour, un frappuccino s'il vous plait. Vincent : Bonjour, avec un café liégois s'il vous plait. Serveuse : Merci, un prénom ? Jean :…

Lire la suite
Brèves de consultants

Les virus sur smartphone, quelques faits

Naviguer sur internet, regarder les vidéos, écouter de la musique, lire son blog favori avec son téléphone mobile est aujourd'hui tout à fait possible voire même courant. Cette démocratisation du téléphone intelligent est géniale, aucun doute là dessus. Pourtant, il faut aussi garder à l'esprit que, comme souvent dans la vie, le succès attire aussi des ennuis. Le propos de cet article est de faire l'état des lieux de la situation des virus sur ces téléphones.

Lire la suite