Les Patterns des Grands du Web – DevOps

Description

Le mouvement  « DevOps » nous invite à repenser la frontière classique de nos organisations qui séparent d’un côté les études, i.e. ceux qui écrivent le code des applications (les « Dev ») et de l’autre côté la production, i.e. ceux qui déploient et exploitent ces applications (les « Ops »).

Ces réflexions sont certainement aussi anciennes que les DSIs mais elles trouvent un peu de fraîcheur grâce notamment à deux groupes. D’un côté les agilistes qui ont levé la « contrainte » côté développement, et sont maintenant capables de « livrer » beaucoup plus souvent du logiciel valorisé par le client… de l’autre, des experts ou des managers de la « prod » des grands du web (Amazon, Facebook, LinkedIn…) partageant leurs retours d’expérience et la façon qu’ils ont d’aborder la frontière « dev » et « ops ».

(Lire la suite…)

Soirée PaaS : Platform As a Service

Le Lundi 2 avril 2012 de 18h30 à 21h30
Lieu et accès :
OCTO Technology
50 avenue des Champs Elysées – 5ème étage

Cliquez ici pour vous inscrire

La grande promesse du cloud computing est sans doute l’agilité, l’élasticité et la banalisation des ressources d’infrastructure.

Pour profiter de ces avantages, l’approvisionnement du système d’exploitation ne suffit pas : les organisations et les développeurs se retrouvent souvent à la recherche de moyens plus agiles pour déployer leurs applications sur le nuage. Et cela, avec des services haut niveau. De fait, PaaS (Platform as a service) est de plus en plus reconnu comme étant un moyen de faciliter la réalisation d’ applications Cloud.

Quoi qu’il en soit, la gestion de la «construction» de l’infrastructure est en pleine évolution : le déploiement et l’approvisionnement doivent être automatisés, l’envie d’une interface d’utilisation des services uniques et non adhérente à un fournisseur, la définition de SLA doit être possible…
Les consultants OCTO, architectes en systèmes d’information, présenteront les principaux enjeux et perspectives de ce type d’architectures et le savoir-faire pour les réaliser.

En deuxième partie, les experts de GigaSpaces présenteront Cloudify, leur nouvelle offre qui adresse ces enjeux en vous offrant la liberté, la simplicité et l’agilité associées au PaaS.

Cliquez ici pour vous inscrire

Data Grid or nosql? same, same but different…

Depuis trois ans maintenant, NoSQL remet en question le monde centralisé des RDBMS. Les espaces de stockage distribués ne sont pour autant pas nouveaux et les banques, les plateformes de jeux utilisent des « grilles de données » pour adresser leurs enjeux de débit et de latence.

Quels sont les points communs? les principales différences entre les univers NoSQL et « data grids »?

Lire la suite…

OCTO recrute un(e) administrateur(trice) réseau, responsable help desk

Dans le cadre de son développement, OCTO recrute un(e) administrateur(trice) réseau, responsable helpdesk.

Le réseau, l’infrastructure et le help desk actuels sont maintenus par des consultants selon leurs disponibilités en mode best effort. OCTO étant en pleine croissance les besoins en terme de help desk et d’infrastructure sont de plus en plus importants. De ce fait, le volontariat interne ne suffit plus.

C’est pourquoi nous cherchons une personne pour assumer cette responsabilité. Selon votre progression le poste pourrait être amené à évoluer vers de l’administration système et réseau sur le parc de serveurs d’Octo (environnement Linux en majorité).
(Lire la suite…)

Datacenter as a Computer : une plongée dans les datacenters des acteurs du cloud

Dans ce papier (de 2009), Luiz André Barroso and Urs Hölzle (entre autres) de Google Inc. présente une introduction aux “Warehouse-Scale Computers” (abrégé WSC); une introduction aux grands datacenters du l’industrie du Web.

Alors certes c’est assez loin de notre quotidien (à la fois en termes d’échelle mais également en termes de métier car on ne construit pas tous les jours un nouveau datacenter) mais ce papier nous aide à nous projeter dans ce qu’est un datacenter chez les acteurs du Cloud d’aujourd’hui. Une merveille qui présente très certainement ce que seront nos datacenters traditionnels à terme, les impacts que cela aura sur les architectures applicatives.

L’objectif ici n’est pas de reprendre l’exhaustivité de ce papier de 90 pages mais de vous faire part des éléments, à mon sens, les plus marquants et qui s’articule autour de plusieurs axes :

  • Présentation des concepts généraux d’un datacenter, ses services, son organisation (Alimentation électrique, gestion de climatisation…)
  • Un zoom particulier sur les serveurs qui composent un datacenter
  • Une analyse très détaillée des enjeux énergétiques associés
  • Une discussion (et des études de cas) autour des TCO
  • Un zoom particulier sur les pannes et leurs origines

(Lire la suite…)

Scribe, Chukwa…des collecteurs permettant d’alimenter le HDFS

HDFS, que nous avons déjà évoqué, reste un système de fichier distribué et il faut donc l’alimenter. Il y existe plusieurs options :

  • à la manière batch. La première option est donc de continuer à collecter les données sur un système de fichier local et de les importer sur le HDFS par vacation. La seconde option serait d’utiliser un ETL. Pentaho a annoncé le support de Hadoop pour sa solution Data Integration Product. Les premiers tests que l’on a réalisé nous montre que cela fonctionne mieux pour extraire de la donnée du HDFS (via Hive) que pour l’importer (après, ce n’est certainement qu’une question de temps avant que Pentaho fasse le nécessaire). La troisième option serait d’utiliser Sqoop. Sqoop permet d’extraire ou d’importer des données depuis votre RDBMS en utilisant un algorithme de Map/Reduce.
  • à la manière « fil de l’eau ». Dans ce domaine, les solutions se prénomment Flume, Chukwa (qui fait partie du projet Apache Hadoop) ou Scribe. En somme, vous collectez et aggréger des données, de différentes sources, différentes applications, différentes machines « au fur et à mesure ». Toutes ces solutions fonctionnent globalement de la même manière. On peut cependant noter que Flume ou Chukwa proposent une typologie de connecteurs plus riches que Scribe dans la mesure ou par exemple, il est possible de ce connecter en « tail » sur un fichier etc, etc…Chukwa est également plus simplement intégrable avec la stack Hadoop que ce que peut l’être Scribe.

Reste que c’est Scribe, massivement utilisé chez Facebook, que nous allons décortiquer dans cette article (en anglais)

HDFS, Hadoop & co…

Le monde noSQL est riche. Hadoop est un des éléments qui le compose.
« Globalement » un clone du Google Big Table et utilisant l’algorithme Map/Reduce, ce projet Apache est en fait composé de plusieurs sous-projets (HBase,Zookeeper….).

Vous me direz que depuis Google a changé son fusil d’épaule avec Big Query. Bref…

Ces articles (je l’espère complétés par d’autres) expliquent plus en détails les éléments de base concernant HDFS et Hadoop.

  • HDFS est un système de fichiers distribué, ie. réparti sur plusieurs machines physiques. Ce système de fichiers gère notamment le “fail-over” via la réplication des fichiers.
  • Hadoop. Hadoop est un moteur Map/Reduce qui fonctionne sur HDFS. Il permet d’analyser les données stockées sur HDFS. Mais Hadoop n’est pas forcément simple d’accès et deux DSL ont été développés et visent à s’abstraire de la complexité de Map/Reduce. Le premier est Pig et propose un langage de script. Le second est Hive est présente l’avantage de ressembler au langage SQL. Hive fournit également des connecteurs JDBC…

Teradata & Cloudera : partenariat autour de Data Warehousing et de Hadoop

Nous essayons, en général, de ne pas nous contenter de relayer l’information. Reste qu’il est des news qui sont surprenantes, surtout dans des contextes innovants comme noSQL.

Teradata & Cloudera s’associeraient et proposeraient une intégration entre Teradata et la distribution Hadoop de Cloudera

Parallel processing frameworks, such as Hadoop, have a natural affinity to parallel data warehouses, such as the powerful Teradata analytical database engine. Although designed for very different types of data exploration, together the two approaches can be more valuable in mining massive amounts of data from a broad spectrum of sources. Companies deploying both parallel technologies are inventing new applications, discovering new opportunities,…

Nous aurons l’occasion de reparler d’Hadoop qui regroupe à la fois un espace de stockage sous la forme d’un système de fichiers distribué (Hadoop Distributed File System) et un moteur Map/Reduce.

Teradata quand à lui, est un éditeur spécialisé depuis les années 80 dans la gestion d’entrepôt de données et bien entendu les traitements analytiques sur ces données. L’offre Teradata est vaste et largement déployée; elle propose même des appliances à cet effet.

Bref, qu’un des leader de la BI s’intéresse aux technologies classiquement dites « noSql » est bien le signe que ces technologies (en tout cas la partie Hadoop) ont leur place dans l’univers BI en entreprise.
C’est également une opportunité pour Cloudera d’asseoir leur positionnement « Hadoop pour l’entreprise ». Espérons qu’Hadoop (dans sa version « Open ») profitera également de cette maturation.

DevOps : le mouvement qui tend à “Agilifier” votre DSI

La communauté « DevOps » nous invite à repenser la frontière classique de nos organisation, séparant d’un côté les études, i.e. ceux qui écrivent le code (le “Build”) et de l’autre côté la production, i.e. ceux qui déploient et exploitent ces applications (le “Run”).

2 groupes se retrouvent dans le mouvement DevOps et apportent un peu de fraicheur dans ces réflexions aussi anciennes que les DSIs :

  • les agilistes qui ont levé la « contrainte » côté développement, et sont maintenant capable de « livrer » beaucoup plus souvent du logiciel valorisé par le client…mais regrettent que « la prod ne suive pas »
  • des experts ou des managers de la « prod » des grands du web (Amazon, Facebook, LinkedIn…) partageant leurs retours d’expérience sur leur façon d’envisager cette frontière
  • (Lire la suite…)

    Jouons avec Cassandra… (3/3)

    Cette partie se concentre sur la partie client et présente des exemples de code Java permettant de manipuler les concepts métiers définis dans la partie précédente.

    Bien que les APIs Cassandra soient disponibles dans plusieurs langages, concentrerons nous sur l’API Java.
    (Lire la suite…)