Grande distribution : la collecte des tickets et ses enjeux

Nous constatons au quotidien dans les SI traditionnels rencontrés qu’un volume important de données qui peuvent s’avérer d’une grande utilité ne sont, soit pas collectées, soit non exploitées à leur juste valeur.

Aussi, les données sont souvent cloisonnées au sein d’applicatifs qui ne communiquent pas entre eux et ne permettent donc pas de les faire fructifier en les croisant avec d’autres données internes ou externes et d’en tirer une plus-value.

Pour atteindre ce niveau de maturité, proposer à vos clients de nouveaux services et vous différencier de la concurrence, l’enjeu est d’abord technique. Comment mon SI peut stocker, traiter un volume de données de plus en plus important dans un minimum de temps ? Les technologies adéquates se démocratisent sous l’impulsion des Géants du Web.

L’enjeu est également métier, puisque le traitement croisé, voire temps réel de ces données font émerger de nouvelles perspectives qu’il faut savoir appréhender.

Le secteur du E-Commerce et de la grande distribution n’échappent pas à la règle. C’est ce secteur et ses cas d’utilisation que nous avons choisi de développer en particulier dans ce billet.
Lire la suite

Savoir utiliser & configurer Elasticsearch

Elasticsearch est un moteur de recherche conçu dès le départ pour être distribué et gérer des volumes de données massifs. Il se base sur la librairie Apache Lucene et lui ajoute des fonctionnalités supplémentaires pour la mise en cluster, la haute disponibilité ainsi qu’une API puissante.

OCTO Academy vous propose une formation sur ce sujet. Cette formation de 3 jours a pour objet de présenter Elasticsearch et toutes les notions importantes pour développer de façon efficace avec Elasticsearch. Elle est aussi l’occasion de jeter un œil sous le capot pour comprendre plus en profondeur le fonctionnement d’Elasticsearch et en tirer le meilleur.

www.octo.academy Lire la suite

OCTO Academy lance son offre de séminaires interentreprises

SéminaireLa digitalisation transforme l’écosystème d’une entreprise, l’amenant à repenser son modèle d’organisation, ses métiers et sa culture.
OCTO Academy propose un programme complet de séminaires inspirants permettant de préparer les entreprises aux impératifs et profonds changements du « tout digital ».

NOS SÉMINAIRES PREMIUM 2015

EN STRATÉGIE DIGITALE

 

– Les Géants du Web : culture – pratiques – architecture

 Transformation digitale : les opportunités de remodeler la chaine de valeur

 Big Data & Data Science : mythe ou réalité ?

Lire la suite

Aerospike : du Clé-Valeur sous stéroïdes

Aerospike est un Key-Value store haute performance édité par la société du même nom, anciennement CitrusLeaf.

Quelques chiffres pour illustrer l’aspect haute performance : on parle ici de plusieurs centaines de milliers à un million d’opérations par seconde par serveur (sur une instance AWS C3.8XL à $1.308 /h) avec 99,9% des requêtes ayant une latence inférieure à 5 millisecondes.

Aerospike (la société) a “Open Sourcé” en juin dernier le fruit de 5 ans de travail afin de s’ancrer dans le panorama des solutions de stockage NoSQL.

En quelques mots, Aerospike est comparable à un Redis mais avec une architecture distribuée shared nothing proposant sharding et réplication permettant ainsi une scalabilité linéaire.

Il est à noter qu’Aerospike est conçu et implémenté pour tirer partie d’un stockage Flash (SSD) en accédant directement aux disk blocks.

Dans les fonctionnalités intéressantes que nous allons détailler par la suite, nous pouvons nommer :

  • Multi-DataCenter
  • Rack awareness
  • Index secondaires
  • TTL
  • User Defined Functions (MapReduce, …)

Lire la suite

Quelles solutions pour sécuriser un Data Lake sous Hadoop ?

Après la plateforme de batch scalable, le Data Lake, cette notion selon laquelle toutes les données de l’entreprise devraient être déversées et stockées sans discernement dans un entrepôt commun — de préférence un cluster Hadoop — est devenu au cours de l’année, un nouvel élément central de la communication des éditeurs autour d’Hadoop.

Stocker de grands volumes de données dans un même cluster implique selon les industries, de faire cohabiter des données normales avec des données sensibles (données personnelles, données privées d’un client à qui on revend son service en marque blanche, …).

Par ailleurs le fait qu’un datalake ne soit pas qu’un simple stockage sur HDFS mais un ensemble de solutions de stockage co-localisées (Fichiers, SQL, NoSQL, Recherche) ne simplifie pas la problématique.

Du coup,  cette communication sur le Data Lake s’accompagne de plus en plus d’une communication axée sur la sécurisation d’Hadoop.

Mais où en est vraiment la sécurisation d’Hadoop ? Quelles options pour efficacement sécuriser un Data Lake ?

Lire la suite

SQLFire depuis les tranchées

Il y a plus d’un an nous vous avions présenté NewSQL et comment distribuer ses données avec l’une des implémentations de cette architecture SQLFire. Cette étude a été étayée par la réalisation d’un POC tirée d’un cas réel pour vous faire partager également les difficultés de mise en oeuvre de tels produits. Nous vous partageons aujourd’hui deux articles (en anglais). Le premier détaille notre cas d’utilisation et la distribution des données dans ce cas. Le second livre les résultats chiffrés des tests de charge réalisés sur notre POC avec SQLFire.

Nouveautés de la base NoSQL Apache Cassandra 1.2

Introduction

A OCTO, nous suivons depuis quelques années déjà l’évolution de la base NoSQL Apache Cassandra. La sortie de la version 1.2 en janvier 2013 nous donne l’occasion de faire le tour d’horizon des évolutions récentes du produit. En résumé, on observe récemment une amélioration de l’expérience d’utilisation de Cassandra grâce à une simplification de la modélisation des données, du requêtage et de l’administration pour les opérationnels. Le tout en gardant les fondamentaux de la solution à savoir les performances, la disponibilité et la scalabilité.

Lire la suite

NewSQL: Comment distribuer ses données avec SQLFire

Contexte

SQLFire est une base de données relationnelle « in memory », c’est-à-dire qu’à tout instant ses données sont disponibles en mémoire vive. Les performances attendues sont donc très élevées, mais ce choix impose une limite sur le volume de données que peut stocker efficacement une instance (hors overflow sur le disque).

Pour franchir cette limite, pour permettre un failover en cas de panne matérielle et pour pouvoir monter en puissance, les concepteurs de SQLFire ont choisi d’encourager les développeurs à partitionner et répliquer leurs données sur plusieurs machines, toutes connectées sur un réseau local.

L’architecture choisie est de type share nothing, ce qui a des conséquences intéressantes à la fois pour le développeur et pour les performances. Ce deuxième article va présenter le mécanisme de partitionnement de SQLFire, proposer une méthodologie pour adapter le modèle de données, et discuter les conséquences des choix d’architecture de la solution.

Lire la suite