Hadoop

Archi & Techno

Utiliser Hadoop pour le calcul de la Value At Risk Partie 4

Dans le premier article de cette série, j'ai introduit pourquoi le framework Hadoop peut être utile pour calculer la VAR et analyser les données intermédiaires. Dans le second et le troisième article j'ai donné deux implémentations concrètes du calcul de la VAR avec Hadoop. Je vais maintenant m'attarder sur certains détails d'optimisation utilisés dans ces implémentations.

Read more
Archi & Techno

Using Hadoop for Value At Risk calculation Part 4

In the first part of this series, I have introduced why Hadoop framework could be useful to compute the VAR and analyze intermediate values. In the second part and in the third part I have given two concrete implementations of VAR calculation with Hadoop. I will now give you some details about the optimizations used in those implementations.

Read more
Archi & Techno

Utiliser Hadoop pour le calcul de la Value At Risk Partie 3

Dans le premier article de cette série, j'ai introduit pourquoi le framework Hadoop pouvait être utilisé pour calculer la VAR et analyser les valeurs intermédiaires. Dans le second article j'ai décrit une première implémentation. Un inconvénient de cette précédente implémentation est qu'elle ne tire pas pleinement partie du pattern reduce. Je réalise le travail manuellement. Je vais désormais utiliser pleinement la fonctionnalité reduce.

Read more
Archi & Techno

Using Hadoop for Value At Risk calculation Part 3

In the first part of this series, I have introduced why Hadoop framework could be useful to compute the VAR and analyze intermediate values. In the second part I have described a first implementation. One drawback of this previous implementation is that it does not take advantage of the reduce pattern. I did it by hand. I will now fully use Hadoop reduce feature.

Read more
Archi & Techno

Using Hadoop for Value At Risk calculation Part 1

After introducing the Value at Risk in my first article, I have implemented it using GridGain in my second article. I conclude in this latter that relatively good performances have been reached through some optimizations. One of them was based on the hypothesis that the intermediate results - the prices for each draw - can be discarded. However, it is not always the case. Keeping the generated parameters and the call price for each draw can be very useful for business in order to analyze…

Read more
Archi & Techno

Utiliser Hadoop pour le calcul de la Value At Risk Partie 1

Après avoir introduit la Value At Risk dans mon premier article, je l'ai implémentée en utilisant GridGain dans mon second article. J'ai conclu dans ce dernier que les performances relativement bonnes obtenues étaient liées aux optimisations réalisées. L'une d'elles était basée sur l'hypothèse que les résultats intermédiaires - les prix issus de chaque tirage - pouvaient être oubliés. Cependant, ce n'est pas toujours le cas. Conserver les paramètres de génération et les prix des calls pour chaque tirage peut être très utile pour le métier…

Read more
Archi & Techno

HDFS, Hadoop & co…

Le monde noSQL est riche. Hadoop est un des éléments qui le compose. "Globalement" un clone du Google Big Table et utilisant l'algorithme Map/Reduce, ce projet Apache est en fait composé de plusieurs sous-projets (HBase,Zookeeper....). Vous me direz que depuis Google a changé son fusil d'épaule avec Big Query. Bref... Ces articles (je l'espère complétés par d'autres) expliquent plus en détails les éléments de base concernant HDFS et Hadoop. HDFS est un système de fichiers distribué, ie. réparti sur plusieurs machines physiques. Ce système de…

Read more
Archi & Techno

How to “crunch” your data stored in HDFS?

HDFS stores huge amount of data but storing it is worthless if you cannot analyse it and obtain information. Option #1 : Hadoop : the Map/Reduce engine Hadoop Overview Hadoop is a Map/Reduce framework that works on HDFS or on HBase. The main idea is to decompose a job into several and identical tasks that can be executed closer to the data (on the DataNode). In addition, each task is parallelized : the Map phase. Then all these intermediate results are merged into one result…

Read more