Map/Reduce

Archi & Techno

Using Hadoop for Value At Risk calculation Part 1

After introducing the Value at Risk in my first article, I have implemented it using GridGain in my second article. I conclude in this latter that relatively good performances have been reached through some optimizations. One of them was based on the hypothesis that the intermediate results - the prices for each draw - can be discarded. However, it is not always the case. Keeping the generated parameters and the call price for each draw can be very useful for business in order to analyze…

Read more
Archi & Techno

Utiliser Hadoop pour le calcul de la Value At Risk Partie 1

Après avoir introduit la Value At Risk dans mon premier article, je l'ai implémentée en utilisant GridGain dans mon second article. J'ai conclu dans ce dernier que les performances relativement bonnes obtenues étaient liées aux optimisations réalisées. L'une d'elles était basée sur l'hypothèse que les résultats intermédiaires - les prix issus de chaque tirage - pouvaient être oubliés. Cependant, ce n'est pas toujours le cas. Conserver les paramètres de génération et les prix des calls pour chaque tirage peut être très utile pour le métier…

Read more
Archi & Techno

HDFS, Hadoop & co…

Le monde noSQL est riche. Hadoop est un des éléments qui le compose. "Globalement" un clone du Google Big Table et utilisant l'algorithme Map/Reduce, ce projet Apache est en fait composé de plusieurs sous-projets (HBase,Zookeeper....). Vous me direz que depuis Google a changé son fusil d'épaule avec Big Query. Bref... Ces articles (je l'espère complétés par d'autres) expliquent plus en détails les éléments de base concernant HDFS et Hadoop. HDFS est un système de fichiers distribué, ie. réparti sur plusieurs machines physiques. Ce système de…

Read more
Archi & Techno

How to “crunch” your data stored in HDFS?

HDFS stores huge amount of data but storing it is worthless if you cannot analyse it and obtain information. Option #1 : Hadoop : the Map/Reduce engine Hadoop Overview Hadoop is a Map/Reduce framework that works on HDFS or on HBase. The main idea is to decompose a job into several and identical tasks that can be executed closer to the data (on the DataNode). In addition, each task is parallelized : the Map phase. Then all these intermediate results are merged into one result…

Read more