datascience

Archi & techno

DevoxxFR – Jour 1

Ayant eu la chance d’assister au premier jour de DevoxxFR 2017, je vous retranscris ma journée du mercredi. J’ai pu revoir les bases de la Data Science, découvrir les algorithmes génétiques et faire une petite passe sur Serverless.

Lire la suite

Big Data

Classification d’images : les réseaux de neurones convolutifs en toute simplicité

Vous souhaitez créer une IA capable de classifier des images ?

  • Qu’elle reconnaisse Pikachu sur Pokemon Go ?
  • Qu’elle automatise des opérations répétitives comme le tri de légumes ?
  • Voire qu’elle réalise des tâches expertes comme un diagnostic de la rétinopathie diabétique

Les réseaux de neurones convolutifs sont l’outil de choix dans la besace du Data Scientist pour ce type de problèmes. Ce sont des algorithmes phares du Deep Learning, objets d’intenses recherches… dont la richesse peut impressionner.

Il est pourtant possible de créer très simplement des modèles performants : avec peu d’images, peu de capacités de calcul et sans maîtrise des arcanes algorithmiques. Toute l’astuce consiste à réutiliser des réseaux pré-entraînés sur d’autres problèmes, par des techniques de transfer learning. La librairie open-source Keras permet de coder cela en quelques lignes, avec une API claire et de haut niveau.

Ce guide prend pour exemple la récente compétition Kaggle StateFarm, une excellente arène pour développer vos capacités de dresseurs d’algorithmes. Nous introduisons deux techniques de transfer learning qui donnent d’excellents résultats. Puis nous traversons ensemble les couches techniques mises en oeuvre, pour déjouer les embûches théoriques et pratiques que vous pourriez rencontrer.  Lire la suite

Évènement

Afterwork à Genève le jeudi 10 novembre « Data Science & Machine Learning : explorer, comprendre et prédire »

perso_ops

Pour notre troisième Afterwork sur le thème du « Big Data », nous proposons une introduction aux pratiques et bénéfices de la Data Science. Si les précédentes sessions ont dévoilé comment stocker et traiter de gros volumes de données à moindre coût, nous aborderons un nouvel aspect : comment découvrir les trésors d’information présents dans vos données.

Lire la suite

Big Data

Retours de Strata + Hadoop World 2016 – Partie 2

strata-newBienvenue dans la deuxième partie de notre compte-rendu de la conférence Strata + Hadoop World 2016. Si vous êtes intéressés par des retours d’expérience de production (Kafka, Spark, Hadoop, architecture Kappa, Docker, etc.) ou par les technologies de streaming (Apache Beam, Kafka Streams, Samza, Spark Streaming…), rendez-vous sur la première partie de cet article.

Ici, nous allons nous concentrer sur les autres technologies abordées pendant les sessions que nous avons suivies (Apache Nifi, Apache Drill, GPU, Hadoop Recordservice…), sur les sujets liées à la donnée  (traitement du langage, data-driven business, partage de la donnée…), et nous terminons par quelques inclassables futuristes ou philosophiques (le futur de l’IA, le futur d’Hadoop, le relativisme des données…).

Lire la suite

Big Data

Retours de Strata + Hadoop World 2016 – Partie 1

strata-newLa conférence Strata + Hadoop World avait lieu à Londres du 2 au 3 juin. L’événement était co-organisé par O’Reilly et Cloudera et les sujets de prédilection des talks étaient bien sûr tous liés au Big Data et à la Datascience. Octo était présent sur place et nous en avons profité pour vous faire un compte rendu des talks auxquels nous avons assistés.

Nous proposons de découper ce compte-rendu en deux parties. Dans ce premier article, nous nous focaliserons les retour d’expériences de technologies en production (nous parlerons Kafka, Spark, Hadoop, architecture Kappa, Docker, etc.) et sur les technologies de streaming (Apache Beam, Kafka Streams, Samza, Spark Streaming…). Dans le second article, nous nous concentrerons sur les autres technologies abordées pendant la conférence (Apache Nifi, Apache Drill, GPU, Hadoop Recordservice…), sur les sujets liées à la donnée  (traitement du langage, data-driven business, partage de la donnée…), et nous terminerons par quelques inclassables futuristes ou philosophiques (le futur de l’IA, le futur d’Hadoop, le relativisme des données…).

Lire la suite

Big Data

Quel avenir pour la Data Science? Réalités et stratégie des entreprises

Les géants du web sont à l’origine de Big Data et demeurent une source d’inspiration inépuisable faisant rêver le Data Scientist au fond de chacun de nous.

Dernier exploit en date, l’algo de Google et Stanford capable de générer une légende à partir d’une image quelconque :

Bluffant.

Aussi passionnants qu’ils soient, ces progrès paraissent bien éloignés des préoccupations des entreprises qui nous entourent, et à raison. Les enjeux du marché Français dans les secteurs de la Banque ou de l’Industrie ne partagent que peu d’atomes crochus avec Google : battre l’ état de l’art de la vision artificielle de 2% ne bouleverse ni notre compréhension de Big Data, ni la définition de ce que sera demain une « Data Driven Company ».

Alors, quel avenir pour la Data Science? Difficile de répondre.

Quelle seront ses évolutions dans nos entreprises maintenant et pour les prochaines années? Voilà la question à laquelle nous allons nous intéresser. Lire la suite

Archi & techno

Analyse prédictive en temps réel : machine learning avec Storm et Scikit-Learn

Vous avez beaucoup de données, des technos de calcul distribué  à la mode et vous ne savez pas quoi en faire? Bienvenue dans l’écosystème Big Data.

 

Les technologies Big Data fleurissent et avec elles de nombreux enjeux architecturaux. L’un d’entre eux est notamment la difficulté à profiter des capacités de calcul pour réaliser des traitements statistiques sophistiqués. En effet le développement d’algorithmes de machine learning dans un contexte distribué voir incrémental est très complexe. De plus les analystes de données sont historiquement liés à des technologies telles que R, Matlab ou Python. Ces technos ne sont pas aisément parallélisables et ne font pas partie de l’univers Java, contrairement aux Hadoops, Storms, Sparks et consorts.

 

Dans cet article, nous allons étudier une piste pour réconcilier ces braves gens et nous intéresser à Storm et Scikit-Learn. Mais avant, quelques rappels.

  Lire la suite