machinelearning

Archi & techno

Apache Spark, ai-je besoin d’autre chose ? – Compte rendu du talk de Benoit Meriaux à la Duck Conf 2019

Pourquoi Spark ? Dans tous les SI complexes, on a la nécessité d’effectuer des traitements sur un grand volume de données. La réponse traditionnelle est celle des batch de traitement, qui consiste à sélectionner un ensemble de données similaires via, par exemple, une requête SQL, puis d’effectuer les traitements en série sur chaque donnée. Ce modèle de traitement a l’avantage d’être simple. Néanmoins, il présente de sérieux inconvénients :

Lire la suite
Big Data

Machine Learning – 7 astuces pour scaler Python sur de grands datasets

Python est le langage privilégié chez les Data Scientists, notamment grâce à toutes ses librairies open-source et sa facilité de mise en production du code. Pourtant, à mesure que la volumétrie des données augmente, le passage à des paradigmes différents comme ceux de Spark et Hadoop est recommandé car plus scalable. Cependant, cela nécessite souvent de mettre en place une infrastructure et d’adapter son code. Voici quelques astuces qui permettent d’étendre l’utilité de Python pour des datasets de plusieurs gigaoctets dans un contexte mono-machine. 1…

Lire la suite
Archi & techno

Compte-Rendu de Matinale : Levez la malédiction du passage de l’IA en production

Jeudi 29 novembre, l’équipe Big Data Analytics, en charge des sujets d'Intelligence Artificielle à OCTO Technology, a présenté au cours d'une Matinale sa vision de l'industrialisation de l'IA (voir la vidéo de la Matinale, obtenir les slides). L’IA, actuellement portée par la hype, est un buzzword qui veut souvent dire tout et n’importe quoi. Data scientists, métiers, marketing, utilisateurs, etc. chacun y va de sa définition. Nos clients se retrouvent avec des POCs d’applications d’IA sans fin qui peinent à être industrialisés et à être intégrés dans…

Lire la suite
Archi & techno

QCon Londres 2018

Du 5 au 7 Mars, nous sommes allés en Angleterre pour assister à la célèbre QCon de Londres, rendez-vous annuel dédié aux développeurs, organisé par le site InfoQ. La conférence se déroule sur 3 jours durant lesquels nous avons eu le choix parmi 140 présentations, réparties sur 8 tracks en parallèle, chacune dédiée à une thématique. À cette occasion, plus de 1500 participants ont répondu à l’appel. Les sujets abordés ont été très variés. L’ambition de cette conférence est de se positionner en avance de…

Lire la suite
Archi & techno

Introduction à CoreML

Annoncé en Juin 2017 lors de la keynote de la dernière WWDC, CoreML est le framework Machine Learning d’Apple disponible à partir d’iOS 11. Avant de rentrer dans l’analyse de CoreML, cette article propose une introduction au Machine Learning puis la réalisation d’un projet de bout en bout avec CoreML.   I.Introduction au Machine Learning On assiste depuis quelques années à une accélération de l’utilisation des techniques de Machine Learning dans des domaines variés avec un impact grandissant sur l’expérience utilisateur. Pourtant les principaux algorithmes…

Lire la suite
Archi & techno

Compte rendu du Spark Summit 2017 (Dublin)

Les 25 et 26 Octobre derniers, nous nous sommes rendus à Dublin afin d’assister au Spark Summit, grand-messe incontournable du Big Data organisée chaque année en Europe et aux États-Unis par Databricks (la société fondée par les créateurs d’Apache Spark). De très nombreux intervenants de tous horizons (industriels, académiques, éditeurs, contributeurs, etc.) étaient au rendez-vous. Au total : plus de 1200 participants, deux journées de conférences, plus d’une centaine de talks (créneaux de 30 minutes) et jusqu’à six présentations en parallèle. Au bout du compte,…

Lire la suite
Big Data

Classification d’images : les réseaux de neurones convolutifs en toute simplicité

Vous souhaitez créer une IA capable de classifier des images ? Qu’elle reconnaisse Pikachu sur Pokemon Go ? Qu’elle automatise des opérations répétitives comme le tri de légumes ? Voire qu’elle réalise des tâches expertes comme un diagnostic de la rétinopathie diabétique ?  Les réseaux de neurones convolutifs sont l’outil de choix dans la besace du Data Scientist pour ce type de problèmes. Ce sont des algorithmes phares du Deep Learning, objets d’intenses recherches… dont la richesse peut impressionner. Il est pourtant possible de créer…

Lire la suite
Évènement

Afterwork à Genève le jeudi 10 novembre « Data Science & Machine Learning : explorer, comprendre et prédire »

Pour notre troisième Afterwork sur le thème du "Big Data", nous proposons une introduction aux pratiques et bénéfices de la Data Science. Si les précédentes sessions ont dévoilé comment stocker et traiter de gros volumes de données à moindre coût, nous aborderons un nouvel aspect : comment découvrir les trésors d'information présents dans vos données.

Lire la suite
Archi & techno

Les méthodes ensemblistes pour algorithmes de machine learning

Lorsqu'il faut prendre une décision importante, il vaut souvent mieux recueillir plusieurs avis que de se fier à un seul. Utiliser un modèle de machine learning pour prédire un comportement ou un prix, c'est un premier pas. Mais agréger des milliers de modèles ayant des avis divergents mais pouvant être chacun spécialisés sur des parties de la data donne le plus souvent de meilleurs résultats. Nous parlons alors de méthodes ensemblistes, dont les plus connues sont le bagging et le boosting. Afin d'expliquer ce type…

Lire la suite
Archi & techno

Analyse prédictive en temps réel : machine learning avec Storm et Scikit-Learn

Vous avez beaucoup de données, des technos de calcul distribué  à la mode et vous ne savez pas quoi en faire? Bienvenue dans l’écosystème Big Data.   Les technologies Big Data fleurissent et avec elles de nombreux enjeux architecturaux. L'un d'entre eux est notamment la difficulté à profiter des capacités de calcul pour réaliser des traitements statistiques sophistiqués. En effet le développement d’algorithmes de machine learning dans un contexte distribué voir incrémental est très complexe. De plus les analystes de données sont historiquement liés à…

Lire la suite