datascience

Data

L’atelier matrice d’erreur : démystifier les performances du ML avec ses utilisateurs

Où placer le curseur : plus de faux négatifs ou plus de faux positifs ?

Nous pensons que la gestion des erreurs est un aspect important dans les systèmes de prise de décision et qu’il est indispensable d’étudier cela avec les utilisateurs d’un tel produit, a fortiori lorsqu’il embarque du Machine Learning. Dans cet article, nous vous proposons une méthode itérative, pour évaluer le coût d’une erreur et adapter le système de prise de décision, pour que ses utilisateurs aient plus confiance en lui. La data science proposant de nombreuses définitions que nous utiliserons dans cet article, voici un petit…

Lire la suite
Data Science

NLP : une classification multilabels simple, efficace et interprétable

Le Machine Learning nous permet aujourd’hui de classifier facilement du texte ; or, le texte appartient parfois à plusieurs catégories, d’où le nom de classification multilabels pour parler de cette tâche. Nous allons voir dans cet article comment traiter ce problème, évaluer la performance de nos algorithmes et les interpréter. Avant toute chose, le code est disponible sur Github. Il contient deux web-apps : une permettant d’entraîner un modèle sur son propre dataset et une permettant d’afficher les prédictions et de les interpréter. A noter…

Lire la suite
Data

Créer une web-app interactive en 10min avec Streamlit

Dans un projet de Machine Learning, il y a souvent besoin de visualiser les données sous forme de graphes, que ce soit lors d’une phase exploratoire ou pour montrer les résultats d’une modélisation. Force est de constater qu’intégrer ces graphes à une web-app n’est pas forcément aisé, puisque les outils existants nécessitent pour  la plupart quelques connaissances front-end, Dash par exemple. Et si nous pouvions faire tout ceci en Python, en 10 minutes ? C’est ce que nous allons voir avec Streamlit, une nouvelle librairie…

Lire la suite
Data

Machine Learning – 7 astuces pour scaler Python sur de grands datasets

Python est le langage privilégié chez les Data Scientists, notamment grâce à toutes ses librairies open-source et sa facilité de mise en production du code. Pourtant, à mesure que la volumétrie des données augmente, le passage à des paradigmes différents comme ceux de Spark et Hadoop est recommandé car plus scalable. Cependant, cela nécessite souvent de mettre en place une infrastructure et d’adapter son code. Voici quelques astuces qui permettent d’étendre l’utilité de Python pour des datasets de plusieurs gigaoctets dans un contexte mono-machine. 1…

Lire la suite
Archi & techno

Interview Meriem Berkane, Data architect : “Dans tout projet d’architecture Big Data, il faut d’abord interroger ses motivations !”

Consultante chez OCTO Technology depuis 10 ans, et leader de la tribu Nouvelles Architectures de données, Meriem Berkane accompagne les entreprises dans leur projet d’architecture de SI et Big Data. Elle nous livrera, lors de La Duck Conf, ses conseils et ses convictions pour réussir ce type de projet et créer de nouveaux services à valeurs ajoutées. Mais au-delà de la technique et la méthode, les entreprises ne devraient-elles pas commencer par s’interroger sur leurs motivations ?

Lire la suite
Archi & techno

DevoxxFR – Jour 1

Ayant eu la chance d'assister au premier jour de DevoxxFR 2017, je vous retranscris ma journée du mercredi. J'ai pu revoir les bases de la Data Science, découvrir les algorithmes génétiques et faire une petite passe sur Serverless.

Lire la suite
Data

Classification d’images : les réseaux de neurones convolutifs en toute simplicité

Vous souhaitez créer une IA capable de classifier des images ? Qu’elle reconnaisse Pikachu sur Pokemon Go ? Qu’elle automatise des opérations répétitives comme le tri de légumes ? Voire qu’elle réalise des tâches expertes comme un diagnostic de la rétinopathie diabétique ?  Les réseaux de neurones convolutifs sont l’outil de choix dans la besace du Data Scientist pour ce type de problèmes. Ce sont des algorithmes phares du Deep Learning, objets d’intenses recherches… dont la richesse peut impressionner. Il est pourtant possible de créer…

Lire la suite
Évènement

Afterwork à Genève le jeudi 10 novembre « Data Science & Machine Learning : explorer, comprendre et prédire »

Pour notre troisième Afterwork sur le thème du "Big Data", nous proposons une introduction aux pratiques et bénéfices de la Data Science. Si les précédentes sessions ont dévoilé comment stocker et traiter de gros volumes de données à moindre coût, nous aborderons un nouvel aspect : comment découvrir les trésors d'information présents dans vos données.

Lire la suite
Data

Retours de Strata + Hadoop World 2016 – Partie 2

Bienvenue dans la deuxième partie de notre compte-rendu de la conférence Strata + Hadoop World 2016. Si vous êtes intéressés par des retours d’expérience de production (Kafka, Spark, Hadoop, architecture Kappa, Docker, etc.) ou par les technologies de streaming (Apache Beam, Kafka Streams, Samza, Spark Streaming...), rendez-vous sur la première partie de cet article. Ici, nous allons nous concentrer sur les autres technologies abordées pendant les sessions que nous avons suivies (Apache Nifi, Apache Drill, GPU, Hadoop Recordservice…), sur les sujets liées à la donnée…

Lire la suite
Data

Retours de Strata + Hadoop World 2016 – Partie 1

La conférence Strata + Hadoop World avait lieu à Londres du 2 au 3 juin. L’événement était co-organisé par O'Reilly et Cloudera et les sujets de prédilection des talks étaient bien sûr tous liés au Big Data et à la Datascience. Octo était présent sur place et nous en avons profité pour vous faire un compte rendu des talks auxquels nous avons assistés. Nous proposons de découper ce compte-rendu en deux parties. Dans ce premier article, nous nous focaliserons les retour d’expériences de technologies en…

Lire la suite