Data Science

Posté le 13/05/2020 par Emmanuel Lin Toulemonde

IntroductionEn phase de construction d’un modèle de machine learning supervisé, les data scientists évaluent la performance de leur modèle par rapport aux labels en utilisant une métrique (par exemple l’AUC). Cela leur permet d’avoir un a priori sur les performances du système qu’ils sont en train de construire.Cette évaluation n’est qu’un a priori...

Lire la suite >

Posté le 05/05/2020 par Aurélien Massiot, Léa Naccache

Le Machine Learning nous permet aujourd’hui de classifier facilement du texte ; or, le texte appartient parfois à plusieurs catégories, d’où le nom de classification multilabels pour parler de cette tâche. Nous allons voir dans cet article comment traiter ce problème, évaluer la performance de nos algorithmes et les interpréter.Avant toute chose, l...

Lire la suite >

Posté le 16/03/2020 par Taha Yassine Ben Ali

Dans un problème de classification, il arrive souvent d’avoir des datasets très déséquilibrés. On parle d’un dataset déséquilibré lorsque le ratio des observations d’une classe par rapport à l’ensemble des observations est très faible.Cette notion de déséquilibre de classes est relativement fréquente dans plusieurs secteurs comme le secteur médical...

Lire la suite >

Posté le 04/02/2020 par Hugo Robellaz

On parle beaucoup de mise en production de data science, mais peu du jour d'après. Que se passe-t-il après la mise en production, comment monitorer un modèle de data science ? Les systèmes de data science introduisent une complexité supérieure à une application de SI traditionnelle puisqu’ils sont souvent composés de composants introduisants de l’a...

Lire la suite >

Posté le 14/01/2020 par Anne Sophie Varnier

La Duck Conf est la conférence des amoureux de l'architecture SI dispensée par nos experts.Cette troisième édition s’adresse aux architectes techniques, architectes de données et d’entreprise, aux TechLead et aux experts en tout genre qui souhaitent soulever le capot et aborder concrètement leurs problématiques projet…Unique à Paris, elle offre un ...

Lire la suite >

Posté le 17/12/2019 par Emmanuel Lin Toulemonde

Lorsque l’on s'apprête à mettre (ou lorsque l’on a mis) un système de data science en production, on souhaite s’assurer qu’il fonctionne comme prévu. Pour cela, il convient de monitorer ce système intelligent.

Lire la suite >

Posté le 29/11/2019 par Thomas Vial

Cet article s'adresse à mes collègues _data scientist_s. Il s'appuie en grande partie sur un article de 2017 intitulé “Theory-guided Data Science: A New Paradigm for Scientific Discovery from Data” [TGDS]. [TGDS] discute des apports de la data science auprès des chercheurs scientifiques. Notre propos, dans cet article, est de résumer [TGDS] à la lu...

Lire la suite >

Posté le 23/11/2019 par Marisa Faraggi

ABSTRACTThis article focuses on the features extraction from time series and signals using Fourier and Wavelet transforms. This task will be carried out on an electrocardiogram (ECG) dataset in order to classify three groups of people: those with cardiac arrhythmia (ARR), congestive heart failure (CHF) and normal sinus rhythm (NSR). Our approach co...

Lire la suite >

Posté le 20/11/2019 par Emmanuel Lin Toulemonde

En mission, nous rencontrons de plus en plus des besoins d'interprétabilité. Ce changement est dû à une évolution de la maturité des organisations sur la data science.En caractérisant un peu le trait, hier les projets de data science étaient surtout marketing (Ex : prédiction d'appétence ou d’attrition à des fins de ciblage). Ils étaient faits à pa...

Lire la suite >

Posté le 14/11/2019 par Pierre Baonla Bassom, Soufiane Benzaouia

IntroductionLes 16 & 17 Octobre 2019, nous sommes rendus à Amsterdam afin d’assister à la conférence annuelle organisée par Databricks, le Spark+AI Summit, événement devenu incontournable dans le monde du Big data et de l’IA.Cette année, ce sont plus de 2300 personnes qui ont fait le déplacement pour assister à de nombreuses présentations réparties...

Lire la suite >