Python

Big Data

Machine Learning – 7 astuces pour scaler Python sur de grands datasets

Python est le langage privilégié chez les Data Scientists, notamment grâce à toutes ses librairies open-source et sa facilité de mise en production du code. Pourtant, à mesure que la volumétrie des données augmente, le passage à des paradigmes différents comme ceux de Spark et Hadoop est recommandé car plus scalable. Cependant, cela nécessite souvent de mettre en place une infrastructure et d’adapter son code. Voici quelques astuces qui permettent d’étendre l’utilité de Python pour des datasets de plusieurs gigaoctets dans un contexte mono-machine. 1…

Lire la suite
Archi & techno

Développer son API dans n’importe quel langage

Noël approche et nous vous proposons de déballer les cadeaux avant l'heure. Cher père Noël, montre moi comment coder une API. Les API ont le vent en poupe. Et pour cause, les entreprises ont bien compris qu'elles peuvent jouer un rôle important dans le SI tant au niveau de son ouverture et de l'innovation qu'au niveau de la transformation des équipes et de leurs façons de travailler. Depuis 4 ans, OCTO forme, conseille et aide à construire des API sur mesure pour ses clients... ...…

Lire la suite
IoT

Libérer les forces créatrices de l’IoT

La vision Les objets connectés et leur logiciel embarqué deviennent une partie intégrante du système d’information d'entreprise. En passant d’un SI centré sur les applications “serveur”, puis à un SI où le mobile tient une place stratégique,  on arrive à un SI où les applications serveurs, le mobile et les objets connectés forment un SI totalement distribué. Avec des capacités toujours plus fortes et des prix toujours plus bas, l'objet connecté rejoint les serveurs et les mobiles dans le domaine du développement logiciel d'entreprise. L’objet…

Lire la suite
Archi & techno

Apprentissage distribué avec Spark

// Les solutions big data actuelles se concentrent essentiellement sur l'aspect ETL des traitements. Le modèle MapReduce nous permet d'implémenter facilement des extractions d'informations mais de nombreuses contraintes et limitations apparaissent lors de la conception d'algorithmes de data science.  Par exemple, les algorithmes itératifs couramment utilisés en machine learning sont difficilement intégrables dans les modèles MapReduce:  le haut-niveau d'intéraction des données impose une gestion et une synchronisation complexe à différentes phases de l'analyse. Dans cet article nous nous intéressons à un use case typique en machine learning: la conception d'un modèle…

Lire la suite
Archi & techno

Le filtre de Bloom

Nous allons présenter dans cet article le filtre de Bloom, une structure de données méconnue mais appréciée, tant pour sa simplicité d’utilisation que pour les gains de performance qu’elle permet d’apporter. Elle a été choisie par l’équipe de Google Chrome pour implémenter la fonctionnalité « Safe Browsing » qui protège les utilisateurs contre des attaques de fishing et contre certains types de malware. Avec Safe Browsing, le navigateur effectue une validation avant de commencer le chargement d’une page. Si l’URL en question est identifiée parmi une vaste…

Lire la suite
Archi & techno

Python + doctest : quand la doc devient test

Introduction Derrière ce titre abscons se trouvent deux concepts qui mettent en application le principe du KISS dans le langage de programmation Python : écrire de la doc et mettre des tests dans des sources Python, c'est simple avec l'utilisation conjointe des docstrings et du module doctest. Le concept proposé ici est des plus simples : écrire un test unitaire pour un objet présente beaucoup de similitudes avec le fait d'écrire la documentation de ce même objet, en particulier si on y présente des exemples…

Lire la suite