Une analyse géographique des articles de Medline

le 12/01/2016 par Alexandre Masselot
Tags: Data & AI

D’où viennent les publications scientifiques ? Une analyse géographique des articles de Medline.

www.octo.chOù et quand ont été publié des articles scientifiques ? Quels pays collaborent-ils le plus entre eux ? Pour tenter de répondre à ces questions, nous avons choisi de nous pencher sur Medline, la base de données de référence en matière de journaux traitant de la biologie et la biomédecine.

“Big Data” n’est pas seulement un buzz word. Ou plus seulement… Un riche ecosystème d’outils se développe, des paradigmes architecturaux ont vu le jour et permettent de relever de nouveaux défis. Une multitude de données publiques sont disponibles, offrant des opportunités d’analyses sans fin.

Pour finalement présenter un outil web interactif permettant d’explorer ces données, nous présenterons une nouvelle méthode de localisation géographique sur la base d’adresse de qualités diverses. Nous décrirons le traitement de ces citations dans un écosystème orienté Hadoop avec Scala, Spark et Zeppelin. Finalement, nous aborderons la partie web, basée sur les librairies JavaScript React et d3.js. Le code source est disponible sur github et l’application disponible sur Amazon AWS.

La suite de l’article est disponible en anglais : Geolocalizing Medline citations.