Construire un outil d’analyse de tendances des réseaux sociaux
Cet article sert de sommaire à une série d’articles traitant de l’ensemble des problématiques relatives à la création d’un outil d’analyse de tendances des réseaux sociaux.
Les réseaux sociaux concernent chaque année de plus en plus de personnes (58.4% de la population mondiale en janvier 2022 : https://datareportal.com/social-media-users ) et par cette couverture qui s’améliore génèrent de la donnée de plus en plus riche. Les différents cas d’usage liés à ces données apparaissant de plus en plus souvent chez nos clients, nous ont décidé à construire une série d'articles pour donner les bases de la méthodologie relative à la construction d’un outil d’analyse de tendances des réseaux sociaux.
Lorsque l’on souhaite déduire des résultats d’un ensemble d’observations, il est important de comprendre la méthodologie pour tirer de la valeur et extrapoler le contenu d’un phénomène observé : définir le périmètre de l’observation et la population de référence seront vos premiers objectifs !
Ensuite, nous pouvons nous intéresser au contenu de ce qui est partagé. : Appliquer la bonne méthode d’extraction d’informations sera votre deuxième finalité ! Nous avons décidé de nous concentrer pour le moment au contenu textuel**.** Pour appuyer notre raisonnement, nous détaillerons les choix d’analyses réalisées sur un de nos projets “la voix des élections” (https://lavoixdeselections.fr) : Une application d’analyse en temps réel du contenu partagé sur twitter pour éclairer sur les tendances des messages politiques relatifs à l'élection présidentielles 2022. Pour ce réseau social, le contenu le plus important partagé reste le contenu textuel, et nous allons donc détailler toutes les méthodologies de Natural Language Processing (NLP) adaptées à l’analyse de tendances.
Pour d’autres réseaux sociaux (YouTube, Instagram, TikTok ) les méthodes d’extraction d’informations nous auraient amené à principalement détailler les méthodologies de Computer Vision. S’il y a beaucoup de demande, peut-être qu’on complétera cette série d'articles 😉.
Enfin la construction de ces outils nécessite des connaissances complexes en architecture : Entre la maîtrise des architectures temps réels, des meilleurs moyens pour mettre en place des solutions d’IA d’analyse de contenu, ainsi que toute la maîtrise de la représentation de l’information (Data Visualisation).
Sommaire
Ici viendront s’ajouter les liens vers les articles de la série à leurs publications.
I. Poser les bases méthodologiques de l’observation d’un phénomène :
https://blog.octo.com/rendre-representatif-ce-quon-observe-lexemple-des-donnees-twitter-pour-lelection-presidentielle-2022/
II. Extraire de l’information :
Nous avons défini toute la méthodologie pour être capable d’interpréter les résultats obtenus sur nos observations, ici des tweets. Maintenant il nous reste plus qu’à créer de l’information.
Méthodologie Natural Language Processing (NLP)
Dans cette partie nous allons détailler les méthodologies NLP que nous avons testées et/ou implémentées pour être le plus représentatif de ce qu’il se fait de mieux sur ce sujet. Nous fournirons les pointeurs vers les librairies open source permettant de développer et appliquer à moindre coût ces solutions.
-> Articles en attente de publication
III. Définir l’architecture idéale
-> Articles en attente de publication