Ouverture et réutilisation des données publiées sur internet - compte-rendu de la journée RGPD de la CNIL du 12/06/24 à Nancy
Dans un contexte de numérisation de la société, la Commission Nationale de l’Informatique et des Libertés (CNIL) - autorité de contrôle des données personnelles en France - a deux objectifs principaux : apporter de la sécurité juridique et créer de la confiance. En effet, son but est de redonner aux citoyens le contrôle sur leurs données en rendant les systèmes d’information moins opaques et plus transparents. Pour cela, elle a notamment décidé d’organiser des évènements récurrents ayant lieu partout en France, à diverses périodes, pour parler des actualités en droit du numérique : les journées RGPD (journées dédiées au règlement général sur la protection des données - RGPD -, mais pas que !)
Le 12 juin dernier, la CNIL a animé une journée RGPD à Nancy, en collaboration avec l'Association Française des Correspondants à la protection des Données à caractère Personnel (AFCDP). Au programme, plusieurs thématiques ont été abordées, que nous déclinerons sous forme de 6 publications :
- Recommandations sur les enquêtes de mesure de la diversité en milieu professionnel
- Ouverture et réutilisation des données publiées sur internet
- Enjeux lA et évolution du rôle du DPO
- IA et éthique : connaître les biais pour fixer les règles
- Cybermalveillance et remédiation
- Écosystème des programmes malveillants et présentation des travaux de recherche au Loria dans le cadre du PEPR cybersécurité
Dans ce deuxième article relatif à la journée RGPD de la CNIL à Nancy, concentrons-nous sur l’ouverture et la réutilisation des données publiées sur internet.
La CNIL s'intéresse à ce sujet depuis plusieurs années, et son adéquation avec les principes du RGPD : elle a déjà publié des recommandations sur le sujet, et a même créée en 2021 un groupe de travail sur les questions essentielles pour accompagner les acteurs sur la publication des données sur internet et leur réutilisation — la réutilisation des données étant majoritairement employée par des journalistes et des commerciaux lors de leurs activités.
1/ Présentation des recommandations de la CNIL
La rédaction des recommandations de la CNIL s’articule en plusieurs étapes :
- Premièrement, par la réalisation d’un état des lieux et par l’évaluation de la situation actuelle sur ce type de traitement ;
- Puis, par l’organisation de consultations de professionnels pour préciser l’accompagnement ;
- Enfin, par la réalisation d’un projet de guide afin d’améliorer le contenu.
Chacune de ses recommandations comporte des fiches pratiques présentant les points d’attentions et les moyens à prendre en compte dans différentes circonstances de l’ouverture des données et de leur réutilisation.
Elles sont catégorisées comme étant du droit souple afin d’accompagner les acteurs dans leur mise en conformité : elles ne sont pas destinées à être appliquées obligatoirement, et diffèrent en fonction des acteurs.
A) Les recommandations pour les diffuseurs de données ouvertes
Les diffuseurs de données ouvertes sont définis par la CNIL comme “toute personne physique ou morale, publique ou privée mettant à disposition du public dans un format ouvert, aisément utilisable et exploitable par machine, des données personnelles (données se rapportant à des personnes physiques identifiées ou potentiellement identifiables)”.
Pour les personnes diffusant des données ouvertes à disposition du public, la CNIL a publié plusieurs recommandations.
1. Typologie des recommandations
La première recommandation est de bien qualifier juridiquement les acteurs dans ce type de traitement de données.
- L’acteur jouant un rôle crucial est le responsable de traitement qui va décider de la mise en ligne des données.
- Notons qu’il est tout à fait possible que plusieurs responsables interviennent dans le cas où plusieurs organismes ont décidé de la finalité et des moyens du traitement. Ils auront donc une responsabilité conjointe.
- Les fournisseurs de service numérique mettant à disposition des plateformes numériques ne sont pas considérés comme responsables de traitement mais comme sous-traitants.
La deuxième recommandation est de disposer d’une base légale sur la collecte de données. La base légale donne le droit à un organisme de traiter des données personnelles. Il est donc important de disposer d’une base légale pour assurer la conformité du traitement de données.
- Dans le cadre des administrations, la base légale peut être une obligation légale ou une mission d’intérêt public.
- Cependant dans le secteur privé, la base légale doit être soit le consentement de la personne concernée, soit l’intérêt légitime du responsable de traitement. Toutefois, dans le cas de l'intérêt légitime, il convient de s'assurer que le traitement n'entraîne pas une atteinte disproportionnée aux droits et libertés des personnes concernées. Il est donc important de prendre en compte la nature des données (si elles sont sensibles, telles que des données révélant l'origine raciale ou ethnique) et les mesures prises pour le traitement (par exemple le chiffrement des données) pour limiter l’impact du traitement sur les droits et libertés des personnes.
La troisième recommandation consiste à communiquer une information la plus large possible aux personnes. Notamment en les informant sur les conséquences de la réutilisation des données à des fins commerciales. Il faut apporter des précisions sur les éléments de façon proportionnée afin que les personnes puissent rendre compte de l’ampleur du traitement de données.
Les droits des personnes seront quant à eux, déterminés en fonction de la base légale du traitement de données. Il faudra néanmoins notifier aux personnes concernées des rectifications, limitations et effacements afin d’éviter que les informations ne soient présentes, notamment dans les moteurs de recherche.
Sur les données, il faut veiller à plusieurs points :
- leur exactitude (corriger les données et exercer le droit de rectification)
- leur minimisation (anonymiser les données quand c’est obligatoire ou possible, et limiter les données collectées à celles strictement nécessaires à l'accomplissement de la finalité indiquée)
- leur sécurité (limiter la surface d’exposition des données personnelles selon leurs sensibilités, contrôler la robustesse des mesures d’anonymisation ou encore s’assurer que les données ne soient pas conservées pendant une durée excessive).
2. Retour d'expérience du Centre national de la recherche scientifique (CNRS)
Il ne faut pas uniquement prendre en considération les principes du RGPD mais aussi d’autres normes comme celles de la propriété intellectuelle et du secret défense : dans le domaine de la recherche, c’est un devoir de prendre des données et de respecter ces différentes normes. Il est donc primordial d’effectuer un travail de recherche en amont sur les normes en vigueur lors d’un traitement de données.
Sur les projets initiaux, il faut définir la finalité du traitement et qualifier les responsables. Sur la base légale, il peut y avoir des exceptions au recours au consentement dans le cadre de la recherche — ces exceptions visent à faciliter la réalisation de projets de recherche d'intérêt public, tout en garantissant le respect des droits et libertés des personnes concernées. Afin d’éviter d'entacher les droits et libertés des personnes dans ce type de traitement, il est essentiel de recourir à des jeux de données anonymes — les données ne permettant plus l’identification d’une personne. Notons que certaines plateformes, telles que le site data.gouv permettent un partage des données dans le cadre d'une réutilisation pour de nouvelles recherches.
B) Les recommandations pour les réutilisateurs de données publiées sur internet
Les réutilisateurs de données publiées sur internet sont des personnes qui vont collecter des données dans l’objectif de les exploiter pour leur propre compte, à leurs propres fins : ils doivent respecter plusieurs recommandations relatives à la protection des données, outre les règles de propriété intellectuelle notamment qui ne sont pas à l’ordre du jour.
1. Typologie des recommandations
La première recommandation consiste à qualifier juridiquement les acteurs.
- Dans le cadre de la réutilisation des données, les responsables de traitement sont les utilisateurs de données publiées sur internet.
- Comme pour les diffuseurs de données ouvertes, les prestataires de service numérique sont considérés comme sous-traitants.
La deuxième recommandation impose aux utilisateurs de données publiques de disposer d’une base légale pour effectuer ce traitement de données. Ils peuvent disposer de plusieurs moyens comme une obligation légale, l’intérêt public ou le consentement. Les réutilisateurs peuvent aussi se prévaloir de l’intérêt légitime lorsque les personnes peuvent raisonnablement s’attendre à une réutilisation des données (par exemple, la collecte par un employeur de données publiées sur un réseau social professionnel afin de contacter un candidat potentiel, dès lors que les personnes concernées, en les partageant sur un tel site s’attendent raisonnablement à ce type de réutilisations). Dans le cadre de données publiées sur internet, la base légale de l’intérêt légitime s’apprécie en fonction des cas.
Notons que si les données concernent des mineurs, des restrictions des conditions générales peuvent s’imposer en mettant en place des mesures pour limiter l’impact en minimisant les données. Dans tous les autres cas, il faut recueillir un consentement valable qui doit être libre, éclairé et équivoque.
La troisième recommandation concerne la nécessité d’informer les personnes concernées que leurs données personnelles font l’objet d’un traitement.
Si les personnes ont été déjà informé par divers moyens, alors il n’est pas nécessaire de les informer. Attention, l’information dans les conditions générales de vente et d’utilisation n’est pas suffisante. Dès lors, il faudra les informer sur le fait que leurs données sont collectées dans le cadre d’un traitement (transparence sur l’origine des données et les méthodes de collecte utilisées).
La dernière recommandation concerne la minimisation des données en ne prenant que les données strictement nécessaires pour le traitement. Cette recommandation s’illustre par le fait d’anonymiser les données, éviter la collecte de données sensibles, vérifier l’exactitude et la pertinence des données des données et mettre à jour les données (afin de supprimer celles qui ne sont plus nécessaires ou pertinentes).
2. Retour d'expérience du CNRS
La mission de recherche est un fondement légal. Dès lors, il est naturel d’articuler réutilisation des données et protection de la vie privée des individus.
Il y a une obligation de mettre à disposition des jeux de données et de veiller à ce que le traitement soit conforme aux principes issus du RGPD. L’important est d’informer les participants à la recherche d’une possible réutilisation des données. Ces données peuvent provenir de plusieurs sources (par exemple, d’un blog, d’un forum, des réseaux sociaux, etc.).
2/ Exemples de cas d’usage sur la réutilisation des données : contexte et points d’attention
Dans cette seconde partie, divers exemples de recherche seront exposés, expliquant le contexte de la recherche puis les points d’attention lors de la réutilisation des données publiées sur internet.
A) Étude sur les rapports des élus français du système de parrainage
Lors de l’étude des rapports des élus français au système de parrainage à l’élection président de 2022, les données ont été collectées de façon indirecte à partir de la liste des parrains mis à jour par le Conseil constitutionnel et du Répertoire national des Élus disponible sur internet. Le traitement de données avait aussi recours à la collecte des adresses mails des élus sur les sites web des élus.
Plusieurs points d'attention doivent ici être pris en compte lors du traitement de ces données :
- les modalités d’utilisation des données collectées indirectement : s'assurer que l'utilisation des données est conforme aux finalités pour lesquelles elles ont été initialement collectées et rendues publiques
- la licéité de la collecte initiale : vérifier que la collecte des données par les sources d'origine a été effectuée de manière licite et transparente
- l'information et les droits d’accès des personnes concernées par le traitement de données : permettre aux élus d'exercer leurs droits notamment d'accès, de rectification et de suppression des données les concernant
B) Projet : étude des modalités de détournement des sanctions économiques pesant sur la Russie depuis 2014
Les données pour ce traitement proviennent d’une association de journalistes à but non lucratif qui met à disposition de façon libre des données dans l’intérêt public (données de banque piratées et mises en ligne).
Ici, des interrogations se posent au regard de l’authenticité des données, si elles ont été collectées de manière licite.
Ce traitement de données comporte des risques :
- pour les personnes concernées, du fait de la sensibilité des données, assortis de risques pénaux
- pour les chercheurs, avec le risque de recel d’informations et le manque de protection fonctionnelle.
Notons qu’au regard des nombreuses interrogations, le DPO a eu un avis défavorable sur ce traitement de données. Il convient, dans un tel cas, de privilégier des sources alternatives de données collectées de manière licite et transparente afin de se conformer aux principes de protection des données personnelles.
C) Analyse des pratiques de sorcellerie en France contemporaine
La recherche se compose en plusieurs étapes : observation de comptes publics, observation des publications de ces comptes et entretiens individuels. Les données sont donc collectées via différents réseaux sociaux mais aussi par le biais d'entretiens directs.
Les points d’attentions doivent ici être portés sur :
- les données rendues publiques par les personnes : évaluer attentivement le caractère public des données collectées en respectant les paramètres de confidentialité définis par les utilisateurs
- le fondement légal du traitement de données et finalité de la recherche : établir clairement le fondement légal du traitement des données et définir la finalité précisément de la recherche
- l’information collective : publier sur le site du laboratoire les informations détaillées sur le projet de recherches en termes d'objectifs et de méthodes
- l’information individuelle : fournir des informations claires et complètes aux participants lors de la prise de contact pour les entretiens
- le droit des personnes : mettre en place des procédures permettant aux personnes concernées d'exercer leur droits notamment d'accès, de rectification et de suppression des données les concernant
- la durée et les modalités de conservation des données : définir des durées de conservation des données adéquates et proportionnées à la finalité du traitement (tout en mettant en place une procédure d'anonymisation ou de suppression à l'issue de la période définie)
- la sécurité des systèmes informatiques : implémenter des mesures de sécurité robustes pour protéger les données collectées contre toute violation (accès non autorisé, perte, fuite, altération…).
D) Recours au web scraping pour la collecte de données
Le web scraping est une technique d'extraction automatisée de données permettant de collecter automatiquement les données d’internautes dans les espaces publics d’internet.
Avec le web scraping, la collecte des données et leur utilisation peuvent violer les droits et libertés des personnes concernées. Dès lors il faut prêter attention aux points suivants :
- le fondement légal du traitement : s'assurer que le traitement des données collectées repose sur une base légale solide, tel que le consentement
- la finalité de recherche : définir clairement l'objectif de la collecte de données et veiller à ce que le traitement soit strictement limité à celle-ci
- l’information collective : fournir une information transparente sur le site ou l'organisme responsable du traitement en détaillant les modalités de collecte, les finalités et les droits des personnes concernées
- la minimisation des données : collecter uniquement les données strictement nécessaires à la réalisation de la finalité
- le droit des personnes : mettre en place une procédure permettant aux personnes concernées d'exercer leur droits, notamment d'accès, de rectification ou de suppression des données les concernant
- les durées et modalités de conservation : définir des durées de conservation des données adéquates et proportionnées à la finalité du traitement (tout en mettant en place une procédure d'anonymisation ou de suppression à l'issue de la période définie)
- la sécurité des systèmes informatiques : implémenter des mesures de sécurité techniques et organisationnelles robustes pour protéger les données collectées contre toute violation (accès non autorisé, perte, fuite, altération…).
Speakers :
- Alice DE LA MURE, juriste au service des délégués et de l'accompagnement de la CNIL
- Gaëlle BUJAN, déléguée à la protection des données du Centre national de la recherche scientifique (CNRS)
Remerciements :
Merci à Christelle BERGÉ, Laurent IGOUT et Estelle HUBÉ-LAURENT pour leur relecture attentive.