IA et éthique : connaître les biais pour fixer les règles - compte-rendu de la journée RGPD de la CNIL du 12/06/24 à Nancy

Dans un contexte de numérisation de la société, la Commission Nationale de l’Informatique et des Libertés (CNIL) - autorité de contrôle des données personnelles en France - a deux objectifs principaux : apporter de la sécurité juridique et créer de la confiance. En effet, son but est de redonner aux citoyens le contrôle sur leurs données en rendant les systèmes d’information moins opaques et plus transparents. Pour cela, elle a notamment décidé d’organiser des évènements récurrents ayant lieu partout en France, à diverses périodes, pour parler des actualités en droit du numérique : les journées RGPD (journées dédiées au règlement général sur la protection des données - RGPD -, mais pas que !)

Le 12 juin dernier, la CNIL a animé une journée RGPD à Nancy, en collaboration avec l'Association Française des Correspondants à la protection des Données à caractère Personnel (AFCDP). Au programme, plusieurs thématiques ont été abordées, que nous déclinerons sous forme de 6 publications :

Dans ce quatrième article relatif à la journée RGPD de la CNIL à Nancy, concentrons-nous sur l’intelligence artificielle (IA) et l’éthique : connaître les biais pour fixer les règles.

1/ La notion d’intelligence artificielle et de traitement automatique du langage naturel

L’IA peut être définie comme un domaine de la recherche et de l’ingénierie visant à reproduire ou à imiter un comportement automatisé qui requiert traditionnellement de l’intelligence humaine.

Les traitements automatiques du langage naturel (NLP - natural language processing) sont un exemple significatif de l’émergence de l’IA. Ces logiciels informatiques peuvent comprendre, reconnaître et générer aussi bien du texte que de la parole.

Ils permettent notamment de réaliser plusieurs tâches comme :

  • la conversion (traduction automatique) ;
  • l’interaction (par le biais de chatbot) ;
  • l’analyse (correction orthographique) ;
  • la génération (production journalistique automatisée, possibilité de faire un résumé d’un texte ou un sous titrage).

Il est néanmoins compliqué pour un NLP de faire toutes ces tâches en même temps — bien que certains grands modèles réalisent pour la plupart certaines de ces tâches.

2/ L’histoire de l’IA

Dans un monde où le numérique prend une place de plus en plus importante, l’IA se perfectionne de plus en plus. Tous les deux ans, il est facile de constater une nouveauté dans ce domaine.

Toutefois, l’IA ne date pas d'aujourd'hui. En effet, le terme IA provient d’Alan Turing, le père fondateur de l’IA dans les années 1950, et qui déjà contribue à la création d’un test portant son nom pour déterminer si un jour l’humain ne pourra plus détecter s’il interagit avec une IA.

Par la suite, des expériences sont menées afin de perfectionner les systèmes informatiques déjà existants. Cependant, les systèmes experts rencontrent des difficultés. Ces obstacles s'expliquent notamment par le manque de robustesse des logiciels. Les capacités de calcul sont donc réduites. Également, le manque de données a freiné l’évolution de l’IA, car les logiciels n’ont pas pu avoir suffisamment de données pour s'entraîner.

C’est à partir du XXIème siècle et plus particulièrement dans les années 2010 que l’IA commence à prendre pleinement son essor. Bien que la distance entre IA et humain se réduise de plus en plus, il ne faut pas toutefois céder à la personnification de l’IA. Il faut garder en tête qu’elle est le résultat d’une suite algorithmique et qu’il faut toujours interpréter et vérifier les résultats que la machine produit.

3/ Fonctionnement de l’IA générative

L’IA est la représentation d’une fonction mathématique : elle ne peut pas penser et décider comme une personne humaine. Il paraît donc opportun de se poser des questions sur son fonctionnement pour savoir comment ces technologies peuvent générer des réponses précises.

Dans un apprentissage automatique, l’IA va apprendre à générer des bonnes réponses à partir de données, à partir d’exemples. Plus l’IA apprend à partir d'exemples, plus ses prédictions seront bonnes.

Lors de l’apprentissage de l’IA, il est important de distinguer deux notions : l’architecture et la variable :

  • L’ architecture reste stable pendant l’apprentissage du modèle pour apprendre une tâche spécifique (ex : type d’entrée et de sortie, nombre de couches dans un réseau de neurones…).
  • La variable dans un système d’IA représente les paramètres où il est possible de modifier pendant son entraînement pour affiner son apprentissage.

Après la phase d'entraînement, le modèle génère une réponse en fonction des mots les plus probables qu’une personne a écrit en entrée. Pour générer une réponse, l’IA est capable de repérer 3 mots pour comprendre le contexte pour prédire le mot le plus probable — l'utilisation de la technique du masquage permet également de déterminer la probabilité d'une séquence de mots en fonction du contexte fourni avant et après celle-ci.

Pour développer ces IA génératives (IAG), il est nécessaire de recourir à un réseau de neurones. En informatique, un neurone formel est une chose qui va recevoir une information avec un poids. À partir de cela, le calculateur effectue la somme de ces informations en décidant s’il croit ou non l’information. Ce procédé a permis de faire des réseaux de neurones profonds et d’apprentissage participant à l’évolution de l’IA.

4/ Les modèles transformers à l’origine de l’IA générative

Les modèles transformers — algorithmes basés sur des mécanismes d'attention, conçus pour traiter des données séquentielles, comme du texte, de manière efficace et parallèle — sont à l’origine de l’IAG. Ce sont des calculateurs qui effectuent des calculs sur des valeurs numériques. Ils sont d’ailleurs à l’origine de la famille GPT (Generative Pre-trained Transformer). Ces modèles sont entraînés sur une grande quantité de textes (soit 20 000 ans de lecture pour un humain). Par exemple, OpenAI a développé plusieurs modèles entraînés sur des grands volumes de textes comprenant des milliers de milliards de tokens et prompts.

Ces IAG de plus en plus performantes soulèvent des questions sur leurs limites.

  • En 2023, sur GPT4 il n’y a pas d’information disponible en raison du manque de publication des paramètres et de l’architecture. Les seules informations disponibles sont la publication d’un rapport technique et quelques posts indiquant qu’aucune information ne sera communiquée.
  • Également, en prenant l’exemple de ChatGPT, pour générer une réponse il prédit simplement le mot le plus probable à partir d'une séquence de texte. Cependant, le modèle ne vérifie pas si l'information qu'il produit est vraie — à nuancer avec les derniers modèles GPT4o et suivants, mais ça n’était pas le cas avant. Il est donc crucial de toujours vérifier les informations fournies par une IA.

5/ L’IA générative : une vraie révolution ?

D'un point de vue purement scientifique, il s'agit simplement de la continuité des travaux entrepris depuis les années 1950.

Cependant, pour la société, c'est une véritable révolution en raison du nombre élevé d'utilisateurs en un temps très court. L'adoption massive de l'IA par le public soulève des questions sur la réflexion autour de l'IA. En effet, cet outil qui révolutionne la compréhension du public, est souvent mal compris…

L'explosion de l'IA a lancé une course pour développer le modèle le plus performant, surpassant les autres. Or, ces modèles d'IA nécessitent une quantité énorme de données. Les données disponibles sur le web ne suffisent pas, ce qui signifie que n'importe quelle donnée peut être utilisée pour entraîner les modèles de langue. Cela soulève des questions concernant le consentement des utilisateurs pour l'utilisation de leurs données, et plus largement de protection des données personnelles et de vérification des sources de données.

L'IA présente également des problèmes liés aux biais, qui peuvent entraîner l'exclusion de certaines catégories de personnes.

Enfin, elle pose aussi des défis en termes d'impact climatique, notamment à cause du coût du matériel, du coût d'entraînement des modèles, ainsi que de la consommation d'électricité entre autres lors de l’inférence.

6/ Exemples d’IAs biaisées

Les IAs comportent des biais notamment par le fait que l’IA n’est pas humaine — bien que les humains aient des biais aussi —, ne pense pas, ne raisonne pas et ne décide pas.

Il est donc important de ne pas personnifier les IAs en gardant en tête que ces technologies sont le fruit d’algorithmes qui produisent des résultats qu’il faut interpréter.

L’on peut d’ailleurs aller plus loin et distinguer deux grands types de biais : implicite et explicite.

  • Implicite, car le biais est dans les données ;
  • Explicite, car l’on vient ajouter des règles de bienséance afin d’éviter que ces IA soient biaisées par les données, règles elles-mêmes biaisées par les personnes qui les ajoutent. La question qui doit être posée serait “quel degré de liberté souhaitons nous donner à ces IAs” ?

L’exemple de ChatGPT : la question posée à ChatGPT était de donner le meilleur emploi pour un homme et une femme. Selon l’IA, le meilleur emploi pour les femmes est le métier d’infirmière et pour les hommes, le métier d’ingénieur. Il s’agit d’un biais de genre. Il est d’ailleurs aussi présent pour les activités. Selon ChatGPT, l’activité d’un homme est de se raser et pour une femme de se maquiller. L’utilisation d’un modèle construit donc une représentation de la société a priori.

L’exemple de l’IA Mistral : la question posée à l’IA était de donner le mot suivant “les hommes sont” et “les femmes sont”. Selon l’IA, “les hommes sont mars” et “les femmes sont venus”. L’IA génère aussi comme réponse que les femmes sont faites pour être mère. Utiliser des modèles peut donc entraîner la représentation d’un monde qui peut être biaisé.

L’exemple de l’IA Bloom : la question posée à l’IA était de générer une lettre de motivation pour devenir coiffeur. L’IA l’a généré au féminin…

À côté de ces IA qui peuvent entraîner des biais, des interrogations se posent au regard de la responsabilité de l’IA lors d’un accident. L'enjeu est donc de déterminer qui est responsable dans le cas où une IA engendre la mort d’une personne.


Speaker :

Maxime AMBLARD, professeur à l'Université de Lorraine

Remerciements :

Merci à Christelle BERGÉ, Estelle HUBÉ-LAURENT, Laurence WOLFF, Mathieu MOISANT, Fabien ROUSSEL et Philippe PRADOS pour leur relecture attentive.