IA et RGPD : Protection des Données et Conformité ChatGPT

Si les IA contemporaines sont bien loin de ce que la science-fiction (Skynet, HAL 9000 et la Matrice) peut nous faire miroiter en termes de capacité et de « conscience », elles soulèvent tout de même leurs lots d’interrogations. Notamment en matière de droit et liberté des personnes.

Ces IA sont des ensembles algorithmiques capables d’accomplir des tâches qui, réalisées par un humain, nécessitent du temps, de l’intelligence ou de la créativité. C’est ainsi que ces derniers mois ont vu déferler de nouvelles IA aux usages variés. Évidemment, nous pensons en premier lieu aux IA conversationnelles (capable de tenir une conversation comme le ferait un humain) telles que ChatGPT, Bard ou Grok. Nous pouvons également nous référer aux IA génératives comme Midjourney, permettant de générer des images, des voix ou encore des vidéos à partir d’une description textuelle.

L’essor des IA conversationnelles comme ChatGPT

La plus bruyante de toutes ces IA est bien évidemment ChatGPT. Depuis ChatGPT 1 en juin 2018 développé par Open AI jusqu’à ChatGPT 4, la version actuelle, la technologie s’est beaucoup améliorée et les possibilités semblent toujours de plus en plus grandes.

Les IA conversationnelles, qu’est-ce que c’est ?

Ces IA conversationnelles sont toutes basées sur un principe : le Large Language Model (LLM). C’est un modèle d’intelligence artificielle conçu pour comprendre et générer du texte en langage naturel, c’est-à-dire comme un humain. Pour fonctionner, elles doivent être alimentées par des réseaux de neurones artificiels massifs reliés entre eux par des « paramètres » et nourris avec des volumes immenses de données textuelles.

À titre d’illustration, ChatGPT 1 avait un réseau neuronal basé sur 117 millions de paramètres. Pour sa part, ChatGPT 4 repose sur environ 100 billions de paramètres. À noter, Google s’est aussi lancé dans l’aventure de l’IA conversationnelle avec son propre modèle « Bard », qui ne compte « que » 137 milliards de paramètres. Un retard technologique lié à une R&D lancée bien après le début de ChatGPT.

Créé par Open AI et racheté par Microsoft, ChatGPT est un succès avec près de 100 millions d’utilisateurs actifs au quotidien. À noter, ChatGPT4 est payant, mais la version 3.5 (175 milliards de paramètres) est disponible gratuitement. Celle-ci présente des capacités de réflexion moins développées que la version payante. La multiplication de paramètres nécessite que les volumes de données utilisées doivent être colossaux. Ces données sont tirées d’internet, des bases de données acquises ainsi que par les entrées des utilisateurs sur la plateforme même. Ces données, qui sont susceptibles de contenir un grand nombre de données personnelles, confèrent de gros enjeux éthiques à cette technologie. On peut ainsi retrouver des champs de textes libres renseignés par des internautes, des CVs, des travaux de recherche nominatifs : globalement, tout ce qui peut se trouver sur internet. Enfin, si des données inexactes ou biaisées sont utilisées pour entraîner les IA, les réponses de ces IA le seront également.

Les usages principaux des IA conversationnelles

Le vaste champ d’application des IA conversationnelles

La force de ces IA se trouve avant tout dans la grande variété d’utilisations qu’elles proposent. Grâce à celles-ci, il est possible d’automatiser un grand nombre de processus : service client, réservation, assistance technique, chatbots, éducation ou encore rédaction automatique de textes. On peut, à titre d’exemple, citer l’entreprise Onclusive qui a licencié 217 de leurs 383 employés français chargés d’effectuer de la veille médiatique et des synthèses pour les remplacer par une IA qui serait, a priori, plus efficace. Autre cas d’usage très répandu de ChatGPT : la génération de code informatique à partir d’instructions textuelles.

Des outils interopérables

Il est également possible de connecter ces IA conversationnelles avec d’autres IA génératives. Exemple récent de cette pratique : une chaîne Twitch a vu le jour en août sur laquelle on a pu voir Emmanuel Macron répondre aux questions des internautes 24 heures sur 24. Il ne s’agissait évidemment pas du véritable président de la République, mais de la combinaison d’une IA conversationnelle qui analysait les questions du chat et formulait des réponses textuelles, ainsi que de deux IA génératives chargées de créer respectivement l’image animée et la voix d’Emmanuel Macron.

Ce dernier exemple démontre bien les risques de ces technologies en matière de désinformation. De plus, ces technologies évoluent dans un certain flou juridique et la menace de la cyber-malveillance n’a jamais été aussi forte qu’aujourd’hui.

Du risque cyber à l’insécurité juridique des IA conversationnelles

Sécurité des données

Au-delà des enjeux éthiques ou juridiques, ces technologies font face à un véritable risque cyber. Parmi les cybermenaces auxquelles doivent faire face les individus, on retrouve notamment des pratiques comme l’usurpation d’identité ou bien le phishing (le fait de recevoir un mail trompeur contenant un lien malveillant). Quel que soit l’objectif du cyberattaquant (usurpation d’identité ou phishing), celui-ci a besoin d’une grande quantité de données pour affiner son attaque. Le manque de sécurité de ces outils d’IA entraîne donc un risque de collecte de données par des personnes malveillantes. Plus des informations personnelles seront à sa disposition, plus les personnes recevant un e-mail de phishing auront tendance à cliquer sur les liens proposés dans ces e-mails. De la même manière, plus le cyberattaquant a accès à ce type d’information, plus l’usurpation d’identité a des chances de fonctionner.

Au regard de cette analyse, force est de constater que les IA, qui par leur existence même nécessitent la constitution de bases de données monumentales, deviennent une cible de choix pour un cybercriminel. Une véritable mine d’or.

La sécurité des données dans l’usage des IA est notamment un sujet d’inquiétude pour les autorités de contrôles.

Conformité RGPD des IA et bonnes pratiques

Depuis 2018, le RGPD (Règlement Général sur la Protection des Données) et ses petits frères législatifs (comme le Digital Act Services ou DSA qui renforce les obligations des grandes plateformes en matière de lutte contre la désinformation – si vous êtes DPO, et que souhaitez savoir que retenir du DSA) ont grandement renforcé les mécanismes visant à protéger la vie privée numérique des individus. Le RGPD ne couvre cependant pas de manière spécifique les enjeux d’IA.

Droit à l’information

Le RGPD pose de grands principes que les entités doivent respecter afin de traiter les données personnelles des individus. Parmi ceux-ci figure le droit à l’information. Tout responsable de traitement voulant collecter et utiliser les données personnelles des personnes doit renseigner de façon claire et intelligible les opérations de traitement réalisées sur les données. Si vous utilisez une IA conversationnelle dans vos activités ou encore sur votre site web, il est nécessaire de l’indiquer au sein de votre politique de confidentialité accessible sur votre site web. Par exemple si vous avez un site e-commerce et que vous utilisez un chatbot, Admeet vous accompagne dans la mise en règle RGPD de votre site e-commerce et dans la formalisation de votre politique avec un générateur de politique de vie privée/confidentialité.

Base légale

Le volume de données nécessaire à l’apprentissage des IA conversationnelles nécessite une collecte démesurée de données personnelles, et donc régulièrement, la réutilisation de données personnelles qui sont initialement collectées pour un autre objectif. Ce nouveau traitement doit alors s’appuyer sur une base légale.

Le consentement de la personne concernée est à priori nécessaire. Ce qui engendre de demander aux personnes, au moment de la collecte des données, ou a posteriori, de pouvoir les réutiliser dans le cadre de l’apprentissage de son IA. Certaines entreprises pourraient estimer que ce traitement repose sur la base légale de leurs intérêts légitimes, mais il est difficile d’anticiper l’analyse que feront les autorités de contrôle sur ce point.

Minimisation des données

Un autre principe posé par le RGPD est celui de la minimisation des données. Selon ce dernier, un responsable de traitement (l’entreprise) ne doit collecter que les données dont il a strictement besoin pour atteindre l’objectif du traitement de données personnelles. Ici encore, le principe même de l’apprentissage des IA rend toutes données existantes potentiellement utiles, ce qui rend difficile de se conformer à ce principe de minimisation.

Conservation des données

Le RGPD impose aussi aux responsables de traitement de données personnelles de prévoir une durée de conservation pour les données personnelles. Globalement, l’entité ne peut conserver les données que tant qu’elle peut justifier en avoir encore l’usage dans la poursuite de la finalité pour lesquelles elles sont conservées. Ce point pose question en matière d’utilisation de données pour faire progresser les modèles d’IA. En effet, les données des utilisateurs de ChatGPT sont supprimées « lorsque nous (ChatGPT) n’en n’avons plus besoin » selon la politique de confidentialité de ChatGPT. Cette formulation très floue et générale est discutable. Par ailleurs, ChatGPT ne communique pas sur le sort des données utilisées dans le cadre de l’entraînement des algorithmes. De gros points d’interrogations subsistent donc sur la conformité de ces éléments.

Le point de vue de la CNIL

C’est dans ce contexte que, en mars 2023, la Garante per la protezione dei dati personali (l’autorité de contrôle italienne) avait temporairement interdit ChatGPT pour non-conformité au RGPD (avant d’autoriser ChatGPT à nouveau en Italie) en se basant sur 4 points :

Aucune vérification de l’âge des utilisateurs (le RGPD interdit la collecte des données de mineurs de moins de 15 ans sans consentement des parents) ;
Absence de notification à l’autorité et aux personnes concernées d’une fuite de données personnelles ;
Pas d’information pour les utilisateurs de ChatGPT que les informations qu’ils rentraient dans la plateforme pouvaient être réutilisées pour entraîner les modèles ;
Absence de base légale pour justifier l’utilisation massive de données pour l’entraînement des modèles.

Vingt-neuf jours plus tard, cette interdiction est levée. L’autorité italienne considérant que des garanties ont été apportées sur les points en question. Or, aucune information sur les mesures prises par Open AI pour remédier à la situation n’a été rendue publique.

Suite à des plaintes d’utilisateurs, la CNIL (autorité française de protection des données), suivie des autorités de contrôles irlandaise (DPC) et allemande (BfDI), se sont également rapprochées d’Open IA et de l’autorité italienne pour avoir une approche commune de l’analyse de la conformité de cet outil. Le Comité européen de la protection des données (EDPB) a alors créé une équipe dédiée pour analyser la conformité de ChatGPT.

Le règlement IA : un nouveau texte à l’examen au parlement EU

Le Parlement européen a adopté une première version du règlement IA en juin 2023. Cependant, celui-ci est actuellement en phase de discussion entre le Conseil Européen, la Commission Européenne et le Parlement.

L’objectif du texte est de garantir un développement de technologies sûres, traçables, transparentes et éthiques. Le régulateur propose une approche par les risques en définissant des règles et des obligations différentes en fonction du risque apporté par la technologie.

Par exemple, les outils d’IA proposant un score social (évaluation des personnes et attribution d’un score en fonction d’un barème « bon citoyen ») seront proscrits du territoire de l’UE, car présentant un risque inacceptable.

À l’inverse, les technologies définies comme à risque limité devront simplement respecter des exigences de transparence qui permettront aux utilisateurs de prendre des décisions éclairées.

Les bonnes pratiques de réduction des risques de l’utilisation de l’IA

En France, courant octobre 2023, la CNIL a dévoilé ses premières réponses pour une IA innovante et respectueuse de la vie privée en partageant son analyse et des fiches pratiques pour utiliser ces IA en conformité avec le RGPD.

Voici quelques axes pour vous donner les bons réflexes pour utiliser ce type d’intelligence artificielle :

Déterminer le régime juridique applicable ;
Définir une finalité ;
Déterminer la qualification juridique des fournisseurs d’IA ;
S’assurer que le traitement est licite avec base légale déterminée et, lorsque celle-ci est le consentement, de bien tracer l’obtention de ce consentement et laisser le choix aux personnes concernées de le retirer à tout moment. L’outil de gestion des consentements d’Admeet peut vous aider dans la conservation des consentements liés aux cookies ;
Tenir compte de la protection des données dans la conception du système et dans la collecte et la gestion des données ;
Informer les personnes de façon claire, licite et déterminée via une politique de confidentialité. Des solutions comme Admeet peuvent vous aider dans la génération d’une politique de confidentialité.

En conclusion, il est possible d’utiliser des IA comme ChatGPT de manière conforme à la réglementation actuelle. Celle-ci devrait se préciser une fois le Règlement IA de l’Union Européenne adopté.

Des enjeux sociétaux, entre les innovations technologiques et la protection des droits et libertés des individus, se posent.

Commencez avec Admeet

Utiliser l’IA de type ChatGPT en toute conformité avec le RGPD : un guide pratique