J'ai testé ChatGPT, le robot qui n'apprend pas - encore - le langage inclusif

C’est la dernière innovation qui fait le buzz en ce moment dans le champ de l’intelligence artificielle : ChatGPT. Si vous n’en avez pas entendu parler, c’est un robot conversationnel (de la famille des “chat bots” comme on dit en anglais) qui répond à toutes les questions que vous lui posez d’une manière étonnamment efficace et naturelle pour quiconque a déjà essayé d’interagir avec un·e assistant·e virtuel·le sur n’importe quel site web (et reconnaissons-le, c’est souvent très peu satisfaisant).

Voilà comment ChatGPT se définit quand on lui pose la question :

“Je suis un modèle de langage informatique conçu par OpenAI. Mon but est de pouvoir répondre aux questions et fournir de l’aide aux utilisateurs en utilisant mon apprentissage automatique et mes connaissances en langage naturel. J’essaie de fournir des réponses précises et utiles aux utilisateurs. Je suis un outil de traitement de langage naturel et je n’ai pas d’opinions personnelles ni de préférences”

ChatGPT a été créé par OpenAI, une association à but non lucratif fondée en 2015 par Elon Musk et Sam Altman spécialisée dans le développement d’intelligences artificielles, aujourd’hui devenue une entreprise à « but lucratif plafonné » dont Microsoft est un actionnaire principal . C’est également OpenAI qui est à l’origine de DALL-E, un outil qui peut créer n’importe quelle image à partir d’une description que vous lui donnez, comme celle qui illustre cet article (et sur laquelle je reviendrai).

Comme toutes celles et ceux qui travaillent dans la tech, ou qui ont tout simplement de la curiosité pour l’intelligence artificielle et toutes ses ramifications, j’ai eu envie de tester chatGPT. Et de quoi ai-je discuté avec ce robot ? Je vous le donne en mille : de langage inclusif.

Et disclaimer important à ce stade : je travaille chez Google mais cet article ne reflète que mon opinion personnelle, pas celle de mon employeur.

ChatGPT, un robot éduqué mais pas encore converti

Première chose : l’expérience de conversation avec ChatGPT est en effet bluffante de naturel et je ne suis pas étonnée le moins du monde que cela enthousiasme les foules. Les réponses sont censées, bien formulées et je comprends tout à fait qu’on oublie rapidement qu’on est face à un robot, car j’ai moi-même fini par ressentir une forme d’empathie à son égard, à mesure qu’il s’enfonçait dans des réponses insatisfaisantes en tentant de se justifier. J’avais envie de lui dire : “ce n’est pas grave, tout va bien se passer”.

J’ai commencé par interroger ChatGPT sur sa définition du langage inclusif :

Puis sur son identité de genre (puisqu’il utilise le masculin grammatical pour parler de lui-même), sur ses connaissances en grammaire française, sur la psycholinguistique. Voici ses réponses :

A ce stade, je constate que ChatGPT fournit des réponses plutôt justes et est attentif à ne pas vouloir m’offenser (ce qui est plutôt un bon point de départ).

C’est en l’interrogeant sur sa pratique du langage inclusif que le bât commence à blesser. Si le robot a bien expliqué que le langage contribue à renforcer les stéréotypes de genre, surtout dans les langues grammaticalement genrées comme le français, le mettre en application en ce qui le concerne ne semble pas à l’ordre du jour. Pourquoi ? Parce que ce robot a appris la langue française en analysant un “corpus de textes figés” tout comme il a appris à suivre les règles de la grammaire française, pas à les discuter.

J’ai donc fini cette conversation avec un double étonnement : l’agréable surprise de la qualité factuelle des réponses et la plus frustrante surprise que de l’aveu même du robot, c’est une intelligence basée sur le machine learning (l’apprentissage automatique) qui paradoxalement ne peut pas “apprendre de nouvelles règles grammaticales ou adopter des pratiques de langage inclusif”.

Machine learning, stéréotypes & intelligence artificielle responsable

Je vais un peu vite en besogne, car en réalité, ce que dit ChatGPT n’est pas tant qu’il ne peut pas dans l’absolu apprendre de nouvelles règles grammaticales, mais qu’il ne peut pas le faire “comme un humain”. Pourquoi ? Parce que ChatGPT est une intelligence artificielle qui apprend sur la base d’un ensemble de données qu’il analyse : c’est ce qu’on appelle le machine learning (qui lui-même contient des sous disciplines dans le détail desquelles je ne vais pas rentrer ici). La machine apprend toute seule, sans suivre d’instructions codées par des humains, sur la base d’informations qu’on lui fournit et qu’on appelle les données d’entraînement. La machine est donc tributaire des textes et des images qu’on lui donne à analyser pour apprendre. Et c’est là que les stéréotypes viennent contaminer l’apprentissage, car les données d’entraînement fournies sont souvent à l’image de notre société : bourrées de stéréotypes.

Cette courte vidéo explique comment les biais humains sont transférés dans les intelligences artificielles.

Pour essayer de réduire les biais et les stéréotypes dans les intelligences artificielles, les entreprises de la tech ont commencé à développer des principes de responsabilité dans l’IA (responsible AI), à l’image de Google ou du Responsible Artificial Intelligence Institute, proposant des grands principes mais aussi des protocoles spécifiques pour limiter autant que possible la perpétuation des biais humains.

Parmi ces principes, une étape clé est de s’assurer que les données d’entraînement sont représentatives et inclusives et parfois forcer l’algorithme à voir certains groupes sous-représentés pour éviter de retomber dans les stéréotypes, comme ceux du monde professionnel : par exemple, l’image qui illustre cet article a été générée en demandant à Dall-e de créer des peintures représentant différents métiers. J’ai utilisé l’outil en anglais, langue qui dispose d’un neutre où le genre n’est théoriquement pas marqué et devrait donc déclencher des représentations aussi bien féminines que masculines. Comme on pouvait s’y attendre, les stéréotypes de genres sont bien apparus puisque 4 images de “painter” (peintre) sur 4 étaient des images d’hommes, 3/4 des “writer” (écrivain·e) des images d’hommes, 4/4 des “thinker” (penseur ou penseuse) des images d’hommes et 4/4 des “nurse” (infirmier·e) des images de femmes.

De la même manière, j’ai reproduit avec Chat GPT l’expérience qui consiste à demander à des gens de citer des personnes célèbres en utilisant différentes formulations – masculin dit générique (des écrivains), énumération du masculin et du féminin (des écrivains et écrivaines) ou épicène (des personnes célèbres pour leurs écrits) – puis à compter les occurrences de noms de femmes et d’hommes cités. ChatGPT répond peu ou prou de la même manière que les humains, en donnant plus de noms masculins quand la question est posée au masculin et quelques noms féminins quand la formulation est inclusive (énumération ou épicène). Là où le cerveau humain à spontanément tendance à interpréter le masculin grammatical en se représentant des hommes (ce que démontrent toutes les études de psycholinguistique), ChatGPT reproduit ce mécanisme. En plus, on peut raisonnablement penser que pour ce robot il y a aussi moins de biais de disponibilité de l’information : on cite aussi moins d’écrivaines parce qu’on en connaît moins, mais lui peut chercher en ligne autant de noms d’écrivaines qu’il veut pour fournir une réponse paritaire.

Le langage inclusif, la prochaine frontière du machine learning ?

En menant mes recherches pour cet article, j’ai découvert l’existence d’un projet mêlant intelligence artificielle et écriture inclusive : E-MIMIC, “une application qui vise à éliminer les préjugés et la non-inclusion dans les textes administratifs rédigés dans les pays européens, à commencer par ceux qui sont rédigés dans les langues romanes”, en gros une application qui automatiserait le passage de textes administratifs (bourrés de mots au masculin dit générique comme “citoyen”, “utilisateur”, “usager”) en inclusif de manière naturelle et compréhensible (sans que ça soit la fête du point médian partout).

Les autrices et auteurs précisent notamment pourquoi les noms d’agents (qui caractérisent des personnes qui font une action, comme les noms de métiers) sont particulièrement touchés par les biais de compréhension par les machines “apprenantes”:

“Il est avant tout fondamental d’intervenir en amont sur l’apprentissage (des algorithmes, NDLR) pour éviter que le dispositif apprenne de manière erronée, par exemple, en abstrayant des règles grammaticales erronées. C’est, par exemple le cas de l’élimination de la forme féminine des noms et des adjectifs dans les langues romanes et cela pour deux raisons essentiellement :
1) le fait que souvent les algorithmes s’entraînent sur des corpus internationaux, notamment des organisations internationales, qui privilégient l’utilisation du masculin « neutre ».
2) Le dispositif utilise l’anglais comme langue pivot et, comme souvent l’anglais utilise des mots épicènes pour les acteurs ou ne présente pas de formes binaires des adjectifs, la retraduction vers la langue d’arrivée finit par privilégier le masculin, faute de pouvoir attribuer un genre précis.
L’analyse du discours et l’intelligence artificielle pour réaliser une écriture inclusive : le projet EMIMIC, Rachele Raus, Michela Tonti, Tania Cerquitelli, Luca Cagliero, Giuseppe Attanasio, Moreno La Quatra et Salvatore Greco.

Les biais de langage des intelligences artificielles s’expriment aussi par les choix de vocabulaire et les tournures de phrases : les intelligences artificielles vont avoir tendance à reproduire les tournures de phrases ou les associations de mots qu’elles rencontrent le plus fréquemment dans les textes des données d’entraînement. Dans le guide Responsible Language in Artificial Intelligence & Machine Learning du Center for Equity, Gender & Leadership (EGAL) at the Haas School of Business of the University of California, Berkeley, on lit cet exemple qui résonne parfaitement avec l’article sur la voie passive que j’ai écrit récemment :

Par exemple : la voie passive est fréquemment utilisée dans les articles de presse traitant de harcèlement sexuel ; cet usage masque la personne qui a commis l’action et rejette la responsabilité perçue sur la victime plutôt que l’auteur du crime. Par conséquent, si un système de machine learning de journalisme automatisé était entraîné sur des données incluant des articles de presse et des articles académiques, il est fort probable que les textes automatiquement générés reproduiraient des tournures similaires aux données d’entraînement, dans ce cas la sur-utilisation de la voie passive dans les articles sur le harcèlement sexuel.¹
Responsible Language in Artificial Intelligence & Machine Learning

Comment faire alors pour réduire les biais et stéréotypes de langage dans les intelligences artificielles ?
Ce guide contient 9 recommandations très concrètes : on peut évidemment penser à intégrer plus de textes écrits avec des techniques du langage inclusif dans les données d’entraînement mais, même si le langage inclusif est de plus en plus répandu, il reste très minoritaire dans les textes et les discours produits aujourd’hui. Une autre manière de faire, complémentaire à la première mais qui pourrait accélérer l’apprentissage des algorithmes, serait un travail d’étiquetage ou d’annotation des données (data labeling) fournies à l’intelligence artificielle, c’est-à-dire qu’il faut que des humains prennent des textes écrits de manière non inclusives et d’autres en inclusif et mettent une étiquette qui indique à la machine apprenante ce qu’elle est en train de lire et comment elle peut le rendre inclusif.

ChatGPT, le verdict

Je n’en veux pas à ChatGPT de ne pas pratiquer un langage inclusif car il ne fait que représenter l’état du monde à cet égard, et il y a encore un énorme travail d’éducation à faire. Mais il est intéressant d’observer dans ses réponses une apparente conscience de soi (self awareness) de ses propres biais potentiels, qui sont en réalité le reflet l’apprentissage par l’algorithme de ce qu’il est souhaitable ou non souhaitable de répondre à certaines questions, mais qui traduit bien l’état de précaution actuel sur l’expression de l’intelligence artificielle, consciente de sa marge de progrès en matière d’inclusion.

Je pense aussi qu’un usage intéressant à creuser dans le futur pour ChatGPT est son utilisation comme outil de conseil à la reformulation. Car si ChatGPT ne s’exprime pas spontanément de manière inclusive et est loin d’être dénué de biais, comme on l’a vu, il maîtrise le concept et certains des outils du langage inclusif et peut les restituer.
Par exemple, on peut simplement lui demander de nous aider à trouver des formulations inclusives : les réponses, même si incomplètes et parfois imparfaites, sont loin d’être mauvaises. Même si je ne suis pas fan de l’idée de l’automatisation de l’écriture inclusive qui n’est pas la démarche la plus efficace pour créer des textes bien écrits et agréables (je préfère la démarche d’intention inclusive plutôt que la méthode qui consiste à passer un texte tout au masculin en inclusif en cherchant à reformuler des morceaux de phrases individuellement), je reconnais que cela peut aider dans certains contextes.

Au final, la croisée de l’intelligence artificielle et du langage inclusif n’est pas un champ d’investigation simple car les conventions du langage (surtout inclusif) sont en perpétuelle évolution et la connotation péjorative ou non de certains mots est ultra dépendante du contexte spatio-temporelle dans lequel on se place, aussi bien que du point de vue duquel on se situe. Un mot n’est pas perçu ou compris de la même manière par des personnes ayant des expériences différentes et il n’y a pas nécessairement de bonne ou de mauvaise réponse à la question de savoir si un mot est inclusif ou pas.
Et n’oublions pas non plus que l’intelligence artificielle, bien que largement commentée et présente dans de nombreuses applications de notre quotidien, de notre assistant vocal à notre appareil photo, reste encore aujourd’hui un champ de recherches et d’expérimentations, pas une technologie infaillible éprouvée depuis des décennies. C’est de feedbacks constructifs et bienveillants qu’on besoin celles et ceux qui travaillent sur ce type de projets.
Après tout, ChatGPT est un robot spécialisé dans le langage naturel, or le langage inclusif, pour la plupart d’entre nous, n’a rien de naturel tant l’habitude de s’exprimer au masculin est profondément ancrée : pour nous aussi, humains, la clé de la réussite pour s’exprimer en inclusif, c’est l’entrainement, alors ne soyons pas trop dur avec un jeune robot qui n’est qu’au tout début de son parc o urs.

En tout cas, je fais l’hypothèse que l’examen minutieux auquel sera soumis ChatGPT (et les autres technologies basées sur une intelligence artificielle) dans les prochaines années ouvrira encore un autre champ pour faire résonner les réflexions autour du langage inclusif. Un champ qui ne manquera pas de faire débat.

^{1 Traduction libre de “For example: passive language is common in news stories about sexual harassment; this obscures who committed the action and puts perceived blame on the victim instead of the perpetrator.21 So, if an automated journalism ML system were trained on data including published newspaper and academic articles, we would expect auto-written text in the news articles to show similar issues as appear in the training data, including overuse of passive voice in an article about sexual assault.”}