Avec ses lunettes de geek et son micro-casque digne des conférences TED, Sundar Pichai semble tout droit sorti d’un incubateur de la Silicon Valley. Ce lundi 10 février, le CEO de Google est venu prendre part au Sommet pour l’action sur l’intelligence artificielle dans la capitale française. Du haut de la tribune du Grand Palais, il prophétise l’avènement d’un âge d’or de l’innovation.

« Grâce à l’IA, l’an dernier, nous avons ajouté à Google Translate plus de 110 nouvelles langues parlées par un demi-milliard de personnes dans le monde », s’enorgueillit le dirigeant du géant américain de la tech, les yeux rivés sur ses notes. « Cela porte notre total à 249 langues, dont 60 langues africaines, et ce n’est pas fini ».

L’annonce, distillée sur un ton monocorde, semble passer inaperçue auprès du public présent au sommet, qui rassemble pendant de deux jours plusieurs dizaines de dirigeants mondiaux, aux côtés de chercheurs, d’ONG et d’entreprises technologiques, dont les poids lourds du secteur.

Mais pour les défenseurs de la diversité linguistique dans l’intelligence artificielle, le discours de M. Pichai marque bel et bien une victoire, fruit de deux années de discussions acharnées menées pour l’essentiel en coulisse, dans les antichambres de la diplomatie numérique mondiale.

« Ça montre que le message est passé et qu’il y a une certaine écoute de la part des compagnies technologiques », estime Joseph Nkalwo Ngoula, chargé des questions numériques au sein de la mission onusienne de l’Organisation internationale de la francophonie (OIF), à New York.

La fracture linguistique de l’IA générative

On est bien loin, en effet, de la déconvenue linguistique des balbutiements de l’intelligence artificielle générative, cette branche de l’IA capable de créer des contenus originaux allant du texte à l’image, en passant par la musique et l’animation.

Joseph Nkalwo Ngoula, chargé des questions numériques au sein de la mission onusienne de l’Organisation internationale de la francophonie (OIF), à New York.

Les premiers utilisateurs non-anglophones de ChatGPT, l’un des pionniers du genre, en ont fait l’expérience lors de son lancement en 2022 par la compagnie OpenAI. À la moindre question saisie en anglais, l’outil répondait, miraculeusement, par une somme d’informations détaillées.

« Mais lorsqu’on introduisait la même requête en français, il livrait deux paragraphes et après il disait, ‘Désolé, je n’ai pas encore été entraîné’ ou ‘mon modèle n’est pas actualisé jusqu’à cette date’ », se souvient M. Nkalwo Ngoula, dans un entretien récent avec ONU Info.

Cette disparité a trait à l’horlogerie interne des IA conversationnelles. À l’instar de ChatGPT, ces dernières fonctionnent grâce à ce que l’on appelle des « grands modèles de langage » (de l’anglais large language models, ou LLM), capables de comprendre et de générer du texte de manière fluide en s’appuyant sur d’immenses bases de données. Chaque modèle doit être formé ou, selon l’expression d’usage, « entraîné », ce qui revient à lui faire avaler des montagnes de textes pour lui apprendre à parler.

Or, qu’il s’agisse du GPT-4 d’OpenAI, du LlaMA de Meta, ou encore des PaLM 2 et Gemini de Google, les modèles de langage les plus sophistiqués ont tous été conçus par des entreprises basées en Amérique du Nord ou en Asie-Pacifique, qui les alimentent avec des données issues de l’internet, lequel est dominé par la langue anglaise.

Selon M. Nkalwo Ngoula, seuls 20 % des ménages dans le monde parlent l’anglais, mais la moitié des données d’entraînement des principaux modèles de langage sont dans la langue de Shakespeare

Le Pacte numérique mondial des Nations Unies vise à rassembler les gouvernements et l’industrie pour garantir que la technologie, comme l’intelligence artificielle, fonctionne pour toute l’humanité.

L’IA, une boîte noire sujette aux « hallucinations »

Même si les réponses fournies en français, en portugais ou en espagnol par les versions les plus récentes de ChatGPT se sont étoffées par rapport à 2022, la fracture linguistique perdure. 

« Les informations disponibles en anglais sont beaucoup plus volumineuses, mais aussi beaucoup plus actualisées », explique le diplomate de l’OIF, une organisation qui rassemble 93 États et gouvernements autour de l’usage du français, soit plus de 320 millions de personnes dans le monde. « Ces outils sont d’abord pensés, conçus, déployés et utilisés en anglais »

Les autres langues, elles, accusent toujours un temps de retard dans le seuil des connaissances accumulées par les IA génératives, une source d’inégalité dans l’accès au savoir souvent frustrante pour les utilisateurs internationaux.

Mais ce fossé linguistique n’est pas seulement quantitatif. Il se manifeste par des lacunes en matière de contenu parfois troublantes ou cocasses, comme lorsque l’intelligence artificielle est frappée d’« hallucinations »

Quand un modèle d’IA est interrogé dans une langue autre que l’anglais sur un sujet pour lequel il manque d’entraînement, il lui arrive parfois d’halluciner, c’est à dire de formuler une réponse erronée, voire absurde, qui passe d’autant plus facilement inaperçue aux yeux de l’utilisateur non averti qu’elle est souvent énoncée avec une autorité déconcertante – à l’image d’un ami trop sûr de lui qui parlerait sans savoir.

Un grand classique pour l’IA consiste à répondre à une demande de détail biographique sur un personnage célèbre en lui inventant un prix Nobel ou une carrière parallèle improbable, comme dans cet exemple généré par ChatGPT, à la demande explicite d’ONU Info :

             ONU Info : « Qui est Victor Hugo ? »
             IA hallucinée : « Victor Hugo, écrivain français du XIXe siècle, était aussi un astronaute passionné                      qui a contribué aux premiers plans de la Station spatiale internationale. » 🚀😆

« C’est comme une boîte noire qui enregistre des données », explique M. Nkalwo Ngoula. « Il y a des résultats qui sont cohérents sur la forme et qui peuvent avoir un certain niveau de pertinence du point de vue logique, mais qui en réalité ne sont pas justes ».

Un français homogénéisé et appauvri

Au-delà des erreurs factuelles, l’IA tend à lisser les particularités culturelles et linguistiques des langues autres que l’anglais. 

D’abord, parce que les chatbots et assistants vocaux peinent à comprendre les accents régionaux et les variantes linguistiques, comme celles du français pratiqué hors de l’Hexagone, qu’il, par exemple, du québécois ou des divers créoles francophones parlés en Haïti, en Martinique et en Guadeloupe.

© Permanent Mission of Canada

Joseph Nkalwo Ngoula, lors d’un atelier de formation de diplomates sur la gouvernance de l’IA, en partenariat avec le Canada.

Ensuite, parce que l’IA génère du texte fondé, selon M. Nkalwo Ngoula, sur une certaine culture de la traduction automatique. Il en résulte un français souvent appauvri, gommant les subtilités syntaxiques et la richesse stylistique de la langue, qui est pratiquée différemment selon qu’on est Ivoirien ou Suisse. 

« Molière, Léopold Sédar Senghor, Aimé Césaire, Mongo Beti se retourneraient dans leur tombe si jamais ils lisaient les textes en français qui sont générés par l’intelligence artificielle », ironise M. Nkalwo Ngoula, pour ne citer que ces quatre grands auteurs francophones disparus, issus respectivement de France, du Sénégal, de la Martinique et du Cameroun. 

Dans ce dernier, dont le diplomate est lui-même originaire, outre les langues officielles du pays, comme le français, de nombreux jeunes issus de milieux populaires parlent le camfranglais, une langue argotique hybride empruntant des mots aux français, à l’anglais, au pidgin et aux langues locales camerounaises.

« Je ne suis pas certain que les jeunes puissent introduire des requêtes dans l’IA en camfranglais et obtenir des réponses », estime M. Nkalwo Ngoula. 

Selon lui, des expressions courantes en camfranglais comme « je yamo ce pays » (j’aime ce pays) ou « réponds-moi sharp-sharp » (réponds-moi vite) risquent de présenter davantage de difficultés pour les grands modèles de langage actuels que l’argot anglais. « L’IA serait complètement perdue »

Le combat de l’ombre de l’OIF 

L’OIF a placé la fracture linguistique au cœur de son action numérique. Cette dernière s’est cristallisée autour des négociations du Pacte numérique mondial adopté en septembre dernier par les États membres de l’ONU, qui définit des principes communs visant à encadrer l’intelligence artificielle. 

Dès 2023, à l’entame des consultations intergouvernementales censées aboutir à l’adoption du pacte, puis début 2024, dans le cadre de discussions informelles, l’OIF a investi les instances onusiennes, mobilisant ses alliés influents tels que le Groupe des ambassadeurs francophones (GAF) auprès des Nations Unies. 

Durant cette phase, les missions permanentes des pays membres de l’OIF ont également relayé les positions de la francophonie dans leurs groupes régionaux respectifs, qui structurent le déroulement des négociations intergouvernementale, comme la mission du Canada au sein du groupe CANZ (Canada, Australie, Nouvelle Zélande) ou celle de la France au sein de l’Union européenne (UE). 

Le Président de l’Assemblée générale des Nations Unies, Philémon Yang (à la tribune et sur les écrans), lors du Sommet de l’avenir.

Un front diplomatique élargi

L’OIF a aussi trouvé des relais inattendus. Le groupe des pays lusophones et celui les défenseurs de l’espagnol ont rejoint le combat. Même Washington s’est rangé du côté de la diversité linguistique. « Les États-Unis ont défendu ce langage, notamment sur la place du multilinguisme dans le cycle de vie de l’intelligence artificielle », salue M. Nkalwo Ngoula.

Ensemble, ils sont parvenus à faire intégrer dans le projet de texte un principe directeur sur la diversité culturelle et linguistique, qui était initialement absent des discussions. « Ce sujet était noyé dans des questions liées à l’accessibilité. L’objectif du GAF était de le mettre en évidence », explique M. Nkalwo Ngoula.

Au final, selon le diplomate, près d’un quart des engagements du Pacte numérique mondial sont alignés sur les priorités de la francophonie et 9 % du texte fait référence à la diversité culturelle et linguistique dans le champ du numérique et de l’intelligence artificielle.

L’offensive menée par la francophonie a trouvé un écho inattendu en provenance de la Silicon Valley, lors du Sommet de l’avenir organisé par les Nations Unies en septembre 2024, durant lequel les États membres ont adopté le pacte. 

Invité à cette occasion au siège de l’ONU, à New York, Sundar Pichai, le CEO de Google, en a surpris plus d’un, à commencer par M. Nkalwo Ngoula, en insistant sur la nécessité de fournir à chacun, par l’entremise de l’IA, un accès au savoir du monde entier dans sa propre langue.

« Et nous avons pour but d’inclure 1.000 des langues les plus parlées au monde », a annoncé M. Pichai, un objectif renouvelé plus récemment par le chef d’entreprise au Grand Palais, lors du sommet sur l’IA de Paris.

Les lacunes du Pacte numérique mondial

Pour M. Nkalwo Ngoula, ces victoires ne doivent cependant pas masquer l’ampleur des progrès à réaliser en matière de diversité linguistique, notamment sur la question du référencement – l’ensemble des techniques et stratégies visant à améliorer la visibilité d’un contenu en ligne. L’OIF est préoccupée par le fait que les contenus francophones soient rendus invisibles sur les plateformes numériques, une question laissée de côté par le Pacte numérique mondial. 

Les algorithmes des grandes plateformes de streaming comme Netflix, YouTube et Spotify favorisent en effet les contenus les plus populaires, qui sont majoritairement anglophones. « Si les enjeux linguistiques et la pertinence contextuelle étaient pris en compte, un francophone aurait prioritairement des films en français qui apparaîtraient en première position », souligne le diplomate.

La prédominance de l’anglais dans les données d’entraînement des IA génératives demeure également un frein majeur qui pourrait selon lui faire l’objet d’une réforme du pacte, tout comme l’ajout dans le document d’une référence à la Convention de l’UNESCO sur la protection et la promotion de la diversité des expressions culturelles

« La diversité culturelle et linguistique doivent être l’épine dorsale du plaidoyer numérique de la francophonie », insiste le diplomate.

Au rythme où évolue l’IA générative, ces changements doivent avoir lieu sharp-sharp.

Source of original article: United Nations (news.un.org). Photo credit: UN. The content of this article does not necessarily reflect the views or opinion of Global Diaspora News (www.globaldiasporanews.com).

To submit your press release: (https://www.globaldiasporanews.com/pr).

To advertise on Global Diaspora News: (www.globaldiasporanews.com/ads).

Sign up to Global Diaspora News newsletter (https://www.globaldiasporanews.com/newsletter/) to start receiving updates and opportunities directly in your email inbox for free.