Hallucinations : Une mouche dans la pommade

An icon of a key

L’IA, basée sur de grands modèles de langage, invente des choses. Elle le fait tout simplement. C’est généralement appelé “hallucinations”. C’est un vrai problème, un problème sérieux. Vous devez comprendre les hallucinations si vous allez travailler avec l’IA.

Le mot de l’année 2023 du Cambridge Dictionary était “Hallucinate,” dont la définition a été élargie pour inclure “Lorsqu’une intelligence artificielle… hallucine, elle produit de fausses informations.” (D’autres ajouts au dictionnaire de 2023 incluent “ingénierie des invites,” “grand modèle de langage,” et “GenAI.”)

Les hallucinations d’IA, note Cambridge, “parfois semblent absurdes. Mais elles peuvent aussi sembler tout à fait plausibles – même si elles sont factuellement inexactes ou ultimement illogiques.” C’est, malheureusement, assez vrai, et en juillet 2024, cela reste une limitation dramatique pour l’utilisation de l’IA générative pour des tâches critiques. C’est l’une des nombreuses grandes bizarreries de l’IA, et il faut du temps aux gens pour s’y habituer. Souvenez-vous, l’IA générative est principalement un moteur de prédiction de mots suivants, pas une base de données de faits. D’où la nécessité des HITLs, Humains-Dans-La-Boucle, comme nous sommes maintenant connus, pour vérifier la sortie de l’IA. Et encore une fois, il est remarquable que nous puissions obtenir une valeur aussi extraordinaire d’une technologie qui peut produire des sorties prouvées inexactes. Ainsi va la vie.

Gary Marcus, un critique de l’IA expérimenté et bien informé, compare les hallucinations de l’IA à des montres cassées, qui sont correctes deux fois par jour. “C’est correct une partie du temps,” dit-il, “mais vous ne savez pas quelle partie du temps, et cela diminue grandement sa valeur.”

Ethan Mollick, un conférencier principal à la conférence de septembre 2023 de Publishers Weekly, note que les gens utilisant l’IA s’attendent à une précision de 100%. Les hallucinations, dit-il, sont similaires aux “taux d’erreur humains” que nous tolérons quotidiennement.

Andrej Karpathy, un scientifique renommé spécialisé en IA, qui travaille actuellement chez OpenAI, écrit à propos des hallucinations :

“Je lutte toujours un peu quand on me demande sur le ‘problème d’hallucination’ dans les LLMs. Parce que, en quelque sorte, l’hallucination est tout ce que les LLMs font. Ce sont des machines à rêves.

“Nous dirigeons leurs rêves avec des invites. Les invites commencent le rêve, et basées sur le vague souvenir des documents d’entraînement du LLM, la plupart du temps le résultat va vers quelque chose d’utile.

“C’est seulement lorsque les rêves vont dans un territoire jugé factuellement incorrect que nous l’étiquetons comme une ‘hallucination.’ Cela ressemble à un bug, mais c’est juste le LLM faisant ce qu’il fait toujours.”

Ce n’est pas seulement le problème d’inventer des choses. Le chat IA est un logiciel profondément défectueux.

Pour de nombreuses requêtes, en particulier des novices, les réponses sont banales, hors cible ou simplement inutiles. Le chat IA a du mal à compter : Demandez-lui un article de blog de 500 mots et vous aurez de la chance d’en obtenir 150.

Et chacune des entreprises d’IA, pour réduire les biais et éviter de répondre aux requêtes “comment fabriquer une bombe,” a érigé des garde-fous stricts autour de leurs produits : trop souvent, la réponse à une question est, essentiellement, “Non, je ne répondrai pas à cela.” J’ai demandé à Google Gemini de revoir un brouillon de ce texte et on m’a averti qu’“il est essentiel d’obtenir l’approbation de l’auteur avant de publier.”

Vérification des faits

An icon of a key

Je soutiens, principalement en vain, que les hallucinations sont un problème technologique, qui trouvera une solution technologique. Oui, elles sont endémiques aux LLMs, mais elles peuvent être contournées.

Considérez ceci : J’ai demandé à quatre chats IA de vérifier les faits des déclarations suivantes :

  • En 2024, il y a 6 grands éditeurs multinationales basées à New York City. Elles sont connues sous le nom de Big 6.

  • Les ebooks continuent de dominer les ventes de livres aux États-Unis.

  • Borders et Barnes & Noble sont les deux plus grandes chaînes de librairies aux États-Unis.

  • Après une baisse des ventes pendant le Covid, les ventes de livres aux États-Unis augmentent à nouveau à deux chiffres.

Tous ont repéré les erreurs dans les trois premières déclarations. Chacun d’eux est devenu un peu confus sur la quatrième, incertain de l’ampleur du rebond des ventes de Covid, et des schémas de ventes ultérieurs. C’est une petite expérience non représentative, mais ces IA de chat, qui ne sont pas censées être basées sur des faits, peuvent faire un travail crédible d’évaluation des faits que la plupart des observateurs occasionnels manqueraient.