Hallucinaties: een vlieg in de zalf

An icon of a key

AI, gebaseerd op grote taalmodellen, verzint dingen. Dat doet het gewoon. Dit wordt over het algemeen “hallucinaties” genoemd. Het is een echt probleem, een serieus probleem. Je moet hallucinaties begrijpen als je met AI gaat werken.

Het Woord van het Jaar 2023 van de Cambridge Dictionary was “Hallucinate,” waarvan de definitie is uitgebreid met “Wanneer een kunstmatige intelligentie… hallucineert, produceert deze valse informatie.” (Andere toevoegingen aan de dictionary van 2023 zijn “prompt engineering,” “large language model,” en “GenAI.”)

AI-hallucinaties, merkt Cambridge op, “lijken soms onzinnig. Maar ze kunnen ook volledig plausibel lijken–zelfs terwijl ze feitelijk onjuist of uiteindelijk onlogisch zijn.” Dit is helaas behoorlijk waar, en vanaf juli 2024 blijft dit een dramatische beperking voor het gebruik van generatieve AI voor missie-kritieke taken. Het is een van de vele grote eigenaardigheden van AI, en het duurt even voordat mensen het doorhebben. Bedenk dat generatieve AI voornamelijk een voorspellingsmachine voor het volgende woord is, geen feitenbank. Vandaar de noodzaak voor HITLs, Mensen-In-De-Lus, zoals we nu bekend staan, om de output van AI dubbel te controleren. En nogmaals, het is opmerkelijk dat we zoveel buitengewone waarde kunnen halen uit een technologie die aantoonbaar onjuiste output kan produceren. Zo gaat dat.

Gary Marcus, een ervaren en goed geïnformeerde AI-criticus, vergelijkte AI-hallucinaties met kapotte horloges, die twee keer per dag gelijk hebben. “Het is soms juist,” zegt hij, “maar je weet niet welk deel van de tijd, en dat vermindert de waarde aanzienlijk.”

Ethan Mollick, een keynote spreker op de Publishers Weekly conferentie van september 2023, merkt op dat mensen die AI gebruiken 100% nauwkeurigheid verwachten. Hallucinaties, zegt hij, zijn vergelijkbaar met “menselijke foutpercentages” die we dagelijks tolereren.

Andrej Karpathy, een bekende wetenschapper die gespecialiseerd is in AI en momenteel bij OpenAI werkt, schrijft over hallucinaties:

“Ik worstel altijd een beetje als ik gevraagd word naar het ‘hallucinatieprobleem’ in LLMs. Want in zekere zin is hallucineren alles wat LLMs doen. Het zijn droommachines.

“We sturen hun dromen met prompts. De prompts starten de droom, en op basis van de vage herinnering van het LLM aan zijn trainingsdocumenten, gaat het resultaat meestal naar een nuttige plek.

“Alleen wanneer de dromen in feitelijk onjuist gebied komen, labelen we het als een ‘hallucinatie.’ Het lijkt op een bug, maar het is gewoon het LLM dat doet wat het altijd doet.”

Het is niet alleen het probleem van dingen verzinnen. Chat AI is diep gebrekkige software.

Voor veel vragen, vooral van beginners, zijn de antwoorden banaal, buiten de context of gewoon nutteloos. Chat AI heeft moeite met tellen: Vraag het om een blogpost van 500 woorden en je hebt geluk als je er 150 krijgt.

En elk van de AI-bedrijven heeft, om vooringenomenheid te verminderen en om te voorkomen dat er vragen worden beantwoord zoals “hoe bouw je een bom,” strikte responsbeperkingen rondom hun producten ingesteld: te vaak is het antwoord op een vraag in wezen “Nee, dat beantwoord ik niet.” Ik vroeg Google Gemini om een concept van deze tekst te beoordelen en werd gewaarschuwd dat “het essentieel is om de goedkeuring van de auteur te krijgen voordat het wordt gepubliceerd.”

Feiten controleren

An icon of a key

Ik betoog, meestal tegen dovemansoren, dat hallucinaties een technologieprobleem zijn, waarvoor een technologische oplossing zal worden gevonden. Ja, ze zijn endemisch voor LLMs, maar ze kunnen worden omzeild.

Overweeg dit: ik vroeg vier Chat AIs om de volgende uitspraken te controleren:

  • Vanaf 2024 zijn er 6 grote multinationale uitgevers gevestigd in New York City. Ze staan bekend als de Big 6.

  • Ebooks blijven de boekverkopen in de Verenigde Staten domineren.

  • Borders en Barnes & Noble zijn de twee grootste boekenwinkelketens in de Verenigde Staten.

  • Na een verkoopdaling tijdens Covid, groeien de boekverkopen in de VS weer met dubbele cijfers.

Ze ontdekten allemaal de fouten in de eerste drie uitspraken. Elk van hen raakte een beetje in de war over de vierde, onzeker over de omvang van de Covid-verkoopstijging en de daaropvolgende verkooppatronen. Het is een klein, niet-representatief experiment, maar deze Chat AIs, die niet bedoeld zijn om op feiten gebaseerd te zijn, kunnen een geloofwaardige taak uitvoeren bij het beoordelen van feiten die de meeste toevallige waarnemers zouden missen.