Halucinace: Moucha v masti

An icon of a key

AI, založená na velkých jazykových modelech, si vymýšlí věci. Prostě to dělá. Obecně se tomu říká “halucinace.” Je to skutečný problém, vážný problém. Musíte pochopit halucinace, pokud chcete pracovat s AI.

Cambridge Dictionary’s Word of the Year for 2023 was “Hallucinate,” whose definition has been expanded to include “When an artificial intelligence… hallucinates, it produces false information.” (Other additions to the 2023 dictionary include “prompt engineering,” “large language model,” and “GenAI.”)

AI halucinace, Cambridge poznamenává, “někdy vypadají nesmyslně. Ale mohou se také zdát zcela věrohodné–i když jsou fakticky nepřesné nebo nakonec nelogické.” To je bohužel pravda, a k červenci 2024 zůstává dramatickým omezením používání generativní AI pro úkoly kritické pro mise. Je to jedna z několika velkých zvláštností AI, a lidem chvíli trvá, než to pochopí. Pamatujte, generativní AI je převážně stroj na předpovědi dalších slov, nikoli databáze faktů. Proto je potřeba HITLs, lidí v procesu, jak jsme nyní známi, kteří dvakrát kontrolují výstupy AI. A znovu, je pozoruhodné, že můžeme získat tak mimořádnou hodnotu z technologie, která může produkovat prokazatelně nepřesné výstupy. Tak to chodí.

Gary Marcus, zkušený a dobře informovaný kritik AI, přirovnává AI halucinace k rozbitým hodinkám, které jsou správné dvakrát denně. “Je to správné někdy,” říká, “ale nevíte, kdy přesně, a to výrazně snižuje jeho hodnotu.”

Ethan Mollick, hlavní řečník na konferenci Publishers Weekly v září 2023, poznamenává, že lidé používající AI očekávají 100% přesnost. Halucinace, říká, jsou podobné “míře chybovosti lidí,” kterou denně tolerujeme.

Andrej Karpathy, známý vědec specializující se na AI, který v současnosti pracuje v OpenAI, píše o halucinacích:

“Vždycky mám trochu problém, když jsem dotázán na problém ‘halucinace’ ve velkých jazykových modelech. Protože, v jistém smyslu, halucinace je vše, co velké jazykové modely dělají. Jsou to stroje na sny.

“Řídíme jejich sny s prompty. Prompty začínají sen, a na základě nejasné vzpomínky velkého jazykového modelu na tréninkové dokumenty, výsledek většinou někam užitečně směřuje.

“Je to jen tehdy, když sny směřují do fakticky nesprávného území, že to označujeme jako ‘halucinaci.’ Vypadá to jako chyba, ale je to jen velký jazykový model, který dělá to, co vždy dělá.”

Není to jen problém vymýšlení věcí. Chat AI je hluboce vadný software.

U mnoha dotazů, zejména od nováčků, jsou odpovědi všední, mimo téma nebo prostě neúčinné. Chat AI má problémy se sčítáním: Požádejte ho o 500 slovní blogový příspěvek a budete mít štěstí, když dostanete 150.

A každá z AI společností, aby snížila zkreslení a aby se vyhnula odpovědím na dotazy typu “jak postavit bombu,” vybudovala kolem svých produktů přísné ochranné zábrany: příliš často je odpověď na otázku v podstatě “Ne, na to nebudu odpovídat.” Požádal jsem Google Gemini, aby zkontroloval návrh tohoto textu a bylo mi upozorněno, že “je nezbytné získat souhlas autora před publikováním.”

Ověřování faktů

An icon of a key

Tvrdím, většinou na hluché uši, že halucinace jsou technologický problém, který najde technologické řešení. Ano, jsou endemické pro velké jazykové modely, ale mohou být obejity.

Zvažte toto: Požádal jsem čtyři Chat AI o ověření následujících tvrzení:

  • K roku 2024 je v New York City 6 velkých nadnárodních vydavatelů. Jsou známí jako Velká šestka.

  • E-knihy nadále dominují prodejům knih ve Spojených státech.

  • Borders a Barnes & Noble jsou dva největší řetězce knihkupectví ve Spojených státech.

  • Po poklesu prodeje během Covidu se prodeje knih v USA opět zvyšují dvojcifernými čísly.

Všichni z nich odhalili chyby v prvních třech tvrzeních. Každý z nich se trochu zmátl u čtvrtého, nejistý ohledně rozsahu prodejního nárůstu během Covidu a následných prodejních trendů. Je to malý, nereprezentativní experiment, ale tyto Chat AI, které nejsou určeny k tomu, aby byly založeny na faktech, mohou dělat věrohodnou práci v hodnocení faktů, které by většina běžných pozorovatelů přehlédla.