Halucynacje: Mucha w Maści
![]() |
AI, oparta na dużych modelach językowych, wymyśla rzeczy. Po prostu to robi. Ogólnie nazywa się to “halucynacjami.” To prawdziwy problem, poważny problem. Musisz zrozumieć halucynacje, jeśli zamierzasz pracować z AI. |
Słowo Roku 2023 według Cambridge Dictionary to “Halucynować,” którego definicja została rozszerzona o “Kiedy sztuczna inteligencja… halucynuje, wytwarza fałszywe informacje.” (Inne dodatki do słownika 2023 to “inżynieria promptów,” “duży model językowy” i “GenAI.”)
Cambridge zauważa, że halucynacje AI “czasami wydają się nonsensowne. Ale mogą również wydawać się całkowicie wiarygodne - nawet gdy są faktycznie nieścisłe lub ostatecznie nielogiczne.” To, niestety, jest prawdą i od lipca 2024 pozostaje dramatycznym ograniczeniem w używaniu generatywnej AI do zadań o znaczeniu krytycznym. Jest to jedna z kilku wielkich dziwactw AI i zajmuje trochę czasu, aby się do niej przyzwyczaić. Pamiętaj, generatywna AI to głównie silnik przewidywania kolejnych słów, a nie baza danych faktów. Stąd potrzeba HITL, Ludzi-W-Pętli, jak jesteśmy teraz znani, którzy sprawdzają wyniki AI. I ponownie, niezwykłe jest to, że możemy uzyskać tak niezwykłą wartość z technologii, która może wytwarzać sprawdzalnie nieścisłe wyniki. Tak to bywa.
Gary Marcus, doświadczony i dobrze poinformowany krytyk AI, porównuje halucynacje AI do zepsutych zegarów, które są prawidłowe dwa razy dziennie. “Czasami jest to prawidłowe,” mówi, “ale nie wiesz, która część czasu, co znacznie zmniejsza jego wartość.”
Ethan Mollick, główny mówca na konferencji Publishers Weekly we wrześniu 2023, zauważa, że ludzie używający AI oczekują 100% dokładności. Halucynacje, jak mówi, są podobne do “ludzkich wskaźników błędów,” które tolerujemy na co dzień.
Andrej Karpathy, znany naukowiec specjalizujący się w AI, który obecnie pracuje w OpenAI, pisze o halucynacjach:
“Zawsze trochę się zmagam, gdy jestem pytany o ‘problem halucynacji’ w dużych modelach językowych. Bo w pewnym sensie, halucynacja to wszystko, co robią LLM. To maszyny snów.
“Kierujemy ich sny za pomocą promptów. Prompty rozpoczynają sen, a na podstawie zamglonych wspomnień LLM z dokumentów szkoleniowych, większość czasu wynik idzie w użyteczne miejsce.
“Tylko gdy sny wchodzą w obszar uznany za faktycznie niepoprawny, nazywamy to ‘halucynacją.’ Wygląda to jak błąd, ale to po prostu LLM robi to, co zawsze robi.”
To nie tylko problem z wymyślaniem rzeczy. Chat SI to głęboko wadliwe oprogramowanie.
W przypadku wielu zapytań, szczególnie od nowicjuszy, odpowiedzi są banalne, nietrafione lub po prostu niepomocne. Chat SI ma problem z liczeniem: poprosisz go o 500-słowny wpis na bloga, a będziesz mieć szczęście, jeśli dostaniesz 150 słów.
I każda z firm SI, aby zmniejszyć uprzedzenia i unikać odpowiadania na pytania typu „jak zbudować bombę”, wprowadziła ścisłe zabezpieczenia odpowiedzi w swoich produktach: zbyt często odpowiedź na pytanie brzmi zasadniczo: „Nie, nie odpowiem na to.” Poprosiłem Google Gemini o przejrzenie projektu tego tekstu i zostałem ostrzeżony, że „ważne jest uzyskanie zgody autora przed publikacją.”
Sprawdzanie faktów
![]() |
Twierdzę, głównie bez odzewu, że halucynacje są problemem technologicznym, który znajdzie rozwiązanie technologiczne. Tak, są one endemiczne dla LLM, ale można je obejść. |
Rozważ to: poprosiłem cztery Chat SI o sprawdzenie faktów w następujących stwierdzeniach:
Na rok 2024 w Nowym Jorku znajduje się 6 dużych międzynarodowych wydawnictw. Są one znane jako Wielka Szóstka.
Ebooki nadal dominują w sprzedaży książek w Stanach Zjednoczonych.
Borders i Barnes & Noble to dwie największe sieci księgarskie w Stanach Zjednoczonych.
Po spadku sprzedaży podczas Covid, sprzedaż książek w USA ponownie rośnie dwucyfrowo.
Wszystkie wykryły błędy w pierwszych trzech stwierdzeniach. Każdy z nich trochę się zagubił przy czwartym, niepewny jakiego był wzrost sprzedaży podczas Covid i jakie były późniejsze wzorce sprzedaży. To mały, niereprezentatywny eksperyment, ale te Chat SI, które nie są przeznaczone do opierania się na faktach, mogą wykonać wiarygodną ocenę faktów, których większość przypadkowych obserwatorów by nie zauważyła.
