Галюцинації: Муха в мазі

An icon of a key

AI, заснований на великих мовних моделях, вигадує речі. Просто робить. Це загалом називається “галюцинації”. Це реальна проблема, серйозна проблема. Ви повинні розуміти галюцинації, якщо збираєтеся працювати з AI.

Cambridge Dictionary’s Word of the Year for 2023 was “Hallucinate,” whose definition has been expanded to include “When an artificial intelligence… hallucinates, it produces false information.” (Other additions to the 2023 dictionary include “prompt engineering,” “large language model,” and “GenAI.”)

AI hallucinations, Cambridge notes, “sometimes appear nonsensical. But they can also seem entirely plausible–even while being factually inaccurate or ultimately illogical.” This, sadly, is quite true, and as of July 2024 remains a dramatic limitation for using generative AI for mission-critical tasks. It’s one of the several great oddities of AI, and it takes people a while to get their heads around it. Remember, generative AI is mostly a next word prediction engine, not a database of facts. Hence the need for HITLs, Humans-In-The-Loop, as we’re now known, double-checking AI output. And again, it’s remarkable that we can get such extraordinary value from a technology that can produce provably inaccurate output. So it goes.

Гері Маркус, досвідчений і добре поінформований критик ШІ, порівнює ілюзії ШІ з поламаними годинниками, які два рази на день показують правильний час. “Він правий деякий час,” каже він, “але ви не знаєте, в який саме час, і це значно зменшує його цінність.”

Ітан Моллік, головний доповідач на конференції Publishers Weekly у вересні 2023 року, зазначає, що люди, які використовують ШІ, очікують 100% точності. Ілюзії, каже він, схожі з “рівнем помилок у людей,” які ми щодня терпимо.

Андрей Карпати, відомий вчений, який спеціалізується на ШІ і зараз працює в OpenAI, пише про ілюзії:

“Я завжди трохи борюся, коли мене запитують про ‘проблему ілюзій’ у великих мовних моделях. Тому що, в певному сенсі, ілюзії – це все, що вони роблять. Вони – машини для снів.

“Ми спрямовуємо їхні сни за допомогою підказок. Підказки починають сон, і на основі туманного згадування тренувальних документів великої мовної моделі, більшість часу результат виходить корисним.

“Тільки коли сни переходять у фактично неправильну територію, ми позначаємо це як ‘ілюзію.’ Це виглядає як помилка, але це просто велика мовна модель робить те, що вона завжди робить.”

Це не лише проблема вигадування речей. Чат-ШІ – це глибоко недосконале програмне забезпечення.

Для багатьох запитів, особливо від новачків, відповіді є звичайними, неточними або просто непотрібними. Чат-ШІ має проблеми з рахуванням: попросіть його написати блог довжиною 500 слів, і вам пощастить, якщо отримаєте 150.

І кожна з компаній, що займається ШІ, щоб зменшити упередження і уникнути відповідей на запити типу “як зробити бомбу,” встановила жорсткі обмеження на свої продукти: занадто часто відповідь на запитання фактично звучить як “Ні, я не відповім на це.” Я запитав Google Gemini переглянути чернетку цього тексту і отримав попередження, що “важливо отримати схвалення автора перед публікацією.”

Перевірка фактів

An icon of a key

Я стверджую, здебільшого на глухі вуха, що ілюзії – це технологічна проблема, яка знайде технологічне рішення. Так, вони властиві великим мовним моделям, але їх можна обійти.

Розглянемо це: я попросив чотири чати ШІ перевірити наступні твердження:

  • Станом на 2024 рік, у Нью-Йорку базуються 6 великих міжнародних видавництв. Вони відомі як Велика шістка.

  • Електронні книги продовжують домінувати у продажах книг у Сполучених Штатах.

  • Borders і Barnes & Noble – дві найбільші мережі книжкових магазинів у Сполучених Штатах.

  • Після спаду продажів під час Covid, продажі книг у США знову зростають двозначними цифрами.

Усі вони виявили помилки в перших трьох твердженнях. Кожен з них трохи заплутався на четвертому, не бувши впевненим у ступені підвищення продажів під час Covid і подальших тенденціях продажів. Це маленький, нерепрезентативний експеримент, але ці чати ШІ, які не призначені для роботи з фактами, можуть робити достовірну перевірку фактів, яку більшість випадкових спостерігачів пропустить.