幻覺:軟肋

An icon of a key

基於大語言模型的AI會虛構東西。它就是會這樣。這通常被稱為「幻覺」。這是一個真正的問題,一個嚴重的問題。如果你要與AI一起工作,你需要理解幻覺。

劍橋詞典 2023 年度詞彙是 “Hallucinate”(幻覺),其定義已擴展為「當人工智慧……產生幻覺時,它會產生虛假信息。」(2023 年詞典的其他新增詞包括 “prompt engineering”(提示工程)、“large language model”(大型語言模型)和 “GenAI”(生成式AI))

劍橋詞典指出,AI 幻覺「有時看起來是無意義的。但它們也可能看起來完全合理——即使在事實上不準確或最終不合邏輯。」這很遺憾,但事實確實如此,截至 2024 年 7 月,這仍然是使用生成式 AI 完成關鍵任務的一個顯著限制。這是 AI 的幾個大奇異現象之一,人們需要一段時間才能理解。記住,生成式 AI 主要是一個下一個詞的預測引擎,而不是一個事實數據庫。因此,需要 HITLs(人在循環中),如我們現在所知,來雙重檢查 AI 的輸出。再者,能夠從一種能夠產生可證明不準確輸出的技術中獲得如此非凡的價值,這真是令人驚奇。事情就是這樣。

Gary Marcus,一位有經驗且資訊豐富的 AI 批評家,將 AI 幻覺比作壞掉的鐘錶,壞掉的鐘錶一天會對兩次。他說:「它有時是對的,但你不知道是哪部分時間對的,這大大減少了其價值。」

Ethan Mollick,Publishers Weekly 2023 年 9 月會議的主講人指出,人們使用 AI 時期望 100% 的準確性。他說,幻覺類似於我們每天容忍的「人類錯誤率」。

Andrej Karpathy,一位專門研究 AI 的著名科學家,目前在 OpenAI 工作,他撰寫了關於幻覺的文章:

「當我被問到 LLM 的『幻覺問題』時,我總是有些困惑。因為從某種意義上說,幻覺是 LLM 所做的一切。它們是夢想機器。

「我們用提示來引導他們的夢想。提示開始了夢想,根據 LLM 對其訓練文件的模糊記憶,大多數情況下,結果會有用。

「只有當夢想進入被認為事實上不正確的領域時,我們才標記它為『幻覺』。它看起來像是一個錯誤,但這只是 LLM 在做它一直在做的事情。」

這不僅僅是編造東西的問題。聊天 AI 是一個有深深缺陷的軟體。

對於許多查詢,尤其是新手的查詢,回應是平淡無奇的、不對題或根本無幫助。聊天 AI 在計數方面也有問題:要求它寫一篇 500 字的博客文章,你很幸運能得到 150 字。

每家 AI 公司,為了減少偏見並避免回答「如何製造炸彈」之類的查詢,都在其產品周圍設置了嚴格的回應護欄:很多時候,對問題的回應基本上是「不,我不會回答這個問題。」我請 Google Gemini 審查這篇文章的草稿,並被警告「發布前獲得作者的批准是至關重要的。」

事實核查

An icon of a key

我主張,儘管大多數人不聽,幻覺是一個技術問題,會找到技術解決方案。是的,它們是 LLM 的特有問題,但可以被規避。

考慮這一點:我請四個聊天 AI 來核查以下聲明的事實:

  • 截至 2024 年,有 6 家總部位於紐約市的大型跨國出版商。它們被稱為 Big 6。

  • 電子書繼續主導美國的圖書銷售。

  • Borders 和 Barnes & Noble 是美國兩大連鎖書店。

  • 在 Covid 期間銷售下降後,美國圖書銷售再次以兩位數增長。

它們都發現了前三個聲明中的錯誤。每個都對第四個聲明有些困惑,不確定 Covid 銷售激增的程度及隨後的銷售模式。這是一個小而不具代表性的實驗,但這些聊天 AI,儘管不應該是基於事實的,能夠在評估事實方面做出一般觀察者會忽視的可信工作。