幻覚：軟膏の中のハエ

大規模言語モデルに基づくAIは、物事をでっち上げます。それはただそうするのです。これを一般的に「幻覚」と呼びます。これは実際の問題であり、深刻な問題です。AIと一緒に仕事をするなら、幻覚を理解する必要があります。

ケンブリッジ辞書の2023年の年間単語は「Hallucinate（幻覚）」で、その定義には「人工知能が幻覚を起こすと、それは虚偽の情報を生成する」という意味が加わりました。（2023年の辞書には他に「プロンプトエンジニアリング」、「大規模言語モデル」、そして「GenAI」も追加されました。）

ケンブリッジはAIの幻覚について「時には無意味に見えることもあるが、全くもってもっともらしく見えることもある - たとえ事実的に不正確であったり、最終的に非論理的であったりしても」と指摘しています。これは悲しいことに非常に真実であり、2024年7月時点でも、生成AIをミッションクリティカルなタスクに使用する際の大きな制限となっています。これはAIのいくつかの大きな奇妙さの一つであり、人々が理解するのに時間がかかります。覚えておいてください、生成AIは主に次の単語を予測するエンジンであり、事実のデータベースではないのです。したがって、HITL（人間が介在する）がAIの出力をダブルチェックする必要があります。そして再び、明らかに不正確な出力を生成する技術からこれほどの価値を引き出せることは驚くべきことです。そういうものです。

経験豊富で情報通なAI批評家であるGary Marcusは、AIの幻覚を壊れた時計に例えています。壊れた時計は一日に2回正しい。「それは一部の時間では正しい」と彼は言いますが、「どの部分が正しいのか分からないため、その価値が大いに減少するのです。」

2023年9月のPublishers Weekly会議の基調講演者であるEthan Mollickは、AIを使用する人々が100％の正確性を期待していると述べています。彼は、幻覚は「我々が日々許容している人間の誤りの率と似ている」と言います。

OpenAIで現在働いているAI専門家のAndrej Karpathyは、幻覚について次のように書いています：

「LLMの『幻覚問題』について尋ねられるとき、いつも少し苦労します。ある意味で、幻覚はLLMがするすべてのことだからです。彼らは夢の機械です。

「我々はプロンプトで彼らの夢を導きます。プロンプトが夢を始め、そのLLMのぼんやりとした訓練文書の記憶に基づいて、大部分の時間は有益な場所に到達します。

「夢が事実的に不正確とされる領域に入ると、それを『幻覚』と呼びます。それはバグのように見えますが、それはただLLMが常にしていることをしているだけです。」

それは単に物事をでっち上げる問題だけではありません。チャットAIは深刻な欠陥のあるソフトウェアです。

特に初心者からの多くの質問に対して、応答は平凡で、的外れで、単に役に立たないことがあります。チャットAIは数を数えるのが苦手です：500ワードのブログ記事を頼むと、150ワードしかもらえないことがほとんどです。

また、各AI企業はバイアスを減らし、「爆弾の作り方」の質問に答えないようにするために、その製品に厳しい応答ガードレールを設けています：質問に対する答えが「いいえ、それには答えません」というのが実質的にすべての答えになることがあまりにも多いです。私はGoogle Geminiにこのテキストのドラフトをレビューするよう依頼しましたが、「公開前に著者の承認を得ることが重要です」と注意されました。

ファクトチェック

私は、ほとんどの人が耳を傾けないが、幻覚は技術的な問題であり、それに対する技術的な解決策が見つかると主張している。確かに、これらはLLMにとって特有の問題だが、回避することは可能だ。

次のように考えてみてください。私は4つのチャットAIに以下の声明をファクトチェックするよう依頼しました：

2024年現在、ニューヨーク市に拠点を置く6つの大手多国籍出版社があり、これらはビッグ6として知られている。
電子書籍は引き続きアメリカ合衆国における書籍販売を支配している。
BordersとBarnes & Nobleはアメリカ合衆国で最大の書店チェーンである。
Covidの間に売上が減少した後、アメリカの書籍売上は再び二桁成長している。

全てのAIが最初の3つの声明の誤りを見抜きました。4つ目の声明については、Covidの売上増加の程度やその後の売上パターンについて少し混乱していました。これは小さな、非代表的な実験ですが、これらのチャットAIは、事実に基づくものでないにもかかわらず、ほとんどのカジュアルな観察者が見逃すような事実を評価する上で信頼できる仕事を行うことができます。

Up next

画像やビデオについてはどうですか？