幻觉：一个棘手的问题

基于大语言模型的AI会编造东西。这是事实。这通常被称为“幻觉”。这是一个真实的问题，也是一个严重的问题。如果你要使用AI，你需要理解幻觉现象。

剑桥词典2023年度词汇是“Hallucinate”（幻觉），其定义已扩展为“当人工智能……产生幻觉时，它会生成虚假信息。”（2023年词典的其他新增词汇包括“prompt engineering”（提示工程）、“large language model”（大型语言模型）和“GenAI”（生成式人工智能）。）

剑桥指出，AI幻觉“有时显得荒谬。但它们也可能看起来完全合理——即使在事实上一无是处或最终不合逻辑。”遗憾的是，这确实如此，截至2024年7月，这仍然是将生成式AI用于关键任务的显著限制之一。这是AI的几个重大奇特之处之一，人们需要一段时间才能理解。记住，生成式AI主要是一个下一个词预测引擎，而不是一个事实数据库。因此，我们这些“人类在环”（HITLs）需要对AI输出进行双重检查。再说一次，令人惊讶的是，我们可以从一种可能生成有错误输出的技术中获得如此巨大的价值。就是这样。

Gary Marcus，一位经验丰富且见多识广的AI批评家，将AI幻觉比作坏掉的手表，它们一天能对两次。“它有时是对的，”他说，“但你不知道是哪一部分时间对的，这大大降低了它的价值。”

Ethan Mollick，2023年9月Publishers Weekly大会的主题演讲者指出，使用AI的人期望100%的准确性。他说，幻觉类似于我们每天容忍的“人类错误率”。

Andrej Karpathy，一位专注于AI的著名科学家，目前在OpenAI工作，他写到关于幻觉的问题：

“每当被问到LLMs的‘幻觉问题’时，我总是有些挣扎。因为在某种意义上，幻觉是LLMs的全部。它们是梦想机器。

“我们用提示来引导它们的梦。提示开始了梦境，并且根据LLM对其训练文档模糊的记忆，大多数情况下结果会有用。

“只有当梦进入被认为是事实错误的领域时，我们才称其为‘幻觉’。它看起来像是一个bug，但其实只是LLM在做它一直在做的事情。”

问题不仅仅是凭空捏造。聊天AI是一个有深刻缺陷的软件。

对于许多查询，特别是来自新手的查询，回答往往平淡无奇、不切题或根本无益。聊天AI在计数方面有困难：让它写一篇500字的博客文章，你很幸运能得到150字。

而且每个AI公司为了减少偏见并避免回答“如何制造炸弹”的查询，都在他们的产品周围建立了严格的响应护栏：经常情况下，问题的回答基本上是“不，我不会回答这个问题”。我让Google Gemini审查这篇文章的草稿，它警告我“在发布前必须获得作者的批准”。

事实核查

我争辩道（基本上是对牛弹琴），幻觉是一个技术问题，会有一个技术解决方案。是的，它们是LLMs的固有问题，但它们可以被规避。

考虑一下：我让四个聊天AI核查以下陈述的事实：

截至2024年，纽约市有6家大型跨国出版商。它们被称为“大六”。
电子书继续主导美国的图书销售。
Borders和Barnes & Noble是美国最大的两家书店连锁。
在新冠疫情期间销售下滑后，美国的图书销售再次以两位数增长。

它们都发现了前三个陈述中的错误。它们在第四个陈述上有些困惑，不确定新冠疫情销售激增的程度以及随后的销售模式。这是一个微小的、非代表性的实验，但这些聊天AI，它们不是为了基于事实，而是可以在评估大多数普通观察者会忽略的事实方面做得相当不错。

Up next

图片和视频呢？