幻觉:一个棘手的问题

An icon of a key

基于大语言模型的AI会编造东西。这是事实。这通常被称为“幻觉”。这是一个真实的问题,也是一个严重的问题。如果你要使用AI,你需要理解幻觉现象。

剑桥词典2023年度词汇是“Hallucinate”(幻觉),其定义已扩展为“当人工智能……产生幻觉时,它会生成虚假信息。”(2023年词典的其他新增词汇包括“prompt engineering”(提示工程)、“large language model”(大型语言模型)和“GenAI”(生成式人工智能)。)

剑桥指出,AI幻觉“有时显得荒谬。但它们也可能看起来完全合理——即使在事实上一无是处或最终不合逻辑。”遗憾的是,这确实如此,截至2024年7月,这仍然是将生成式AI用于关键任务的显著限制之一。这是AI的几个重大奇特之处之一,人们需要一段时间才能理解。记住,生成式AI主要是一个下一个词预测引擎,而不是一个事实数据库。因此,我们这些“人类在环”(HITLs)需要对AI输出进行双重检查。再说一次,令人惊讶的是,我们可以从一种可能生成有错误输出的技术中获得如此巨大的价值。就是这样。

Gary Marcus,一位经验丰富且见多识广的AI批评家,将AI幻觉比作坏掉的手表,它们一天能对两次。“它有时是对的,”他说,“但你不知道是哪一部分时间对的,这大大降低了它的价值。”

Ethan Mollick,2023年9月Publishers Weekly大会的主题演讲者指出,使用AI的人期望100%的准确性。他说,幻觉类似于我们每天容忍的“人类错误率”。

Andrej Karpathy,一位专注于AI的著名科学家,目前在OpenAI工作,他写到关于幻觉的问题:

“每当被问到LLMs的‘幻觉问题’时,我总是有些挣扎。因为在某种意义上,幻觉是LLMs的全部。它们是梦想机器。

“我们用提示来引导它们的梦。提示开始了梦境,并且根据LLM对其训练文档模糊的记忆,大多数情况下结果会有用。

“只有当梦进入被认为是事实错误的领域时,我们才称其为‘幻觉’。它看起来像是一个bug,但其实只是LLM在做它一直在做的事情。”

问题不仅仅是凭空捏造。聊天AI是一个有深刻缺陷的软件。

对于许多查询,特别是来自新手的查询,回答往往平淡无奇、不切题或根本无益。聊天AI在计数方面有困难:让它写一篇500字的博客文章,你很幸运能得到150字。

而且每个AI公司为了减少偏见并避免回答“如何制造炸弹”的查询,都在他们的产品周围建立了严格的响应护栏:经常情况下,问题的回答基本上是“不,我不会回答这个问题”。我让Google Gemini审查这篇文章的草稿,它警告我“在发布前必须获得作者的批准”。

事实核查

An icon of a key

我争辩道(基本上是对牛弹琴),幻觉是一个技术问题,会有一个技术解决方案。是的,它们是LLMs的固有问题,但它们可以被规避。

考虑一下:我让四个聊天AI核查以下陈述的事实:

  • 截至2024年,纽约市有6家大型跨国出版商。它们被称为“大六”。
  • 电子书继续主导美国的图书销售。
  • Borders和Barnes & Noble是美国最大的两家书店连锁。
  • 在新冠疫情期间销售下滑后,美国的图书销售再次以两位数增长。

它们都发现了前三个陈述中的错误。它们在第四个陈述上有些困惑,不确定新冠疫情销售激增的程度以及随后的销售模式。这是一个微小的、非代表性的实验,但这些聊天AI,它们不是为了基于事实,而是可以在评估大多数普通观察者会忽略的事实方面做得相当不错。