理解AI及一些关键术语

An icon of a key

AI伴随着大量的技术和术语,其中很多对除了数据科学家以外的人来说都是难以理解的。聊天AI的用户不需要深入了解AI术语或涉及的技术概念。系统的对话性质允许直观的互动而无需专门的背景知识来了解其工作原理。关注聊天AI实际能做什么更为重要。

在准备这本书时,我一直在努力思考,作为一本关于AI的书的作者,什么是‘负责任’的做法。传统的方法是提供对科学的简短解释和对常用术语的回顾。

我不会这么做。

我将在这里提供一些外部链接,指向我认为是一些相对易懂的AI基础知识简要描述。

AI的未来是什么样的?:麦肯锡公司(2024年4月)有一组很好的解释

同样,Gartner的生成式AI(未注明日期)也不错。

Futurepedia提供了一个不错的AI基础(2024年5月)的总结。

在处理完这些内容后,我现在要介绍一些我认为有价值理解的术语。并不是因为你需要知道这些术语才能使用软件。只是因为这组术语参考了当前这一代AI实际运作的一些关键方面。

我处理这些术语和概念的使用案例是那些(i)出于某种原因想更深入了解AI的作者和出版商,或(ii)想了解当前AI批评背景的人,或(iii)希望为其同事或组织应该如何应对AI的战略讨论做出贡献的人。

换句话说,这不是你需要知道的内容,而是你可能想知道的内容。以下是一些非字母顺序排列的信息:

提示和提示操作

你可以打开聊天AI软件,然后像在谷歌上那样输入一个问题。

大型语言模型 (LLM)

大型语言模型通过分析大量(主要是)书面材料来工作,使它们能够预测对话或写作中下一步应该出现的单词或句子。它们并不以人类的方式“理解”语言,而是通过将文本分解成更小的部分(称为标记),然后将这些标记转换成数字来处理文本。它们将文本作为数字处理,然后生成更多的数字,这些数字再被转换回文本。这是对为什么聊天AI不“包含”受版权保护的作品的过度简化解释:它是由代表底层文本的广泛抽象的数字构建的。

LLM是通过学习语言的典型使用方式来训练的,然后基于这种理解生成响应。我们往往低估了大多数语言的可预测性。聊天AI可以生成与现有文学作品(有时令人震惊地)相似的文本,但从设计上讲,它没有能力检索特定的摘录或复制受版权保护的文本。(我知道,许多人听说过纽约时报对OpenAI的诉讼——时报能够让ChatGPT逐字逐句地复述之前发表的文章的一些部分。)

生成式人工智能

理解这个术语最重要的是“生成”部分。生成式人工智能生成新的文本。

生成式预训练变换模型 (GPT)

这是这里术语中最专业的一个,描述了由OpenAI开发的一种特定类型的LLM。“生成”表示它生成文本的能力,“预训练”表示它已经在大量文本数据上进行了训练,而“变换”指的是它使用的软件。知道GPT代表什么仅仅是为了让你理解ChatGPT中的GPT代表什么。

ChatGPT

ChatGPT是你看到的软件;GPT是其背后的技术。用户体验的是ChatGPT,而不是背后的GPT。如上所述,ChatGPT只是几种在线聊天AI软件系统之一,具有类似的功能。

你还会经常遇到的另一个对许多人来说不熟悉的术语是:

语料库

词典对语料库的定义是“一组书面文本”(尽管实际上并不总是文本)。这个术语用于指GPT训练的内容:大量(主要是)文本的语料库。据说最大规模的语料库包含数千亿个单词。对于普通人来说,这是难以理解的。你不觉得维基百科很庞大,包含大量的单词吗?好吧,维基百科只有约45亿个单词——而GPT-4的训练数据远超过一万亿个单词。

我认为考虑这个规模是重要的。作者们可以理解地担心他们书中的7.5万个单词可能被吸入大型语言模型。也许确实如此(详见下文)。但即使是这种情况,考虑一下今天的大型语言模型中任何一本书有多么微不足道的价值。这真的微不足道。超过微不足道。即使是一万本书也是微不足道的。