了解人工智慧和一些關鍵術語

人工智慧帶來了大量的技術和術語，這些對於除了數據科學家以外的所有人來說都是不可理解的。聊天AI的用戶不需要深入了解人工智慧術語或涉及的技術概念。系統的對話性質允許用戶直觀地互動，而不需要專門的背景知識來了解其工作原理。專注於聊天AI實際能做什麼更為重要。

在準備這本書的過程中，作為一本關於人工智慧的書的作者，我一直在掙扎什麼是“負責任”的做法。傳統的方法是提供一個簡短的科學解釋和常用術語的回顧。

我不打算這麼做。

我將在這裡提供一些外部鏈接，這些鏈接是我認為相對易懂的人工智慧基礎知識的簡短描述。

人工智慧的未來是什麼？: 麥肯錫公司（2024年4月）有一組不錯的解釋。

同樣地，Gartner的生成性AI（未註明日期）也不錯。

Futurepedia提供了一個不錯的人工智慧基礎（2024年5月）摘要。

解決了如何做之後，我現在要介紹一些我認為值得了解的術語。不是因為你需要知道它們才能使用軟體。而是因為這組術語涉及當前一代人工智慧實際運作的一些關鍵方面。

我處理這些術語和概念的使用案例是針對那些（i）無論出於何種原因想要更深入了解人工智慧的作者和出版商，或（ii）想要了解當前對人工智慧的批評背景，或（iii）想要參與討論他們的同事或組織應如何對待人工智慧的戰略討論。

換句話說，這不是你需要知道的，而是你可能想知道的。以下是一些非按字母順序排列的內容：

提示和提示技術

你可以打開 Chat AI 軟體，直接輸入問題，就像你目前在 Google 上做的那樣。

大型語言模型 (LLM)

大型語言模型通過分析大量（主要是書面）材料來工作，這使它們能夠預測下一個詞或句子在對話或書寫中的出現。它們並不像人類那樣“理解”語言，而是通過將文本分解為較小的部分（稱為令牌），然後將令牌轉換為數字來處理文本。它們以數字形式處理文本，並回吐更多數字，然後在輸出時將這些數字轉換回文本。這是一個過於簡化的解釋，說明了為什麼 Chat AI 不會“包含”受版權保護的作品：它是用表示底層文本的數字構建的。

LLM 被訓練如何典型地使用語言，然後基於這種理解生成回應。我們往往低估了大多數語言的可預測性。Chat AI 可以生成與現有文獻（有時令人震驚地）相似的文本，但根據設計，它不具備檢索特定摘錄或複製受版權保護文本的能力。（我知道，許多人都聽說過 紐約時報 對 OpenAI 的訴訟——時報能夠讓 ChatGPT 原樣吐出先前發表文章的部分內容。）

生成式人工智慧

理解這個術語最重要的是“生成”部分。生成式人工智慧生成新的文本。

生成式預訓練轉換器 (GPT)

這是這裡最技術性的術語，描述了由 OpenAI 開發的一種特定類型的 LLM。“生成”意味著它創建文本的能力，“預訓練”表示它已經在大量文本數據上進行了訓練，“轉換器”指的是它使用的軟體。理解 GPT 代表什麼是有幫助的，這樣你就明白 ChatGPT 中的 GPT 代表什麼。

ChatGPT

ChatGPT 是你看到的軟體；GPT 是軟體背後的技術。用戶體驗到的是 ChatGPT，而不是背後的 GPT。如上所述，ChatGPT 只是幾個具有類似功能的 Chat AI 在線軟體系統之一。

你將經常遇到的另一個術語是：

語料庫

字典對語料庫的定義是“書面文本的集合”（儘管實際上，它並不總是文本）。該術語用於指 GPTs 的訓練材料：大量的（主要是）文本語料庫。我們被告知最大的語料庫包含數千億個單詞。對於普通人來說，這是無法理解的。你不認為維基百科已經很龐大，包含大量的單詞嗎？嗯，維基百科中只有 45 億個單詞——而 GPT-4 的訓練數據遠遠超過一萬億個單詞。

我認為這種規模值得考慮。作者們可以理解地擔心他們書中大約 75,000 個單詞可能已經被吸收到大型語言模型中。也許他們的擔心是正確的（下面會有更多介紹）。但假設這是事實，請考慮任何一本書對當今大型語言模型的總體能力有多麼微不足道。真的微乎其微。即使是 10,000 本書也是九牛一毛。

Up next

AI 軟體：系統重量級選手