目录
- 介绍
- 为什么现在是人工智能?
- 人工智能:入门
- 人工智能:简史
- 理解AI及一些关键术语
- AI软件:系统重量级选手
- 使用AI软件
- 聊天AI的培训
- 幻觉:一个棘手的问题
- 图片和视频呢?
- 面向图书出版商的软件
- 人工智能与图书出版:行业目前在做什么?
- 人工智能与图书出版:出版公司在做什么?
- AI与图书出版:使用案例
- 将 AI 整合到出版运营中的策略
- AI有声书制作
- 图书翻译中的AI
- AI在学术出版中的应用
- AI对作者的影响
- 关于AI的关注和风险
- 创造力可以是陈词滥调
- 另一个想法
- 出版业之外的好东西
- 文章:人工智能对图书出版业的影响
- 结论
- 单一资源
- 旁注:撰写本书的资格
- 附录:探索传统出版的剩余优势
- 赞助商
介绍
“下一次革命将让我们所有人措手不及,就像以往一样。换句话说,如果大众预见到了革命,那它就不能称之为革命。” —Doc Searls, 2002
自从OpenAI向大多数不熟悉人工智能的公众推出ChatGPT以来,已经一年半多了。最初,它似乎与图书出版没有明显的关联。从那时起,一切都变了。而又似乎什么都没变。出版商们开始涉足新的AI工具,探索其边界,并与ChatGPT进行初步对话。但在出版实践中还没有出现真正的革命迹象;现在还为时尚早。
关于AI在写作和出版中的应用存在大量的不确定性。围绕AI的使用存在重大争议。尽管如此,许多人对其可能性充满了兴奋。
在这里,我将更多地关注承诺而非危险,但我会概述围绕AI的担忧和风险,特别是它们对作者和出版商的影响。我并不打算轻视这些担忧。它们只是本书的主题。
它是一本书吗?
我认为这本出版物更像是一本“小册子”而非一本书。联合国教科文组织定义一本书为“至少49页”(为什么不是50页?),而按照每页300字计算,这本书可能不符合要求。但更重要的是,它并不打算成为任何事物的最终定论——它更像是一份进度报告。人工智能及其在图书出版中的作用正以惊人的速度变化,这种速度没有放缓的迹象。所以这本书(小册子),这份报告,只是一个快照。
通过使用Leanpub平台,我一直在将我的研究和分析作为进行中的工作发布——它作为一个活文档被不断修订。我以前从未尝试过这样做。我的理由有两个:提供一些短期有用的东西,并具备根据需要进行修订的能力。AI的故事还远未结束。
我希望我的方法对读者有用,尽管我知道太多的更新很快就会变得令人讨厌。我试图减少这本书的时效性,减少对那些变化最快的内容的关注。
自2024年4月以来,已经悄悄发布的版本我标记为“完成75%”,并免费提供给读者。2023年7月23日是“100%完成”版本的官方出版日期,该版本还将进入Leanpub以外的更大范围发行。我会继续更新100%版本:但这些更新仅对Leanpub的购买者可用——不断更新印刷版、电子书和有声书在更广泛的发行中是不切实际的。
出版商在AI中的痛点
我每天都听到出版行业的人们在尝试理解AI时所面临的痛苦。为什么这么痛苦?我看到有三个原因:
这项技术复杂而神秘,太复杂了,非科学家难以理解。(有一项有趣的研究 提出了一个“AI焦虑量表(AIAS)”,衡量了人们对AI焦虑的21个不同原因。)
AI在出版业中变得极具争议,主要是因为版权问题,这些问题击中了创作和出版的核心。
但同时也存在一种FOMO(错失恐惧症)的氛围。尽管AI有很多缺陷,但就像许多诱人的技术(苹果手表?智能音箱?)一样,我们面临着那种令人不安的感觉:如果我错过了下一个真正的大事件,就像我错过了几个上一个真正的大事件一样。我当时觉得自己很愚蠢;我不想再觉得自己愚蠢了。这很痛苦。
好吧:出版业的人感到AI的痛苦是有道理的。
那么这本书的用例是什么?
用例是你在图书出版业工作,或者你是一位试图更好地理解图书出版的作者,并且你厌倦了在AI方面感到愚蠢和困惑。太多的同事似乎比你更了解它,你厌倦了无法在这个话题上进行智能对话。
我希望读者通过阅读这本书,到最后能够参与到对话中,表达一个有见地的观点。我希望你能够做出关于这项技术的个人选择,并有一条学习如何使用AI的路径,如果你选择这样做的话。
我不想用大量关于AI技术基础的废话淹没读者——我不打算抽象地谈论太多AI。相反,我想为你提供专门针对书籍作者和出版的AI基础。如果有人问你,自然语言处理真正意味着什么,你可以像我一样回答:我不是AI专家。但我知道AI在我的行业中是如何使用的。
这会是你需要知道的内容吗?
我不喜欢“你需要知道的内容”这个短语,因为它很少能符合其宣传,往往偏离目标,要么远远超过你需要知道的,要么远远不够。我能做对吗?我认真地尝试传达最少的信息。我认为我知道出版商需要了解的关于AI的内容,因为我一直在与许多出版商交谈,同时主持专门设计的研讨会和网络研讨会,以提供最基本的内容。
与其无休止地重复“你需要知道的内容”这个短语,我会使用一个带有缩进文本的钥匙图标。 |
在介绍许多章节的总结之后,我将扩展主要概念。然而,我尽量保持这些内容尽可能简短,虽然,说实话,有时我确实会多说几句。
我要使用的一个简写形式是“聊天AI”。当OpenAI首次发布ChatGPT时,它是唯一的,但现在有几个重要的竞争对手。我会很快具体介绍,但你已经听说过其中一些,显然是Google和Microsoft。他们(以及其他几家公司)现在提供类似于ChatGPT的在线AI聊天软件。因此,与其说“ChatGPT及其竞争对手”,我将整个类别称为“聊天AI”。如果我写“ChatGPT”,我指的是OpenAI的软件。
这本书主要是实用性的,但在最后一部分,我提出了一篇关于AI对图书出版业可能产生的现实世界影响的文章,以及其他一些猜测性的思考。
这本书是为谁写的?
这本书的主要读者是贸易(消费)图书出版商。次要读者是所有其他图书出版商(学术、教育…),在这些行业领域有重叠的情况下。我的第三个读者群体是有兴趣的作者,以及许多对图书出版感兴趣的人。
副标题说明这是一本为作家和出版商提供的AI指南。部分原因是我希望出版商也了解作家在使用这项技术做什么。我认为这很重要。在最近的年度会议上,BISG(图书行业研究小组),主要代表贸易出版商,表示“它希望从更广泛的群体中吸取,包括文学代理人和作者。” 这是一个受欢迎的举动。
我希望作家们阅读这本书,因为它可以帮助他们了解出版商如何处理他们的手稿。自出版的作者总是关注传统出版,部分原因是他们实际上也是出版商,因此出版商感兴趣的AI技术也可能引起他们的兴趣。
但请不要误会,这不是一本关于如何使用AI成为更好更高效作家的实用指南。有很多关于这个话题的书(遗憾的是,其中许多只是亚马逊的骗局)。还有很多YouTube视频(质量参差不齐)。
在贸易图书出版中,我的理想读者不一定是决策者,而是每天在行业中工作、创造书籍和寻找读者的许多人。我将在这本书中讨论所有关键的出版功能,从编辑到销售和分销。以及作者与读者的交集。
虽然我在加拿大长大,并在那里开始了我的出版生涯,但我现在住在美国旧金山,所以我默认考虑美国的出版业。但这本小册子的内容对马达加斯加的出版商和曼哈顿的出版商应该同样相关。虽然小国家的出版商面临规模挑战,美国的小出版商也面临同样的挑战,这本书适用于所有规模的公司。
当我与小出版商谈论AI时,当我与非常大的出版商谈论AI时,我注意到的最大区别是出版“企业”的概念。最大的出版商通常是(或邻近)公共公司的一部分,一旦你成为上市公司,声誉和安全问题比普通出版商更为重要,他们不需要以同样的方式对股东和新闻媒体负责。虽然大型出版商的编辑与为较小公司工作的自由编辑对AI工具有相同的用途,但他们使用这些工具的背景却大不相同。
你需要知道多少关于人工智能的信息才能读这本书?
我假设我的读者几乎对人工智能的内部结构一无所知,但他们是聪明的读者。因此,我将在零知识和不轻视读者之间找到一个平衡点。
我想几乎每个人都听说过新一代的人工智能:YouGov在2024年3月的一项调查显示,只有7%的美国人对人工智能“完全不了解”。作家和出版商几乎肯定听说过一些版权投诉,但可能不了解问题的实质。所以我不需要解释人工智能代表“Artificial Intelligence”。但我不会假设读者能定义什么是人工智能,它意味着什么,它的潜在影响等等。这就是你在这里的原因。
可访问性,无论是广义上还是具体上
我为这本书出版的口号是“可访问性”。
对大多数人来说,这仅仅意味着类似“可得性”,确实,我打算以我能想到的尽可能多的形式和格式提供这本书。我想扩展容器。我正在努力使我的书成为一个模范出版物,展示今天在出版单一本书时可以实现的全部范围。
在Leanpub上,你会发现这本书以PDF文件、EPUB文件以及免费网络版出版物的形式提供。你会发现有31种语言的翻译,包括主要的亚洲和欧洲语言。将会有多种主要语言的有声书。
我也会在所有可以通过Ingram和Amazon访问的电子商务平台上提供这本书的印刷版和数字版。这包括世界上大部分地区的在线书店。这样,图书馆也能够购买这本书,尽管可以理解的是,他们对自出版作品的空间有限。(我会向世界上任何要求的图书馆捐赠印刷版和数字版。)
除了完整版的免费网络版,我还会创建免费的摘录、问答和信息图表,供那些只想尝试或品尝的人使用。这些将在我的博客上提供。
录制整本书的视频没有意义,因为有有声书。但是有些人更喜欢通过视频获取内容。所以我会提供多种长度的删节视频版本。
那么人情味呢?我还会通过网络研讨会或一对一的在线咨询,通过我的网站和博客提供服务。我甚至可以被雇佣亲自出席!
“可访问性”不仅仅意味着词典上的定义。正如加拿大国家公平图书馆服务网络(NNELS)所说,“一本可访问的书是每个人都能使用和理解的书。”因此,我的英文EPUB文件符合针对印刷残障人士的W3C 1.1推荐,包括对图像的健全的替代文本描述。我们也希望达到这种外语翻译的可访问性标准。
替代文本是用ChatGPT创建的。我没有编辑ChatGPT的版本,以便任何阅读EPUB的人都能看到它的优点和不足之处。正如我的同事Bill Kasdorf提醒我的那样,好的替代文本描述的是有视力的读者从图像中获得的内容,而不仅仅是它的外观。
对于图书出版商来说,可访问性不再是一个选择:它是一种默认设置。
(我有两个需要承认的不足:由于出版平台的限制,默认的PDF文件不符合PDF/UA规范,也不能在电子商务网站上提供大字版的书。但这两种版本都可以根据要求提供。)
一些杂项
如前所述,这本书(相对来说)很短。当你称一个较短的文档为“书”时,你有可能会遇到买家抗议,“我以为我买的是一本书,但它只有50页!”我已经尽我所能在销售页面上明确这不是一本完整的书,但如果你感到失望,请记住Leanpub提供60天退款保证,我很乐意将这个退款保证延长到“永远”。我希望读者感到高兴,而不是失望。(如果你在其他平台上买了这本书,给我发邮件:我会寄一张支票!)
这本书中有大量的超链接(在不同的格式中,这些链接会以不同的方式出现,但通常是作为脚注)。我一直认为在我的作品中链接到原始来源是很重要的,这样读者可以验证我有时夸大的说法。但我也意识到超链接和脚注可能会让人分心,特别是如果你使用的是电子阅读设备的话。对此,我感到抱歉。最好的办法是在阅读时忽略这些链接,如果你想深入了解某个话题,可以再返回查看。
我不知道你现在是以哪种格式(或听力)在阅读这本书。也不知道是哪种语言。我已经尽力使这本书的“人体工学”尽可能用户友好,但从这个角度来看,链接和脚注并不总是最佳选择。
这本书有赞助商,我知道这对一本“书”来说是很不寻常的。我在文章结尾的“披露”部分解释了赞助的工作方式。
为什么现在是人工智能?
当我与出版商交谈时,我听到的都是一些紧迫的、直接的问题。而人工智能通常不在其中。 |
印刷制造成本的上升已经困扰了好几年,虽然现在似乎趋于平稳。增加的分销成本对所有参与者来说都是一个挑战。这些导致了价格压力——有证据表明读者开始对当前新精装书和贸易平装书的定价感到不满。我将这些归类为“模拟”问题——数字技术在解决这些问题上几乎无所作为。
然后是更广泛的“存在”问题,这些问题越来越受到关注,但它们是模糊的问题,没有明显的解决方案。包括在内的有:
通过在线和社交媒体进行内容发现和观众参与。
消费者行为和阅读习惯的改变。
来自其他数字媒体的竞争。
我相信人工智能在这些领域对出版商可能非常有帮助,但这些方法并不明显,需要时间来实施。我将在本书的后续章节中描述这一点。
人工智能:入门
在我进入枯燥的技术背景之前,我邀请你直接跳到在线软件中。顶级工具是免费的,可以玩一玩。有ChatGPT。还有Claude.ai。你可以试试Microsoft Copilot。或者试试Google的Gemini。
大多数人都是这样开始接触人工智能的——我打赌你已经试过其中一个或多个玩具。我也打赌你没试过很长时间。我与之交谈的大多数人只花了几分钟。他们试了几个问题,得到了几个很明显的答案,然后就放弃了。
错误的方法。
我支持Ethan Mollick,他的工作我将在本书中多次描述。在他的博客和最近的一次采访中,Mollick谈到了他的“10小时规则”:
“我想指出10小时的随意性就像1万步一样。没有科学依据。这是一个观察。但是它也确实让你超越了,我晚上试了一下,走向了更认真地使用它。我不知道10小时是否是真正的限制,但它似乎有一些变革性。关键是在你有专业知识的领域使用它,这样你就能理解它的优缺点,能学习它的能力形态。”
另一位评论者,在评论Mollick的最新AI书时,指出了一个同样真实的“十规则”:“用这些工具实验一个小时相当于阅读它们十小时。”
你明白了。这是关于动手,而不是思考。我的书是一种思考。你需要亲自实践。
人工智能:简史
直到几年前,一般人只听说过人工智能作为一种抽象概念,无论是作为科幻小说,还是作为可以在国际象棋或围棋中击败大师的东西。突然间,人工智能无处不在,给人一种它是新事物的错觉。即使是新东西也不完全是新的。但这无关紧要。在ChatGPT之前,人工智能对图书出版几乎没有什么意义。现在它意义重大。 |
理解人工智能大约70年的发展历程可能很有趣,但这并不是理解当今现状的必要条件。
Our World In Data很好地简要记录了历史——我就不赘述了。
当前这一代的人工智能主要是在过去十年中开发的。然后,ChatGPT在2022年11月30日突然出现。两个月后,它拥有了一亿月活跃用户,这是任何技术进入消费领域的最快速度(相比之下,Facebook花了两年多的时间才达到一亿用户)。
为什么会有如此快速的普及?首先,它令人着迷且有趣。其次,它是免费的。第三,你不需要购买新设备来使用它。第四,你不需要任何培训就能访问ChatGPT(或其聊天AI竞争对手)。但这些因素同样适用于Facebook,那么为什么是ChatGPT?
正如Arthur C. Clarke著名的说法,“任何足够先进的技术都与魔法无异。”聊天AI就是魔法。用日常语言与机器“对话”的体验……简直像魔法一般。说“我想要一本书在一个气球里,在云朵旁边靠近太阳”,几秒钟后,
……这也是魔法。GPT生成的图像开始看起来风格类似,色彩丰富且充满幻想。所以我发了第二个提示“现在用15世纪插图的风格”。于是:
如果我想要一本书在气球里,在云朵旁边靠近太阳的视频,有十几种工具可以选择,立马就能生成。还有与视频配套的音乐原声。嗯,这听起来怎么样?简直就像魔法一样。
为了避免因为将AI归类为高深莫测的“魔法”而显得对其非凡能力不屑一顾,了解到许多负责当前这一代AI的科学家们承认他们确实不完全理解它是如何工作的,这一点也很有趣。正如最近一期MIT科技评论中报道的那样,“尽管取得了巨大成功,但没有人确切知道它是如何——或为什么——起作用的。”令人兴奋,但也有点吓人。
理解AI及一些关键术语
AI伴随着大量的技术和术语,其中很多对除了数据科学家以外的人来说都是难以理解的。聊天AI的用户不需要深入了解AI术语或涉及的技术概念。系统的对话性质允许直观的互动而无需专门的背景知识来了解其工作原理。关注聊天AI实际能做什么更为重要。 |
在准备这本书时,我一直在努力思考,作为一本关于AI的书的作者,什么是‘负责任’的做法。传统的方法是提供对科学的简短解释和对常用术语的回顾。
我不会这么做。
我将在这里提供一些外部链接,指向我认为是一些相对易懂的AI基础知识简要描述。
AI的未来是什么样的?:麦肯锡公司(2024年4月)有一组很好的解释。
同样,Gartner的生成式AI(未注明日期)也不错。
Futurepedia提供了一个不错的AI基础(2024年5月)的总结。
在处理完这些内容后,我现在要介绍一些我认为有价值理解的术语。并不是因为你需要知道这些术语才能使用软件。只是因为这组术语参考了当前这一代AI实际运作的一些关键方面。
我处理这些术语和概念的使用案例是那些(i)出于某种原因想更深入了解AI的作者和出版商,或(ii)想了解当前AI批评背景的人,或(iii)希望为其同事或组织应该如何应对AI的战略讨论做出贡献的人。
换句话说,这不是你需要知道的内容,而是你可能想知道的内容。以下是一些非字母顺序排列的信息:
提示和提示操作
你可以打开聊天AI软件,然后像在谷歌上那样输入一个问题。
大型语言模型 (LLM)
大型语言模型通过分析大量(主要是)书面材料来工作,使它们能够预测对话或写作中下一步应该出现的单词或句子。它们并不以人类的方式“理解”语言,而是通过将文本分解成更小的部分(称为标记),然后将这些标记转换成数字来处理文本。它们将文本作为数字处理,然后生成更多的数字,这些数字再被转换回文本。这是对为什么聊天AI不“包含”受版权保护的作品的过度简化解释:它是由代表底层文本的广泛抽象的数字构建的。
LLM是通过学习语言的典型使用方式来训练的,然后基于这种理解生成响应。我们往往低估了大多数语言的可预测性。聊天AI可以生成与现有文学作品(有时令人震惊地)相似的文本,但从设计上讲,它没有能力检索特定的摘录或复制受版权保护的文本。(我知道,许多人听说过纽约时报对OpenAI的诉讼——时报能够让ChatGPT逐字逐句地复述之前发表的文章的一些部分。)
生成式人工智能
理解这个术语最重要的是“生成”部分。生成式人工智能生成新的文本。
生成式预训练变换模型 (GPT)
这是这里术语中最专业的一个,描述了由OpenAI开发的一种特定类型的LLM。“生成”表示它生成文本的能力,“预训练”表示它已经在大量文本数据上进行了训练,而“变换”指的是它使用的软件。知道GPT代表什么仅仅是为了让你理解ChatGPT中的GPT代表什么。
ChatGPT
ChatGPT是你看到的软件;GPT是其背后的技术。用户体验的是ChatGPT,而不是背后的GPT。如上所述,ChatGPT只是几种在线聊天AI软件系统之一,具有类似的功能。
你还会经常遇到的另一个对许多人来说不熟悉的术语是:
语料库
词典对语料库的定义是“一组书面文本”(尽管实际上并不总是文本)。这个术语用于指GPT训练的内容:大量(主要是)文本的语料库。据说最大规模的语料库包含数千亿个单词。对于普通人来说,这是难以理解的。你不觉得维基百科很庞大,包含大量的单词吗?好吧,维基百科只有约45亿个单词——而GPT-4的训练数据远超过一万亿个单词。
我认为考虑这个规模是重要的。作者们可以理解地担心他们书中的7.5万个单词可能被吸入大型语言模型。也许确实如此(详见下文)。但即使是这种情况,考虑一下今天的大型语言模型中任何一本书有多么微不足道的价值。这真的微不足道。超过微不足道。即使是一万本书也是微不足道的。
AI软件:系统重量级选手
我上面列出了四个聊天AI重量级选手:ChatGPT, Claude.ai, Microsoft Copilot 和 Google Gemini。 |
它们的工作方式大致相同,结果也相似。那么哪个最好呢?这个问题会把你带进一个兔子洞。这有点像问哪个城镇提供最好的海滩度假,或者哪个SUV对家庭最好。在这些问题上有很多细微差别,也有大量的自豪感和偏见过滤我们的回答。
对于这种看似简单但极其复杂的软件也是如此。有人认为Claude在语言处理上更有技巧,而ChatGPT在软件代码方面更好。Microsoft Copilot与Microsoft软件套件集成。Google Gemini可以接入Gmail、Google Maps和YouTube。有些差异是有意义的;很多都是细微的。而且每次软件更新时都会不断变化。
“最好的”软件在一段时间内不会得到解决。如果你尝试足够多的可用工具,你会找到一些最喜欢的。 |
有两大顶级AI软件。第一个可以称为基础软件,比如ChatGPT及其竞争对手(聊天AI)。这是大多数人今天体验AI的方式。
下一个层级是所有其他软件,它们提供了一个基本上是通往基础软件的窗口。初次接触AI聊天的新手大多不会遇到这些软件,尽管它们并不稀有或晦涩。有些人熟悉Jasper(营销软件)或Perplexity(搜索)。如果没有ChatGPT及其同类,这些软件根本不会存在。
请记住,Adobe、Microsoft、Grammarly、Zoom等主流软件现在都集成了AI工具,但这与从头开始基于聊天机器人界面构建的软件不同。(其他如Otter(转录)在ChatGPT之前就存在,但现在也融入了大型语言模型技术。)
下面我们将看看专门针对出版业的软件,这些软件利用了生成式AI的能力。
软件范式
很久以前,软件是代码,只有工程师才明白它是如何工作的。个人计算机之所以成功,除了它们相对低廉的成本外,还有就是相对容易使用的软件。我们对此并不多加思考,这一切只是围绕在我们身边。
但请考虑一下Microsoft Word,我可以肯定地假设本书99%的读者都在使用它。教一个人如何在Word中写一段文字大约需要10分钟。然后你可以教他们如何创建粗体文本、斜体字以及如何更改基本字体,比如从Calibri改为Arial或Times Roman。接着,如何保存文件和打印文件。如何查找和替换。
然后你就让他们自己去探索。
几年后你会发现他们仍然用空格和制表符来格式化他们的Word段落。并且仍然忘记保存他们的文件,或搞不清他们保存了哪个版本,有时不得不从头重写文本。但他们“知道如何使用Word”。
Word有数百个功能,但用户有三分之一的时间只使用5个命令:粘贴、保存、复制、撤销和加粗。需要几周的培训才能真正学会Word的高级功能;这些功能可以帮助出版商节省数百小时的时间。但大多数人从未这样做。自1985年以来,我一直在使用Word,近四十年了,我从未参加过课程。我甚至不知道自己不知道如何充分利用这款软件的全部功能。
我之所以这样说,是因为这有助于你理解为什么AI软件与任何你曾经使用过的软件都如此不同。它没有附带手册,甚至没有快速入门指南。它只有一个空白屏幕和一个问题:“我能帮你做什么?”
没有菜单栏,没有按钮可按,没有键盘快捷键。你提出一个问题,开始聊天,你会得到一些答案。
Claude的回答:
“使用像我这样的现代对话式AI与传统工具如Microsoft Word或Excel之间有几个关键区别:
“1. 自然语言互动:使用对话式AI,你可以用日常语言来传达你的意图,而不必学习和导航复杂的菜单和功能。你只需以对话的方式解释你想要完成的事情。
“2. 上下文理解:AI助手能够保持上下文并理解对话的流畅性,从而允许更自然的来回对话。传统软件在命令之间没有上下文意识。
“3. 适应性:AI可以动态适应并响应各种请求,而传统工具则限于预定义的功能集。一个AI助手可以在一个界面内帮助进行写作、分析、数学、编码、创意等。”
这很有用,但我想要一些更容易理解的东西。所以我问:
Claude:
“这里有一个简单的方法,可以向没有技术背景的人解释区别:
“将传统软件如Microsoft Word或Excel比作工具,比如锤子或计算器。它有一组固定的功能,你需要学习如何正确使用它以获得你想要的结果。
“另一方面,想象一下现代的对话式AI就像一个聪明的助手,就像一个知识渊博的同事或朋友。你可以用简单的英语与它交谈,它能理解你想做什么。它可以帮你完成各种任务,从写作到数学再到提出创意。
“你不需要学习任何特殊的命令或技巧——只需自然地与它聊天。它会根据你的需求调整,并记住你对话的上下文。随着时间的推移,它会了解你和你的偏好。
“因此,传统软件就像一个静态工具,而对话式AI更像一个智能伙伴,你可以自然地与之互动来完成任务。这是一种更灵活、更个性化、更高效的工作方式。”
嗯。这还不是我想要的。所以我继续了对话:
Claude:
“当然,让我试着不用技术术语来解释:
“想象一下你在和一个知识渊博且热心帮助你的朋友交谈。你可以用简单的英语告诉他们你想做什么,无论是写论文、解决数学问题还是为项目头脑风暴。
“你不需要学习和记住一大堆具体的步骤或命令,你只需用自己的话解释你的需求。你的朋友理解上下文,并根据你已经讨论的内容调整他们的帮助。
“这是一种互动的对话,你可以问问题、澄清事情并获得建议。你和这个朋友交流得越多,他们就越能理解你的独特需求和沟通风格。
“现在,想象一下如果你能和一个计算机程序有同样类型的帮助、简单的互动。这就是你可能听说过的新型软件的基本概念。
“不同于旧式软件,你必须学习和使用它的固定功能,这种新软件更像一个知识渊博的朋友。你可以用对话的方式与它交流,它会根据你的自然对话流程来帮助你。
“因此,这是一种更智能、更个性化、更简单的方式,通过像与人交谈一样,与计算机上的各种任务进行互动。这是与旧的、更僵化的软件风格的关键区别。”
总结:我试图通过这些例子做两件事。一是提供一个非常简单的实例,说明聊天机器人软件为何与我们以前使用的任何软件都如此不同。另一个是展示一个聊天如何演变。这不仅仅是一个问题和一个答案。这是一个对话。这是突破的一个重要部分。
聊天AI某种程度上是实习生和知识丰富的顾问的结合。你不能假设它们知道你的意思。你需要解释你想要什么,为什么想要,以及如何能最有帮助。
三种AI软件
大致来说,今天有三种AI软件可用。第一种是AI基础平台,比如ChatGPT,核心的AI技术。第二种是,暂且称之为,AI附加组件,建立在核心平台上的新软件。你可能没听过很多这些工具,比如Jasper或Rewind。 |
我的第三类是现有产品中新增AI工具的软件。例如,微软套件的软件在Word、Excel和PowerPoint中加入了新的AI工具。Adobe在Photoshop和Acrobat中增加了AI技术。Grammarly正在围绕新一代LLM技术进行重建。它大致上还是同一个产品,只是增加了AI。
显然,你今天使用的几乎所有软件很快都将融入AI功能。你需要自己评估这些工具是否真的有用,还是只是AI的装饰。
我更感兴趣的是那些从头开始构建的新工具,提供只有AI才能产生的价值。这是下一代软件。
使用AI软件
我不幸是个Windows用户(这是一个漫长的故事),所以我谈论的是我通过Windows计算机访问AI软件的经验,而不是Mac。因为这里所有的软件都是基于浏览器的,所以在Mac上使用这些工具不应该有差异。但我不提供任何保证。
你需要一些钱来参与AI游戏,但不需要很多。正如上面所描述的,许多基础软件可以通过免费版本访问。但你通常会想要一个付费的描述在测试时使用,订阅费用大约是每月20美元。试用后记得取消(别忘了!)。如果你看到的是每月79美元,甚至每月159美元,你可以忽略它们。他们并没有把你当作潜在用户;他们的目标是大型主流企业用户。
聊天AI的培训
今天的AI看起来非常简单。任何会打字提问的人都能使用它。但是,要用好它却很复杂,这种复杂性直到你深入了解“提示词”及相关概念时才会显现。 |
有时候,为了获取AI的智能,你得像对待一个白痴一样和它交谈。或者说,像对待一个白痴学者。这有点像达斯汀·霍夫曼在《雨人》中扮演的角色。
任何人都可以使用ChatGPT。只需访问chat.openai.com,你就可以免费访问最新版本的GPT-4o(有一些高级功能可用,每月额外收费20美元)。
当你访问ChatGPT时,你会发现基本上是一个空白屏幕,并隐含着“今天我能帮你做什么?”的问题。
你可以向它提问。更好的是,你可以上传一个大型PDF文件并提问。你还可以上传图片,它可以描述图片内容,或者上传扫描的页面:它可以识别文本,即使是手写的也没问题。
成功使用聊天AI的关键问题是学习如何与它“对话”(你实际上可以在最新的移动应用版本中进行语音对话)。在聊天AI术语中,这被称为创建“提示词”或“提示”。用户发现,他们的提示词越精确和详细,ChatGPT给出的回答就越好。此外,提示词不仅仅是一次性的。聊天AI可以继续对话一段时间(虽然不是无限期),如果你没有得到满意的答案,你可以修改和完善你的提示词。这需要一些习惯,并催生了一系列的书面和在线教程,教用户如何最大限度地利用提示词。
试试让任何聊天AI软件解释一个像发展编辑这样的概念。然后让它写一个12岁孩子能理解的解释。结果截然不同。有趣的是,聊天AI似乎对情感请求也有反应。添加“这对我的职业生涯非常重要”这样的提示词,可以促使其给出更有用的回答。
(这是插一句话的好时机:让人安心又深感困扰的是,顶尖的语言AI科学家也无法解释为什么会发生这样的事情。)
如何提示
“提示”是一项使用聊天AI的必备技能。 |
在AI热潮中被采用的各种术语中,“提示词”和“提示”是最好的。你并不是真的在“对话”聊天AI。你不应该“提问”它问题(或者说,不应该这样做——这不是它的工作方式)。你提示这些引擎以获得回应,而不是简单的答案。
起初我以为可以用戏剧提示来类比。提示员让忘词的演员重新进入状态。但这并不准确,因为AI提示不会触发一段记忆的文本——这不是生成式AI的工作方式。给AI引擎一个单一的提示词反复使用,答案总会有所不同。
刚才我让ChatGPT“列出有效提示的关键要素。”我第二次提问,答案在主题上是一致的,但具体细节上有所不同。突出的主题包括:
具体明确
避免模糊
提供背景
使用清晰的指示
从某种意义上说,这很奇怪:AI对语言有很好的掌握——它不应该有对你意思的理解吗?但正是这种对语言的掌握使提示变得最强大。告诉它你确切的意思,而不是大概。
像对待一个你希望成为的有帮助的助手、博学的顾问那样与它交谈,而不是像对待一个街头小孩。
这里的结论是,至少目前,LLM(大语言模型)为基础的AI工具的有效使用至少需要熟悉提示的最佳实践。掌握提示技能将会得到相应的回报。
幻觉:一个棘手的问题
基于大语言模型的AI会编造东西。这是事实。这通常被称为“幻觉”。这是一个真实的问题,也是一个严重的问题。如果你要使用AI,你需要理解幻觉现象。 |
剑桥词典2023年度词汇是“Hallucinate”(幻觉),其定义已扩展为“当人工智能……产生幻觉时,它会生成虚假信息。”(2023年词典的其他新增词汇包括“prompt engineering”(提示工程)、“large language model”(大型语言模型)和“GenAI”(生成式人工智能)。)
剑桥指出,AI幻觉“有时显得荒谬。但它们也可能看起来完全合理——即使在事实上一无是处或最终不合逻辑。”遗憾的是,这确实如此,截至2024年7月,这仍然是将生成式AI用于关键任务的显著限制之一。这是AI的几个重大奇特之处之一,人们需要一段时间才能理解。记住,生成式AI主要是一个下一个词预测引擎,而不是一个事实数据库。因此,我们这些“人类在环”(HITLs)需要对AI输出进行双重检查。再说一次,令人惊讶的是,我们可以从一种可能生成有错误输出的技术中获得如此巨大的价值。就是这样。
Gary Marcus,一位经验丰富且见多识广的AI批评家,将AI幻觉比作坏掉的手表,它们一天能对两次。“它有时是对的,”他说,“但你不知道是哪一部分时间对的,这大大降低了它的价值。”
Ethan Mollick,2023年9月Publishers Weekly大会的主题演讲者指出,使用AI的人期望100%的准确性。他说,幻觉类似于我们每天容忍的“人类错误率”。
Andrej Karpathy,一位专注于AI的著名科学家,目前在OpenAI工作,他写到关于幻觉的问题:
“每当被问到LLMs的‘幻觉问题’时,我总是有些挣扎。因为在某种意义上,幻觉是LLMs的全部。它们是梦想机器。
“我们用提示来引导它们的梦。提示开始了梦境,并且根据LLM对其训练文档模糊的记忆,大多数情况下结果会有用。
“只有当梦进入被认为是事实错误的领域时,我们才称其为‘幻觉’。它看起来像是一个bug,但其实只是LLM在做它一直在做的事情。”
问题不仅仅是凭空捏造。聊天AI是一个有深刻缺陷的软件。
对于许多查询,特别是来自新手的查询,回答往往平淡无奇、不切题或根本无益。聊天AI在计数方面有困难:让它写一篇500字的博客文章,你很幸运能得到150字。
而且每个AI公司为了减少偏见并避免回答“如何制造炸弹”的查询,都在他们的产品周围建立了严格的响应护栏:经常情况下,问题的回答基本上是“不,我不会回答这个问题”。我让Google Gemini审查这篇文章的草稿,它警告我“在发布前必须获得作者的批准”。
事实核查
我争辩道(基本上是对牛弹琴),幻觉是一个技术问题,会有一个技术解决方案。是的,它们是LLMs的固有问题,但它们可以被规避。 |
考虑一下:我让四个聊天AI核查以下陈述的事实:
- 截至2024年,纽约市有6家大型跨国出版商。它们被称为“大六”。
- 电子书继续主导美国的图书销售。
- Borders和Barnes & Noble是美国最大的两家书店连锁。
- 在新冠疫情期间销售下滑后,美国的图书销售再次以两位数增长。
它们都发现了前三个陈述中的错误。它们在第四个陈述上有些困惑,不确定新冠疫情销售激增的程度以及随后的销售模式。这是一个微小的、非代表性的实验,但这些聊天AI,它们不是为了基于事实,而是可以在评估大多数普通观察者会忽略的事实方面做得相当不错。
图片和视频呢?
因为贸易书籍出版更多依赖于文本而不是图片,出版商往往忽视了基于AI的图片和视频工具的突破性进展。 |
它们与任何人对AI革命的理解相关。但是讨论的空间太大,无法在此详述:我无法充分表达。
推荐给作者和出版商:玩一玩ChatGPT中的图像生成功能——它们是免费的,使用起来很有趣。然后在“视频和AI”下进行搜索,惊叹于你在链接的站点上找到的一些示例。虽然该工具尚未公开发布,但OpenAI的Sora提供了一些仅通过文本提示生成视频的惊人示例。
面向图书出版商的软件
目前很少有专门为图书出版商从头开发的人工智能软件(尽管有很多面向作者的)。
学术出版商有更多选择,有各种用于研究、写作和出版的人工智能工具。
对于贸易出版商来说,大多数选项与人工智能和音频有关。除了音频之外,选择集中在编辑和营销工具上。还有一些AI内容检测工具,以及内容许可工具和服务。
编辑软件定位于作者,而不是专业编辑——作者比编辑多得多,专业编辑要求的质量比(主要是自出版的)作者要苛刻得多。
同样,营销工具的目标不仅仅是图书出版商,而是所有营销人员,提供网页内容、文案生成和SEO的工具。Jasper.ai是这一类别的领导者,并声称HarperCollins是其客户。
Shimmr,这本书的赞助商,是一种专门为图书出版商设计的AI驱动广告创建工具。公司及其创始人Nadim Sadek在《出版者周刊》2024年5月的一篇文章中进行了介绍。
Sadek告诉《出版者周刊》:“我们所做的是使用AI来考虑一本书的心理特征,并将其与特定受众的心态相匹配,从而确保读者和书籍之间更有效的连接。我们称之为‘书籍DNA’,它不仅涉及了解书中的角色和情节,还涉及书籍的价值观、兴趣和情感。”
利用书籍DNA,Shimmr的AI工具然后为搜索和社交媒体渠道(目前是Google和Meta)创建目标广告。这些广告以展示广告的形式出现,展示由AI生成的图像并配有标语。
我向评估Shimmr的出版商指出,它可以提供增量收入,这正是我们期望新广告/营销工具带来的。
如果你想体验另一个“仅限AI”的软件工具,请查看Hypnovels,它可以为小说书籍的章节制作动画。“叙述、图像和运动,全部由AI生成,以一种比传统动画更少字面的方式(因此称为‘hypno’),并且比有声书更具感官吸引力,以一种使章节独特且引人入胜的风格结合在一起。”
另一个因AI机会而新成立的供应商是Veristage(也是这本书的赞助商)。Veristage提供Insight,其“AI出版助理”,一个跨多个出版功能的特定任务前端。
Insight之旅始于手稿。上传早期版本可以解锁一系列工具,有些对编辑更有价值,有些对营销更有价值。在使用任何和所有功能后,你可以下载包含编辑方面的PDF报告,如写作语气、比喻、陈词滥调以及副词和形容词的使用,然后是营销内容,如描述、元数据、独特卖点、比较、亚马逊优化内容和建议的社交媒体帖子。
我最喜欢Insight的是它采用了一种整体方法来应用AI到出版过程中,而不是必须收集多个软件工具,每个工具用于不同的功能。
我还想在这里强调我的出版平台Leanpub。他们的合作非常愉快。小而美:他们敢于尝试大公司会避开的技术和服务。对于作者和较小的出版商来说,他们的新TranslateWord服务特别有吸引力,你可以通过GPT-4o API(驱动ChatGPT的API)将用Microsoft Word编写的书籍翻译成多达31种语言。这是我用来翻译这本书的工具。
我在其他地方寻找书籍翻译服务。有很多翻译公司,有些采用AI。我能找到的唯一提供书籍翻译服务的是DeepL。但这不是公司的重点。现在Leanpub是首选之地。
图书出版的业务软件
现有的为出版行业服务的业务系统供应商开始将AI技术层叠进来,正如我们在企业级公司如Salesforce和Oracle中所见。 |
我与几家出版系统软件供应商,包括Firebrand,进行了交谈,所有人都在考虑这些机会,但都在谨慎行事。
我期待在2024年9月在田纳西州纳什维尔举行的Firebrand出版创新论坛上与一群多样化的与会者讨论AI的机会。
knk 已经举办了两场关于 AI 的网络研讨会,并发布了一份白皮书,但(截至 2024 年 6 月 26 日)尚未宣布其产品中的任何 AI 功能。
Virtusales 最近推出了其首批 AI 工具,包括图像标记、替代文本生成、校对工具、销售和市场文案生成以及文案翻译。
我在Klopotek 出版广播上与 Klopotek 进行了交流。他们已经“在客户服务领域启动了一项 AI 计划”,但没有详细信息。
Supadu 提供出版商“网页设计、电子商务和数据解决方案”,现在推出了“Supadu Smart AI”,(pdf),具有“由智能购买引导的化身标题视频评论”、“为市场和销售团队制作的化身视频驱动的促销材料”和“作者与标题视频的轻松多语言翻译”。
出版商的 AI 软件:初创公司
有些人熟悉我在图书出版技术初创公司方面的工作。Publishers Weekly 有一篇报告描述了这些工作,并链接到了数据库。
正如您在报告中所见,我对图书出版领域的初创公司进行了广泛的研究。我不包括新的图书出版公司,除非它们在技术方面做了一些不寻常的事情。基本标准是:您是否使用技术来激活图书出版过程的某个方面?我的数据库中有超过 1,600 家公司,大多数是在 2007 年 Amazon 发布第一代 Kindle 之后成立的。
在您对数据库有了整体了解之后,可以开始更深入地探索。在最右边的标签中,您会看到一种仅按 AI 相关出版初创公司排序的方法。
如图所示,截至 2024 年 7 月初,有超过 240 家 AI 相关的出版初创公司。我们将使用 AI 的音频出版初创公司单独分类,总数超过 300 家。其中大多数(超过 280 家)是在 2022 年 11 月 ChatGPT 首次出现后成立的。在图书出版领域,这种新业务初创公司的数量是前所未有的。令人惊叹。
如同整个数据库的特点,这些 AI 初创公司大多面向作者(70%)。约 13% 旨在服务于出版公司。10% 专注于儿童出版。
大约 50 家初创公司为读者提供一系列创新产品。几家是故事讲述平台。有相当多的摘要工具。有多个发现网站,“使用 AI 找到你的新宠书”。快速改进的 AI 生成声音带来了一系列“读给我听”的工具。
以及一些没有 AI 就不可能实现的有趣想法。
Bookshelf: Reading Tracker 是一款结合图书发现和个人图书馆的应用程序,包括“自动时间跟踪、阅读目标与提醒,以及有见地的统计和趋势”。其 AI 图书管理员“可以生成摘要和闪卡,讨论关键想法和要点,以及更多功能”。
我的朋友 Ron Martinez 最近推出了一个名为 Inventionarts.ai 的网站,介绍了一种“新的对话媒介”。正如网站所解释的,“与多个 AI 人物对话,每个都有自己的身份、专业知识和意识。邀请不同的角色加入你的场景。你也可以扮演一个虚构的角色!” 一种文学游戏。
如同更大的初创公司群体的特点,这些初创公司大多规模很小,有的甚至只有一个人和一个半成品的想法。我把它们都包括在内——谁知道它们会走向何方。
我强烈鼓励您使用这个数据库。点击几个链接。我想你会被许多这些组织的创新和大胆所吸引。
这本书的赞助商之一,Book Advisors,专门从事出版行业的并购。我总是建议创新初创公司寻找合作伙伴,而Book Advisors是我推荐他们去讨论这一过程的地方。图书出版业有几家受人尊敬的并购公司可以联系,其中包括The Fisher Company和Oaklins DeSilva+Phillips。Book Advisors是我所知的唯一一家还与科技初创公司合作的公司。
人工智能与图书出版:行业目前在做什么?
许多著名出版贸易团体的人工智能相关活动似乎在为版权关注者的合唱增添了自己的声音。美国出版商协会“在美国版权局关于版权法与人工智能(AI)交叉领域的调查中提交了回复意见……” |
英国出版商协会指出,“政府尽快制定切实可行的解决方案以保护支撑安全可靠人工智能的人类创造力和知识至关重要。”
另一方面,拥有600多名成员的独立出版商协会(IPG)为其成员提供人工智能指导和培训,包括由著名人工智能与出版专家George Walkley主办的“出版中的人工智能实用指南”。
最佳实践和标准开发:推荐与人工智能使用相关的最佳实践,链接到伦理指南、现有法规和法律。这包括人工智能生成内容的透明性及其向消费者的披露。
行业调查和定义:进行调查以收集广泛的行业见解,了解当前和潜在的人工智能用途,并在图书出版的背景下建立明确的定义和范围。
定期报告和审查:提供定期报告,帮助行业预见和适应人工智能技术带来的快速变化。
其他写作和出版协会也在尝试走在话题的前面。有些反对人工智能,有些只是试图帮助其成员了解技术,或许还进行一些试验。
人工智能与图书出版:出版公司在做什么?
一年前,关于出版公司目前在做什么的问题的回答是,“不多。”自那时以来变化不大,但也有一些活动。我将重点关注贸易图书出版商;学术和专业出版商更为活跃。以下是我发现的一些内容。
Hachette:根据The Bookseller在英国2023年11月的一份报告,Hachette发布了一份关于人工智能的立场声明,区分了“运营”用途和“创意”用途。公司“明确表示鼓励‘负责任的实验’用于运营用途,但反对‘机器创造力……以保护由人类创造的原创内容’。”
HarperCollins:根据Andrew Albanese和Ed Nawotka在Publishers Weekly 2023年4月的一份报告中,HarperCollins首席执行官Brian Murray表示:
“我们知道这将是重要的,并将在未来三到五年内对我们的行业产生重大影响。因此,我认为我们很多人正在努力弄清楚如何确保以一种道德、合乎道德的方式使用它,帮助我们为作者提供专业服务,而不是与作者和故事竞争。
“我认为这是一项挑战。也许对这里的所有出版商来说并非如此,但我保证,世界各地有很多小技术团队可能会来抢我们的生意。他们不是出版商,不是编辑。他们是技术人员,他们看到了机会。”
企鹅兰登书屋(PRH):PRH的母公司贝塔斯曼(Bertelsmann)提供了一份白皮书 叫做《游戏状态:探索生成式人工智能对媒体和娱乐行业的变革性影响》,其中包括关于图书出版的一节。
此外,根据Publishers Lunch的报道,公司“推出了自己的内部AI应用程序,称为PRH ChatGPT。“
文章指出,PRH的内部文件解释说,该程序“‘可以用于简化流程,增强创意,并在各个部门提供数据洞察力。公司建议该应用程序的用途包括总结书籍和文件;修改电子邮件;撰写博客文章或职位描述;分析基于文本的数据,以及‘生成内容创意。’“
西蒙与舒斯特:公司CEO乔纳森·卡普(Jonathan Karp)因在纽约时报2024年5月美国书展上的一句话而在“过去25年最难忘的文学时刻“中获得提名。他说,AI不是“房间里的大象“,而是“更像世界上的蝉。你知道,很多嗡嗡声和很多交配。“
他承认AI“确实是一个有价值的工具。它肯定会让我们更高效。它将帮助我们更好地处理和收集信息,并希望能让员工做更有趣和更有创意的高级工作。“
今年三月,在伦敦书展上,据《书商》报道,卡普表示,公司还将考虑在“由于音频制作成本而从未有机会的地区“推出AI生成的有声书外文版本。
AI与图书出版:使用案例
在不同功能中,AI与图书出版的具体使用案例在概念上很容易描述。但关于出版商实际在做什么的信息却不多。 |
尤利西斯出版社(Ulysses Press)和Perfect Bound的CEO基思·里格特(Keith Riegert)在2024年5月的美国书展上提供了我所见过的关于出版公司内部AI使用案例的最全面概述。Perfect Bound是本报告的赞助商;我支持这一声明。他提供了“20种出版专业人士现在可以开始使用AI的实用方法。“
他的演讲《AI入门》可以在Perfect Bound网站观看和下载。
当AI读一本书会发生什么?
我有意借用这个标题来自伊桑·莫里克的通讯——没有必要去改进它。莫里克是宾夕法尼亚大学沃顿商学院的教授,研究创业与创新。我经常推荐他的通讯,它冷静、清爽且独具见解。
莫里克作为评论员的资格之一是他没有利益冲突。他不需要出售AI,也不需要抨击它。他只是致力于探索AI的多种影响,主要是对教育、文化、写作和出版的影响。而且他是一个出色、清晰的作家。
如果你浏览莫里克的通讯档案,你会发现他直到2022年12月才开始专注于AI。这不是他的主要领域——就像我们大多数人一样,AI突然出现在他的工作中,他无法移开视线。
在这篇文章中,他的见解最接近我们作为出版专业人士的兴趣。“AI可能改变我们与书籍互动的方式吗?“他问道。
为了回答这个问题,Mollick 指出,“我们需要一个拥有足够大记忆的 AI 来存储一本书,并且需要一个足够了解自己书籍的作者来评估 AI 的结果。” Mollick 测试了他的几本书之一(他没有具体说明是哪本书,但从对话中明显是 独角兽的阴影: 打击阻碍初创企业、创始人和投资者的危险迷思,这是一本文在亚马逊上获得好评的书,虽然目前不是畅销书)。
Mollick 讨论了人工智能对作者、出版商或读者的潜在价值的不同方面,包括“作为读者和编辑的 AI”和“一个实用的用途:帮助教师。” 他请一个大型语言模型(而不是 ChatGPT)总结这本书。它成功地让 Mollick 满意。
然后是一个更具挑战性的任务:“给我一些书中的隐喻的例子。” 他指出,“隐喻对人类读者来说也是一个挑战,因为它涉及在没有明确标记的情况下(不像明喻,没有‘像’或‘如’)找到比喻语言的使用。” 他记录的结果“令人印象深刻,尽管有些小错误。”
作为编辑,这个大型语言模型的表现不那么成功:Mollick 指出,这一缺陷说明了“关于当前人工智能状态的一个明显事实:如果你是一个非常优秀的作家或编辑,你比当前的人工智能要好……”
尽管如此,“人工智能具有或至少看起来具有对文本片段的上下文和意义的理解。” 因此,Mollick 认为“我们与书籍的关系可能会因人工智能而改变。”
我也这么认为。
人工智能与图书设计和制作
在图书设计和制作方面,专家系统和过程自动化仍然领先于人工智能。 |
书籍自动排版软件至少可以追溯到 1970 年代。1980 年代中期,我监督了一个名为 PageOne 的软件项目,该项目基于Donald Knuth 的 TeX,可以在几分钟内排版一本书。SGML 出现在同一时间左右,它基于 1969 年引入的文档标准。它在很大程度上被 1996 年引入的 XML 取代。这些稳健的标记语言为自动化创建了坚实的结构。
桌面出版为 QuarkXPress 和 Adobe InDesign 以及 Adobe Illustrator 和 Adobe Photoshop 带来了新一轮的自动化。出版工作流程可以通过各种程序和系统进行管理。
一个值得关注的组织是科科基金会。他们提供一套开源的生产和出版管理工具,包括学术出版平台 Kotahi 和图书制作工具 Ketty,其中包括一个 AI 助手。Kotahi AI PDF 设计师“将 PDF 设计转变为一个简单、互动的过程。”
一些早期的举措正在将人工智能引入 InDesign 的工作流程。2024 年 4 月,Adobe 宣布了一个文本到图像功能。第三方可能在这方面领先于 Adobe:印度的创新印前和生产供应商,如Hurix Digital和Integra,在利用人工智能进行生产方面表现出比 Adobe 更多的主动性。
人工智能与图书营销
在短期内,人工智能对图书营销的影响将是浅显的,但从长远来看,它将更加深远。很多取决于你如何看待‘图书营销’;它正在改变。 |
显而易见的“低垂果实”是:让 Chat AI 帮助撰写产品描述或新闻稿。让它建议一些关键词。这些它都能轻松完成。但大多数出版专业人士也能做到这一点,只需稍稍费点力气。
上面提到的 Keith Riegert 的使用案例包括为头脑风暴标题提供建议、起草数字营销报告以及在 Google Sheets 中创建数字营销活动跟踪器。
上面描述的 Shimmr 软件暗示了未来自动化营销的形态。
人工智能与元数据
人工智能与元数据有什么关系,反之亦然?到目前为止,它的角色似乎很小;预计会有一些重大变化。 |
元数据是图书可发现性的核心。你已经听过很多次了,可能已被这种劝告搞得心烦意乱。这主要是因为“元数据”对于大多数非技术人员来说仍然是一个难以捉摸的概念。如果你说,“它只是关于书籍的基本信息,标题、描述、价格、主题类别之类的东西,”人们会松一口气。这样他们会感到舒服。但也仅此而已。
很遗憾地提醒您,元数据不仅仅是关于书本的一些细节。它包含的内容远不止这些。远远超出我在这本小书中所能涵盖的范围。我和他人共同撰写了一整本关于这个主题的书 a whole book on the topic。Ingram 出版了 Metadata Essentials,这是一本优秀的简短书籍。我在这里说,并且这绝不是最后一次:作者和出版商忽视他们的元数据是有风险的。
人工智能可以帮助生成元数据。例如,自助出版供应商 PublishDrive,提供了一个“AI-Powered Book Metadata Generator”,它可以为书名、简介、Amazon 类别、BISAC 类别和关键词提供 AI 推荐。
来自 Veristage 的 Insight,如上所述,可以生成描述、关键词、BISAC 类别,并定义目标受众。
声明在元数据中使用 AI
您可能认为元数据的庄重世界会慢慢接受 AI。这并非如此!去年十一月,ONIX 标准的管理者 EDItEUR 发布了一份名为《ONIX 中 AI 的各个方面》的简短应用说明 (pdf)。 |
该组织的总监 Graham Bell 以其典型的深刻智慧指出,“对于(围绕该技术的争议),一种反应是放弃使用 AI 或避免交易 AI 创建的产品。更现实的选择是,当使用 AI 时,与交易伙伴和读者保持透明。而当一些零售商限制或禁止 AI 基于内容的平台时,信誉良好的出版商需要强调那些确实使用生成性 AI 技术创建内容的产品。”
Bell 继续概述了出版商可以在元数据中指定的方法:
AI 贡献者
有 AI 参与的有声书的声音
… 以及一种方法,可以在数字产品的元数据中表明出版商明确选择不进行文本和数据挖掘(TDM),用于除研究之外的用途。还有一种方法可以指定覆盖商业或非研究 TDM 的单独许可证。
通常情况下,ONIX 中规定的内容可能不会在供应链的下游被发现,但至少做出了最大的努力。
将 AI 整合到出版运营中的策略
出版公司在将复杂的数字技术整合到日常运营中是最不舒服的事情之一。这是可以理解的。AI 尤其让每个人感到焦虑,不仅仅是在出版业。它是新的,神秘的,个性化的,强大的。人们因为多种原因感到 AI 是一种威胁。改变态度需要时间。 |
但现在不是对技术胆怯的好时机。
无论您的组织规模如何,都有可用的冷静和理性的方式将 AI 整合到您的出版运营中。
动力必须来自最高层。最高层的高管们需要接受 AI 可能带来变革性影响的愿景,并向整个组织的员工传达一项计划。该计划可能只是“试验,记录您的试验,并分享。”这是一个好的开始。
The Economist 最近提到 一种新的技术采用策略,称为“灯塔方法”。您可以通过选择一个可以快速实施的高调概念证明项目来创建一个灯塔,所有人都能理解。
出版公司因版权问题而受到限制:作者们正在激烈反对。2023年5月的一项作者协会调查发现,“90%的作家认为,如果他们的作品被用来训练生成性 AI 技术,作者应该得到补偿”,67%的人表示“他们不确定自己的出版合同或平台服务条款是否包含任何与 AI 相关用途的许可或权利授予。”现在那些不确定的作者在询问他们的出版商是否在编辑或生产他们的作品时使用了 AI,一些有影响力的作者坚持不要这样做。他们正在寻找类似无花生面包房的 AI 等效物。
这对出版商来说是一个棘手的问题——如果你不能在计划出版的书上使用 AI,你还能用它做什么?
制定和传达 AI 政策
尽管 AI 被广泛使用,但很少有出版商公开定义他们的 AI 政策,并向公众传达他们的 AI 方法。考虑到贸易、学术和教育出版商所面对的不同公众,“公众”这个词在这里有着滑溜的意义。
对于贸易出版商来说,最重要的受众是作者及其代理人。学术出版商面临不同的障碍,当他们考虑到人工智能对研究的有前途的影响时,然后人工智能对将研究转化为叙述的更具问题的影响时(Avi Staiman 在这个话题上的深思熟虑的文章中写道)。对于教育出版商来说,制定政策是棘手的,因为人工智能对教学实践、教育的侵蚀是多方面且复杂的。
我认为出版商在推进人工智能技术时面临两个大挑战。第一个是要制定公司关于如何总体上处理人工智能的立场,如何将人工智能融入他们的工作流程中。第二个挑战是向他们的利益相关者清楚且明确地传达这一立场。
我看到的大多数出版商政策都是有缺陷的。其中一些实际上是针对外部的政策,面向作者,包含了一系列关于可接受实践(不多)和不可接受实践(很多)的告诫。O’Reilly 的“为 O’Reilly 开发内容的人才使用人工智能政策”有很多页,包含了晦涩难懂的指导,如“请勿使用产生受版权共享或网络传播开源许可证条款约束的软件输出的任何 OSS GenAI 模型”。
另一方面,学术出版商 Elsevier 在其网站的“Elsevier 政策”部分,包含了关于“负责任的人工智能原则”,“文本和数据挖掘”,以及“在为 Elsevier 撰写中使用生成性人工智能和人工智能辅助技术”的声明。
我看到的少数内部、未发表的出版商政策是保守的,过于保守。这些出版商对各种感知的和可能的威胁,以及作者的焦虑反应过于迅速,从而束缚了他们自己与这一快速发展的、快速变化的技术进行有力互动的能力。
可以肯定的是,他们会“负责任地”使用人工智能,不管这意味着什么。可以肯定的是,他们非常关心作者的知识产权,并积极保护作者的版权作品。(当然,这些广泛的原则必须公开声明,并经常重申。)
但除此之外,还有什么呢?
他们会允许人工智能在编辑采购中扮演角色吗?人工智能能否查看未审稿件?
他们会允许人工智能在发展编辑、行编辑和文字编辑中扮演角色吗?
他们会允许人工智能在确定印刷数量和分配中扮演角色吗?
在创建包括替代文本的无障碍电子书文件中?
在经济上不可行的情况下帮助有声书的创建?
在把外语翻译成不会出售版权的市场中?
在大规模开发市场营销材料中?
在与转售商沟通中?
如果是这样,他们必须明确说明,并清楚解释这些政策背后的思考。出版商必须勇敢地反击在这个恐惧和怀疑的时期大多数作者的许多反对意见。
工作考虑
只有最大的出版商才能雇用专职人员来处理人工智能软件和系统。普通的出版商会希望让他们的所有员工都接触人工智能工具,期望每个人都能探索使用人工智能来提高工作效率。 |
在2024年2月于亚利桑那州举行的PubWest会议上,一位来自出版行业外的演讲者建议人工智能的用途之一是取代实习生。会议室顿时炸开了锅。她本意是好的——确实,2024年4月10日《纽约时报》的一篇报道描述了华尔街投资银行如何寻求用人工智能取代许多实习生。与出版业类似,一个明显的担忧是:如果没有从初级分析师做起,如何找到高级分析师?
出版业一直依赖实习。2019年的一项研究发现,在出版业工作不到十五年的人中,有80%曾经实习过。
在某种程度上,这是以合理的成本完成繁重工作的方式。但与更大的现实相比,这显得微不足道:没有任何出版学校可以让人直接加入出版公司担任中层管理职位。培养未来的熟练员工的唯一方法是今天培训实习生和学徒。
这里的目标不是寻求用人工智能取代实习生,而是利用人工智能工具使他们的工作更加高效和有意义,从而使实习生和出版公司都受益。
AI有声书制作
AI有声书制作效果非常好。虽然不完美,但确实有效。现在,作者和出版商在有声书制作中经常使用AI工具,主要用于那些无法负担全规模叙述者有声书制作费用的书籍。不仅是英语有声书,翻译版的有声书也在使用AI技术。 |
使用AI制作有声书并不是新鲜事;我在2021年首次在Publishers Weekly中报道了这一趋势。但新的大型语言模型重新激发了自动有声书叙述技术的发展。
在2021年,我指出“它完美吗?当然不是。它可以足够好吗?可能可以,如果出版商愿意在项目的语音编辑阶段投入必要的时间。”两年半后,据很多人说,AI语音已经难以与人类语音区分开来,除非你非常仔细地听。
去年11月,Meta(Facebook)推出了“Seamless,”它能够将“语调、情感表达和语音风格特质”转移到200种语言的翻译中。有声书可以立即以极高的质量翻译成多种语言。
同样在2021年,我报道了“Audible禁止非人类叙述者有声书发行是一个真正的问题,可能需要一些时间来解决。”与此同时,谷歌和苹果都宣布了允许作者使用AI生成语音创建有声书的计划。12月5日,Spotify的Findaway Voices开始接受来自Google Play Books的“数字语音叙述有声书,为特定零售合作伙伴分发。”
2023年11月初,亚马逊宣布Kindle Direct Publishing (KDP)作者将很快能够使用一项服务,通过虚拟语音叙述技术快速轻松地制作他们电子书的有声书版本。2024年1月,Jane Friedman报道(付费墙)“Audible在去年秋天悄悄开始允许AI叙述的有声书进入其店面,远在其他零售商之前。”
当然,我也在使用AI为这本书制作有声书版本。
图书翻译中的AI
图书翻译中的AI确实有效。也许不像自动有声书制作那样好用。但它正以非常快的速度接近。非文学小说可能是第一个应用对象。文学小说可能会跟随其后。非小说作品则提出了不同的挑战。 |
我在2024年6月主持了一场由BISG赞助的关于图书翻译中AI的网络研讨会。视频在YouTube上可以观看。Jane Friedman也在她的Hot Sheet通讯中描述了这个项目。
这个话题复杂而微妙。我发现一个有趣的事情是,人们一直在试图自动化翻译。这提醒我们,书籍虽然充满了我们的宇宙,但在书面交流中占的比例却很小,尤其是在这个网络时代。
被誉为机器翻译之父的Warren Weaver曾对一位同事说:“当我看到一篇俄文文章时,我会说:‘这实际上是用英文写的,但它使用了一些奇怪的符号。我现在要进行解码。’”对于机器来说,语言只是代码。它不是文化、感情,也不是书面语言的宏伟。它只是一个数字和代码的任务。
显然,小说和非小说的区别在AI翻译中将非常显著。聊天AI在风格上很强,但在事实方面有所欠缺。虽然现在还处于早期阶段,但我倾向于认为聊天AI在小说中会表现出色,但在非小说中会有所不足。(尽管如此,我仍然在使用机器翻译这本充满事实的书!)
文学小说无疑是这里的重点。它是珍贵并受到尊敬的,这也是理所当然的。译者可能会花数小时争论一个单词或短语。聊天AI在这一领域必须小心行事。
但这是一个富饶的领域。据我所知(根据稀少的数据),2023年只有9,500本贸易书籍被翻译。如果我的估计有很大偏差,也很明显,翻译成英语的书籍数量很少。
同样,我发现一个统计数据,显示2023年只有7,230本书从英语翻译成西班牙语(在西班牙书市)。这看起来少得可笑。
这里有巨大的机会。
大多数情况下,AI用于书籍翻译将针对那些从未考虑过经济上可行的书籍。对于“中端市场”书籍的翻译来说,译者的工作将不可避免地受到影响;工作增长将体现在项目管理和质量保证上。能否抵消工作损失?不太可能。
与AI的其他方面一样,这里有许多具有挑战性的问题需要解决,没有简单的答案。
正如我在软件部分提到的,Leanpub和DeepL是两家为作者和出版商提供AI辅助书籍翻译服务的公司。
AI在学术出版中的应用
各类贸易出版商和作者都应密切关注AI在学术出版界的进展。它的发展速度远远超过消费出版。 |
我认为有两个原因。首先,学术出版中的作者本身就是学者,在STM领域(科学、技术和医学),他们通常是拥有高级学位的科学家。除了出版,他们在工作中也在研究并经常接受AI。因此,他们会更惊讶于他们的出版商不在探索AI在编辑和出版中的应用。
这流向了学术出版生态系统,在那里,编辑往往也是学者。对他们来说,技术并不可怕。
我不会在这本书中深入探讨这些细节;我将在我的博客中更详细地报道。
AI对作者的影响
作者和出版商经常觉得自己生活在两个孤立的世界里,虽然有联系,但基本上是分开的。这在现代出版中大体上是事实。
时代在变。曾经不可触及的出版商,现在顶尖的作者说了算。正如我在其他地方讨论的那样,自出版作者是开拓者。他们不受传统出版的负担。
当出版商看AI时,他们看到的机会不多。当我与作者谈论AI时,世界是他们的牡蛎。可能性几乎是无穷无尽的:
创作和编辑
尝试写作和出版整本书
为新项目寻找灵感
在新书中寻找灵感
微调故事
研究
事实核查
写作伴侣
发展编辑
文字编辑
拼写和语法检查
校对
插图/成像
创建插图和图表
封面设计草图
视频推广
市场营销
自动提交给代理商、出版商、比赛、朋友、推荐请求
生成市场营销材料:新闻稿、博客文章、社交媒体等
网站生成
作者将推动行业对AI的采用变化,无论是支持还是反对。
他们是许多围绕AI的初创创新的受益者——大约70%的初创企业希望与作者合作,共同踏上他们的旅程。
关于AI的关注和风险
关于AI的关注是严肃的。风险是真实的。有时它们以歇斯底里的方式表达,但深入研究后,AI的影响有可能是非常破坏性的。 |
关于AI的问题和关注点很多,可以单独成书。这是我监测主题的词云。我肯定漏掉了一些。
关于这些主题有很多可用的信息,我鼓励你尽可能深入阅读。你可能会得出结论,认为风险大于收益,不希望在个人或组织中使用AI。这个决定带来了自身的风险;通常是被抛在后面。但这是个人选择。
如果你在Google上搜索“关于AI风险的书籍”,你会找到一些有价值的书籍选择。我最近听到的一个特别令人不寒而栗的播客是Ezra Klein与Dario Amodei的对话,Anthropic的联合创始人兼CEO(开发Claude.ai的公司)。你会了解到这些公司意识到风险。Amodei提到一个内部风险分类系统,称为A.S.L.,即“AI安全等级”(不是美国手语)。我们目前处于ASL 2,“具有早期危险能力的系统——例如能够提供如何制造生物武器的指示。”他将ASL 4描述为“使国家级行为者大大提高其能力……我们会担心朝鲜、中国或俄罗斯能够在各种军事领域大大增强其攻势能力,从而在地缘政治层面上获得重大优势。”令人毛骨悚然的东西。
在这个严峻的背景下,我将重点介绍对作家和出版商最相关的问题。
版权被侵犯了吗?
版权问题复杂而模糊。看起来某些仍在版权保护期内的书籍被包含在一些大型语言模型的训练中。但并不像一些作者担心的那样,他们的所有作品都被吸入了每一个大型语言模型中。 |
版权问题既是具体的也是广泛的。众所周知,所有的大型语言模型都是在开放网络上训练的——今天网络上的15亿个网站上的所有可抓取内容,无论是报纸文章、社交媒体帖子、网络博客,显然还有YouTube视频的转录内容。
有证据表明,至少有一个大型语言模型摄取了数千本非公共领域书籍的实际文本。
在没有向作者提供任何补偿的情况下,摄取所有这些文本来帮助建立价值数十亿美元的AI公司是否合法?AI公司围绕合理使用提出他们的论点;法院最终将做出决定。即使是合法的,这是否符合伦理或道德?伦理问题似乎比法律考虑要简单。你来决定。
显然,围绕版权的法律没有预见到AI带来的独特挑战,寻找法律解决方案将需要时间,可能是几年。(如果你想深入了解为什么法律不适合解决当前问题,阅读A. Feder Cooper和James Grimmelmann撰写的优秀论文《文件在电脑中:版权、记忆和生成式AI》)
作者的版权与AI
作者面临AI生成内容版权能力的额外问题。 |
美国版权局关于AI生成内容版权能力的立场声明AI本身不能持有版权,因为它缺乏作者的法律地位。这是有道理的。但这假设工作是100% AI生成的。如其他地方所讨论的,很少有作者会让AI生成整本书。更可能的是5%,或10% 或… 在这里,版权局显得犹豫(我也会这样)。
在最近的一次裁决中,版权局得出结论,一部由人类创作的文字与由AI服务Midjourney生成的图像相结合的图画小说构成了可受版权保护的作品,但单个图像本身不能受版权保护。天哪!
总之,作者和出版商需要对多方面不断发展的版权问题保持警觉。 |
长期影响是什么?
有些人将当前的诉讼与谷歌图书诉讼相比,该诉讼花了10年时间才在法律上解决。谁知道这些案件的上诉程序会拖多久呢。在此期间,出版商明智的做法是假设AI公司会败诉,这至少在理论上使任何许可或甚至使用Chat AI的人暴露在某种潜在的责任下。
但这不是出版商最严重的问题。是观感。对许多作者来说,无论是知名的还是默默无闻的,水已经被污染了。AI在写作和出版界是有放射性的。任何与AI有关的东西都会引起强烈的批评。
有很多例子。在最近的一次事件中,英国出版商Angry Robot,一家“致力于现代成人科幻、奇幻和WTF最佳作品”的公司,宣布将使用名为Storywise的AI软件来处理预计的大量手稿提交。公司用了仅仅五个小时就取消了这一计划并回到了“旧收件箱“。
贸易出版商在内部使用AI工具时面临的难以承受的困境:如果你的作者发现了,你将很难应对随之而来的风暴。我相信出版商别无选择,只能勇敢面对,至少采用部分工具,清楚地解释这些工具是如何训练的以及如何使用的,然后继续前进。
在英国,作家协会采取强硬立场:“要求你的出版商确认在与你的作品有关的任何目的上不会大量使用AI,比如校对、编辑(包括真实性阅读和事实检查)、编索引、法律审查、设计和布局或其他任何未经你同意的用途。你可能希望禁止AI进行有声读物的朗读、翻译和封面设计。”
作家协会似乎接受“出版商开始探索在日常运营中使用AI作为工具,包括编辑和营销用途。”我认为协会的许多成员并不是那么理解。
向AI公司授权内容
大多数出版商和许多作者都在寻找向AI公司授权内容的方法。每个人对授权条款和内容价值的看法都不同,但至少讨论已经开始。
有几家初创公司希望与出版商(在某些情况下与个人作者)合作。Calliope Networks 和 Created by Humans 在这方面都很有趣。
七月中旬,长期以来在集体版权许可方面处于行业领先地位的版权清算中心宣布,推出其年度版权许可(ACL)中的“人工智能(AI)再使用权,这是一种企业范围的内容许可解决方案,为订阅的企业提供数百万作品的使用权。”
出版商周刊 报道了这一公告,引用了版权清算中心总裁兼首席执行官Tracey Armstrong的话:“可以同时支持AI和版权,并将AI与对创作者的尊重结合起来。”
尽管并不全面,但这很可能是将出版业与大型语言模型开发者合作向前推进的一次突破。
避免AI已经太晚了
对于那些不希望被AI污染的作者和出版商来说,消息不妙:你今天正在使用AI,而且多年来一直在使用它。 |
人工智能以不同形式已经集成到我们每天使用的大多数软件工具和服务中。人们依赖AI驱动的拼写和语法检查,例如在Microsoft Word或Gmail中。Microsoft Word和PowerPoint应用AI提供写作建议、设计和布局推荐等。虚拟助手如Siri和Alexa使用自然语言处理来理解语音命令并回答问题。电子邮件服务利用AI过滤消息、检测垃圾邮件和发送提醒。AI驱动客户服务聊天机器人并根据你的购买历史生成产品推荐。
其中大部分基于大型语言模型,如ChatGPT。
对于一个作者或编辑来说,说“我不希望我的手稿使用AI”基本上是不可能的,除非他们和他们的编辑都使用打字机和铅笔。
他们可以尝试说“我不希望使用生成式AI”在他们的书上。但这也很难分割处理。语法检查软件最初并不是基于生成式AI构建的。Grammarly已经将其作为产品的一个成分添加,其他所有拼写和语法检查器也将如此。生成式AI也是提供的营销软件的核心。
当作者使用AI时
作者使用AI的另一个方面与上面讨论的版权问题类似。在极端情况下,我们看到100% AI生成的内容在亚马逊上发布。大部分(全部?)质量都很差,但这并不妨碍它们被发布。(另见亚马逊部分。)对出版商来说,更令人担忧的是AI生成的稿件。是的,AI提高了数量,但大型出版商已经有一个数量过滤器。这个过滤器叫做代理。他们将不得不找到如何处理数量问题的解决方案,显然他们必须找到一个不使用AI的解决方案。
这有点像一个存在主义的问题——我想出版一本由‘机器’写的书吗?对于大多数出版商来说,这是一个明确的‘不’。轻而易举。那么,如果一本书有50%的内容是在有能力的作者监督下由LLM生成的呢?嗯,也试着说‘不’。那么25%,或者10%,或者5%呢?你在什么地方画线?
而且,现在你已经进入了画线的业务,你如何解决拼写和语法工具至少部分依赖于生成性AI的困境呢?像Otter.ai这样的AI驱动的转录工具,或者内置于Microsoft Word中的转录功能呢?
我找不到任何贸易出版商声明他们不会出版包含预定数量AI生成文字的作品。以下是作者协会对此话题的看法:
“如果您的稿件中包含大量AI生成的文本、角色或情节,您必须向出版商披露,并且也应该向读者披露。我们认为,作者仅在使用生成性AI作为头脑风暴、创意生成或校对工具时,无需披露。”
无需多说,‘大量’没有明确定义(牛津词典将其定义为“足以被注意到或被认为重要的”),但帖子继续解释说,包含超过“微不足道的AI生成文本”会违反大多数出版合同。法律术语中的微不足道没有精确规定,但一般来说,意思和大量差不多。
AI可以在写作中被检测到吗?
我在2024年5月主持了一场由BISG赞助的关于AI检测的网络研讨会。重播视频在YouTube上在线。简·弗里德曼在她的热点通讯中提供了网络研讨会的全面描述。
对于许多作者来说,AI的毒性意味着要将其远离他们的文字。出版商有特殊的负担——他们不创作文本,但一旦出版,他们就对文本承担重大责任。我们已经看到许多关于书籍的社会影响,或其他作家文字和创意的剽窃问题引发的激烈争议。现在有了AI,我们面临一整套新的伦理和法律问题,这些问题在出版学校里从未被提及。
其中一部分类似于人们对学生的担忧,认为使用AI在某种程度上是作弊,类似于从维基百科文章中抄袭,或者只是让朋友帮你写论文。
我们的一位网络研讨会讲者,教育家何塞·鲍恩,分享了他对学生的披露。这并不完全是作者使用的内容,但它展示了某种“AI使用的风险等级”。
学生模板披露协议
我独立完成了所有工作,没有朋友、工具、技术或AI的协助。
-
我完成了初稿,但随后请朋友/家人,AI改写/语法/抄袭软件阅读并提出建议。在这些帮助之后,我做了以下更改:
修正了拼写和语法
改变了结构或顺序
重写了整个句子/段落
我在遇到问题时使用了词典、字典,打电话给朋友,去了帮助中心,使用了Chegg或其他解决方案提供商。
我使用AI/朋友/导师帮助我生成创意。
我使用辅助工具/AI做了大纲/初稿,然后进行了编辑。(描述你的贡献性质。)
所以出版商可以为他们的作者起草类似的内容。假设作者披露了最高级别:我广泛使用了AI,然后编辑了结果。那么呢?你会自动拒绝稿件吗?如果会,为什么?
与此同时,如果你在关注,你会发现你刚刚阅读并喜欢的那本书,作者发誓没有用过Grammarly的拼写检查,实际上可能有90%是由AI生成的,由一位擅长隐藏其使用的作者生成。
然后你被迫重新思考这个问题。问题变成了:“为什么我如此坚定地想检测这个无法检测的东西?”
部分原因在于围绕AI生成文本的版权问题的危言耸听的担忧。版权局不会为100% AI生成的文本(或音乐、图像等)提供版权保护。那么50% AI生成的文本呢?嗯,我们只会覆盖作者生成的那50%。你怎么知道是哪一半?我们会再回复你的。
如果你能将每份手稿输入某个软件,它会告诉你是否使用了AI来创作文本,那不是很棒吗?
撇开唯一方法是使用AI工具这一问题,更重要的问题是,软件会(足够)准确吗?我能依赖它告诉我是否使用了AI来创作手稿吗?并且我能依赖它不会产生“误报”——即指示使用了AI,而实际上并没有吗?
现在市场上有很多处理这些挑战的软件。 许多评估这些软件的学术研究指出它们的不可靠性。AI生成的文本会漏网。更糟的是,未由AI生成的文本会被错误地标记为被污染。
但图书出版商会希望有某种保障措施。看来,充其量这些工具可以提醒你可能的担忧,但你始终需要再次检查。所以或许它可以提醒你哪些文本需要比其他文本更仔细地检查?这是效率吗?
真正的效率在于超越对文本起源的担忧,而是保持我们现有的质量标准。
失业
“你不会被AI取代。你会被那些懂得使用AI的人取代。” —匿名
AI采用带来的失业可能会很严重。估计数值各不相同,但数据令人沮丧。有明显的例子:旧金山的无人驾驶出租车消除了……出租车和共享乘车司机。AI支持的诊断可能会减少对医疗技术人员的需求。
乐观的我指出一个例子,即电子表格的引入及其对就业的影响。如你在下图中所见,自1990年以来,“会计、税务准备、簿记和工资服务”领域的就业几乎翻了一番——这几乎不能算是对大部分自动化了这些任务的电子表格等技术的控诉。
Ethan Mollick与波士顿咨询公司(BCG)的研究 是一项旨在更好地理解AI对工作,特别是对复杂和知识密集型任务的影响的实验。该研究涉及758名BCG顾问,随机分配使用或不使用OpenAI的GPT-4进行两项任务:创意产品创新和商业问题解决。研究衡量了参与者的表现、行为和态度,以及AI输出的质量和特征。
研究发现之一是“AI作为技能的平衡器。我们在实验开始时评估得分最低的顾问在使用AI后,表现提升了43%,而顶级顾问也有所提升,但幅度较小。” 这篇完整的文章很有启发性,和Mollick的所有作品一样,既具挑衅性又易于理解。
教育
教育在关于AI的优劣辩论中一直处于中心位置。AI进入课堂的引入通常被视为一种诅咒,或者至少是一种挑战。其他教育者,如PW的主旨发言人Ethan Mollick,将AI视为教育者的一种了不起的新工具;Mollick坚持让他的学生使用ChatGPT。
关于这个话题最好的书是 Teaching with AI: A Practical Guide to a New Era of Human Learning 由José Antonio Bowen和C. Edward Watson所著。
我不会在这本书中深入探讨教育出版——这是一个庞大的话题,需另行撰写报告。可以说出版在教育中的兴趣正在减弱:AI工具是软件,而不是内容本身。
搜索的未来
搜索是AI中一个充满争议的话题。我鼓励你访问 perplexity.ai 和 You.com,了解事情的发展方向。下次你想进行Google搜索时,转到Perplexity看看。它不会显得大不相同——它类似于Google经常在搜索屏幕右侧或有时在搜索结果顶部弹出的知识图谱。不用点击链接,信息就在那里为你呈现。 |
Perplexity 更进一步地重新措辞从多个来源收集的信息,这样你真的不需要点击链接。它提供了来源的链接,但点击这些链接通常是不必要的——你已经得到了问题的答案。
这种看似微小的变化对每个依赖搜索引擎被发现的公司和产品都有巨大的影响。如果搜索者不再被引导到你的网站,你如何吸引他们并将他们转化为客户呢?简单的答案是,你不能。
Joanna Penn 站在思考新技术对写作和出版影响的前沿。她在去年12月的播客和博客中讨论了这个复杂的话题。
对于AI和搜索的变革来说,现在还处于早期阶段。
亚马逊上的垃圾书籍
AI生成的垃圾书籍在亚马逊上是一个问题,尽管它们的严重程度可能比实际情况更令人感受深刻。一方面,这些书籍用低质量和抄袭的内容充斥着在线书店,有时还使用真实作者的名字来欺骗客户并利用他们的名声。这些书不仅对读者来说是个麻烦,对作者来说也是个威胁,可能会剥夺他们辛苦赚来的版税。AI生成的书籍还会影响真实书籍和作者在亚马逊网站上的排名和可见度,因为它们竞争相同的关键词、类别和评论。 |
亚马逊现在要求作者披露他们在创作书籍时使用AI的详细情况。毫无疑问,这可能会被滥用。
试着在亚马逊上搜索“AI生成的书籍”。有很多结果。其中一些是关于使用AI创作书籍的教程书。但其他的则是毫不掩饰地由AI生成的。《搞笑和可爱的猫咪图片-你在世界上看不到这些类型的照片-第一部分》(原文如此)被归功于Rajasekar Kasi。作者页面上没有他的(?)生平详情,但有另外六本书也以这个名字署名。这本书于2023年8月26日出版,没有评论,也没有销售排名。这本电子书的不合语法的标题与印刷书封面的不合语法的标题不匹配。
但其他作者显然在创作他们的书时大量使用了AI,却没有披露。如上所述,检测AI的使用对于熟练的‘伪造者’来说几乎是不可能的。涂色书、日记、旅游书和食谱书正以传统出版方式的一小部分时间和精力生成。
搜索“韩国素食食谱”,你会发现第一名是Joanne Lee Molinaro的书。但紧随其后的是其他显然是盗版的书籍。《韩国素食食谱:为韩国美食爱好者准备的简单美味的传统和现代食谱》有两个评论,其中一个指出“这不是一本素食食谱。所有的食谱都有肉和鸡蛋的成分。”但这本书的销售排名是#5,869,771,而原书的排名是#2,852。
很难确定造成的伤害程度。这对任何人都没有好处,但究竟有多糟糕呢?
亚马逊有相关政策,允许其移除任何未能“提供积极客户体验”的书籍。Kindle内容指南禁止“旨在误导客户或不准确描述书籍内容的描述性内容。”它们也可以屏蔽“通常让客户失望的内容。” 是数量太多让亚马逊的监管者难以应对?还是有其他原因?
偏见
LLM是基于已经发布在网上的内容进行训练的。已经发布在网上的内容充满了偏见,因此LLM也反映了这些偏见。当然不仅仅是偏见,还有仇恨,反映在它的学习中,现在可能会在AI生成的文字和图像中输出。色情是AI在图像处理上的另一自然受益者,最近有年轻女性发现被捏造的裸照,她们的男性同学可能是嫌疑人。《纽约时报》分别报道了网上儿童性虐待图片的增加。
作者和出版商在使用AI工具时需要意识到这些内在的限制。
创造力可以是陈词滥调
关于机器是否能真正具有创造力的问题仍然是一个激烈争论的话题。这在某种程度上取决于我们如何定义创造力。 |
“人工智能永远不会有创造力。”这是一个熟悉的口号。
我们都知道创造力是什么,不是吗?
剑桥词典:“产生或使用原创和不寻常想法的能力。”
大英百科全书:“创造某种新事物的能力,无论是问题的新解决方案、新方法或设备,还是新的艺术品或形式。”
我不否认,创造力在这个意义上远远超出了大型语言模型的范围。
我的观点是,大多数被认为是创造性的东西——并且常常看起来相当有创造性——实际上是迭代的。对于许多事情来说,这种方法非常有效,包括大多数广告。
但如果抬高“创造力”的标准,然后贬低大型语言模型,那就设置了一个不可能达到的高门槛,人工智能总是会失败。然后人们会说:“看,我告诉你它没有创造力。”
因此忽视了它在迭代方面非常擅长的事情。
在不久的将来,在我读完以下几本书后,我将发表一篇关于这个话题的长篇文章:
The Creativity Code,作者 Marcus du Sautoy 和
The Artist in the Machine,作者 Athur I. Miller
Literary Theory for Robots,作者 Dennis Yi Tenen
另一个想法
Jeremiah Owyang 是硅谷的一位行业分析师。他是一位人工智能的支持者,但他之前也经历过炒作。他指出,他“从未见过在如此短的时间内有如此快速的进化。”
正如 Owyang 所说,小团队的程序员现在可以使用大型语言模型在两天内组装“有感知的生物”——像一个四岁的小孩。它们可以:
通过计算机视觉“看到”现实世界中的发生的事情,
通过语音指令和现实世界中的环境声音“听到”,
通过处理上述现实世界的输入进行“思考”,
通过访问预训练数据进行“学习”,
参考独家数据集,
通过具有语调和音调的逼真语音进行“讲话”,可以使用任何语言,
通过文本通信进行“写作”,可以按照任何需要的格式或风格,
通过自发创建图像进行“绘画”,以及
“互动”:它可以主动参与对话,提出问题,或指派人工智能代理独立完成任务。
这是前所未有的非凡成就。它对出版业有影响吗?你来决定。
出版业之外的好东西
人工智能在出版业之外也有一些突破性的成就。医学是人工智能的典范,但其他行业也有一些强有力的故事。与出版业的相关性源于一个修辞性的问题:人工智能可以拯救生命。但你不认为它可以帮助出版商吗?
这个简短部分的目标只是为了反驳这样一种论点:不相信人工智能能帮助出版业,那人工智能真的能帮助任何人吗?
人工智能与医学
阅读2024年3月的《经济学人》杂志,我深入研究了其关于健康和人工智能的技术增刊。在过去的几年里,医学始终是人工智能的亮点。大多数报道都是积极的。但《经济学人》的特辑会让你大吃一惊。他们确实表达了许多言之有理的保留意见。但你也会看到,医学中的人工智能“代表了一个改善数亿甚至数十亿人生活的机会。”
对于那些试图禁止人工智能技术,或者至少暂停其发展的人的另一个修辞性问题是:你会为了满足你对不确定未来的担忧而牺牲它对数百万人健康的潜在价值吗?
人工智能与机场的TSA
我们都经历过:无尽的排队,随身行李在X光扫描仪中缓慢移动。
TSA的检测失败是有据可查的,但很少被讨论。
最让我苦恼的是那些可怜的工人,盯着屏幕一连几个小时。为了什么?不仅是工作悲惨,而且作为普通人,他们做得也不好。
引入人工智能。如果它能发现肺部难以检测的肿瘤,我相信它也能检测随身行李中的违禁品。并解放人类从事不适合他们的无偿工作。
根据这篇报道,新的TSA人工智能辅助筛查计划正在进行中。
文章:人工智能对图书出版业的影响
我最近与我的AI网络研讨会伙伴Peter Brantley谈论了我们如何塑造即将到来的AI项目。Peter大部分时间都在图书馆界工作,刚刚从洛杉矶参加了一个为期一天的活动回来,那里有大约150位他的图书馆同事,他们一起探讨了人工智能对他们行业的潜在影响。讨论非常热烈和深入。他不禁疑惑,为什么贸易书籍出版商没有类似的聚会?人工智能是每个出版活动的话题:为什么它不是唯一的话题呢?
人工智能的现实影响
他得出的答案是,贸易书籍出版商尚未得出结论,认为人工智能会对他们的业务产生任何现实影响。对他们业务的核心,对他们进行业务的能力。当然,它可能会帮助撰写新闻稿或拒稿信,但他们认为出版仍会像几十年来一样继续进行,从合同到印刷书籍的平均时间拖延长达两年。
同时,出版商当然面临比人工智能更迫切的短期挑战。纸张价格。运输成本。利润率缩小。整体销售基本持平。在所有这些压力下,谁有时间或精力关心人工智能呢?
其他图书出版部门开始掌握人工智能的影响。学术出版正在深入研究这项技术。但贸易出版商却表现得好像人工智能不会带来任何现实影响。
那么,实际影响可能是什么?它会影响书籍的供应吗?还是书籍的需求?
供应:是的,人工智能是亚马逊上大量新垃圾书籍的罪魁祸首。数百本?肯定有。数千本?也许有。数百万本?不可能。亚马逊上有多少书?超过5000万本。已经很拥挤了。
撇开这些不谈,很明显,在短期内,人工智能不会写出人们真正想读的整本书。到目前为止,它的价值在于作为写作伙伴——批评,建议,偶尔写出几段有用的文本。不,在短期内,人工智能不会从根本上改变图书出版的成果,新的书籍供应。
需求:不,没有人要求人工智能生成的书籍。这不是一个因素。我无法预见任何情况下人工智能会更广泛地影响书籍的需求。
那么出版过程呢?是的,这将改变。至少有一点改变。正如我们在去年秋天的出版人周刊人工智能活动中发现的那样,出版商正在寻求人工智能的帮助:市场营销,编辑,做这个做那个。
人工智能对大众图书出版业是否会产生少量的现实影响?也许它只是一个玩具。
让我们从人工智能的细枝末节中退一步,重新审视大众出版业的困境,通过这些,深入探讨人工智能可能产生最大影响的地方。
出版业几十年来一直在经济衰退中
根据不同的估计,美国整个图书出版业的年销售额不到350亿美元。即使是400亿美元,苹果公司的年销售额也比这高出10倍。苹果的毛利是销售额的44%,净利润是销售额的25%。出版业甚至不敢梦想这样的利润率。
大众图书出版业几十年来一直在温和的经济衰退中,有些年份增长几个百分点,有些年份下降。到2024年中期,销售额看起来年年稳固,但这只是出版商熟悉的夏季恋情。我们有时赢,有时输,但总的来说,大众图书出版业不是一个增长行业。
根据美国出版商协会2023年StatShot报告,2023年“贸易收入下降了0.3%,全年为89亿美元”。据我所知,美国出版商协会的数据没有考虑通货膨胀率。在3.4%的通货膨胀率下,销售额的下降将是3.6%,更接近于Circana报告的2.6%的单位销售量下降率(来源)。
如果没有电子书和有声书等替代格式的增长,这个行业可能会处于非常糟糕的状态。多年来,电子书一直是增长引擎。有声书销售继续上升,2022年增长了近15%,2023年又增长了9%。是的,其中有一部分是替代销售,但很多电子书和有声书的顾客是新顾客,不一定是常规的书籍读者。去年,电子书和有声书占了交易销售的21%。如果只有印刷书,这些顾客都会购买印刷书吗?
随着成本和零售商及批发商折扣的增加,零售定价越来越成为一个关注点,挤压了出版商的利润率。学术研究表明,书籍的价格有一定的弹性,但我们肯定已经达到了抵抗点:精装畅销书正在接近35美元的价格上限。“订阅疲劳”正导致视频点播客户取消服务,关注每个服务的成本增加。Netflix的高级计划现在为每月22.99美元;Disney Plus Duo Premium为每月19.99美元。一位同事最近对我说,有多少经济拮据的订阅者会说,哦,让我们取消Netflix订阅,这样我下个月就可以买一本书?
图书出版业的薪资
我不会再过多地讨论这个问题:不仅是作家在努力谋生,出版业的员工相比其他类似职业也严重低薪。
我保留了代表性的一些近期出版行业的招聘信息。我正在看一个贸易出版商的市场经理职位,该公司2023年的销售额刚刚超过3000万美元。这个职位的年薪在60,000到70,000美元之间。这里还有一个,是一个年销售额为7.5亿美元的出版商旗下某个品牌的宣传经理职位。招聘信息指出:“这个职位的年薪为74,000到79,000美元。”
根据美国劳工统计局全国职业就业和工资估算,市场经理的平均年收入在所有行业中为$166,410。公关经理的平均收入为$159,420。
图书出版业根本无法与之相比。对于任何在出版行业工作的人来说,这并不是什么新闻。一直以来都是这样。但出版业能在这些工资水平上维持下去吗?无法为候选人提供甚至一半的工资标准对一个日益数字化的行业来说并不是好兆头。
在TikTok、YouTube、社交媒体、搜索引擎优化、元数据和作者平台的时代,“宣传经理“到底是什么角色?
传统图书出版商的三个(半个)优势
传统图书出版商的三个持久优势是:(i)声誉,(ii)接触主流媒体的机会,(iii)书店发行的机会。这并不适用于所有传统出版商——最大的一些拥有更多的每一项:更多的声誉,更好的主流媒体接触机会,以及更多机会将他们的书籍摆在最多书店的前台。但总的来说,这些是传统图书出版行业的典型优势。
另一个出版商可以提供的价值是一个精心策划的互补书目,每一本书都能从其同伴中受益。想象一下像Fox Chapel这样的出版商,专注于工艺书籍:如果你喜欢他们的一本书,那么你很可能会仔细看看他们在同一主题上的其他书籍(和杂志),即使它们是由其他作者写的。
这也涉及到只有少数出版商成功开发的东西,一种可市场化的品牌。想想Wiley的“傻瓜系列“或牛津的“非常简短的介绍“系列。这个品牌传达了一种编辑方法和质量的一致性,鼓励读者购买多本书籍。自出版者经常推出自己的短系列,主要是小说,但他们无法涵盖这些大出版商目录的广度。
传统出版商提供的所有其他服务都可以在公开市场上以类似的质量和可负担的价格购买(例如,编辑、设计、制作和基本的营销功能)。对于自出版者来说,每本书售出的收入是传统版税的五倍或更多。
我将在本书末尾的一个简短附录中对此进行更深入的探讨。但让我迅速贬低前三个优势的价值。声誉对炫耀权利有好处,但现金价值有限。书评和其他主流媒体曝光现在对书籍销售的影响大大减小。而书店占行业销售额的大约15%(自出版作者的比例更低)——它们不再是书籍成功的核心。
事情已经变了。
自出版
在过去十多年里,自出版一直是消费者(贸易)出版增长的主要推动力。关于自出版的准确销售数据仍然隐藏——很容易忽视其重要性。但现有数据表明自出版在贸易出版市场中占有相当大的份额。
如Kobo CEO Michael Tamblyn(某种程度上)著名指出,“我们销售的每四本英语书中就有一本是自出版的,这意味着对我们来说,自出版就像市场上存在一个完全看不见的另一家企鹅兰登书屋。这就像出版业的暗物质。”
自出版市场的趋势可以说是贸易出版中唯一显著的趋势。自出版作者在引领潮流。他们大胆且不受传统行业习俗的束缚。许多人对社交媒体非常熟悉。他们与读者,他们的客户关系密切。如果你想学习最新的营销技巧,关注作者的论坛、博客和新闻通讯。
深入挖掘作者收入统计数据,写作经济学,然后将传统出版作者收入的下降与自出版作者收入的增长进行比较。在我与Steve Sieck为ALLi在2023年进行的一项国际调查和报告中(pdf),我们发现“2022年所有自出版者的中位写作和自出版相关收入为$12,749,比前一年增长53%。平均(均值)收入则更高:2022年为$82,600,增长34%。”
[在一项由Peter Hildick-Smith为Authors Guild进行的独立调查中,“全职自出版作者,自2018年以来一直在出版,报告的平均收入为24,000美元,而2018年为13,700美元,增长了76%。”
混合出版商
为了全面考虑,我还想提到混合出版商。我对混合模式越来越感兴趣,混合出版领域正在显著增长。没有人单独估算混合销售额,但其影响最明显地体现在两个类别的主导地位上:名人书籍和热门商业书籍。这些类别长期以来都是贸易出版商可靠的收入来源,但混合出版商的“礼宾服务”和更加有利的收入分成对许多高知名度作者来说是不可抗拒的。
最近的例子,如Authors Equity与其作者的利润分享关系,以及Keila Shaheen与Simon & Schuster的50/50利润分享,表明混合模式正趋于正常化。这对作者来说是好消息;对传统出版商则不太乐观。
超越出版商的出版
我与Rüdiger Wischenbart合作撰写了一份报告,基于他原始研究“超越出版商的出版”。我们试图尽可能全面地理解和量化全球所有与书籍相关的出版活动,这些活动可以(也应该)作为现代出版生态系统更全面的一部分。
一旦你超越了书籍的容器,你就会发现AI真正可以产生影响的地方。
我们项目的典型代表是Wattpad,那里“9700万人每月花费超过230亿分钟参与原创故事”。这些故事主要在智能手机上以短片段形式在线体验,很少成为出版的书籍。它们很有可能进入“Wattpad WEBTOON Studios,该公司的电视、电影和出版部门。”
年轻读者比年长的读者更适应在线数字阅读。根据2024年1月Wattpad调查,“数字格式在年轻一代中越来越受欢迎,65%的Z世代和71%的千禧一代接受网络小说、电子书和网络漫画,而不到一半的X世代和婴儿潮一代表示同样的情况。”
当然,传统出版行业现在也在学习:“多样性是接受数字格式的关键驱动因素:61%的Z世代和70%的千禧一代认为电子书、网络小说和网络漫画让他们接触到在书店和图书馆中难以找到的内容,包括LGBTQ+和少数族裔为主的内容。”
Wattpad有竞争对手,包括Inkitt,据Publishers Weekly报道,最近从投资者那里筹集了3700万美元,包括Holtzbrinck Publishing Group的所有者Stefan von Holtzbrinck和前Penguin CEO Michael Lynton;到目前为止,它总共筹集了1.17亿美元的投资。2023年2月,金融时报称Inkitt是欧洲增长最快的公司之一,排名第八,德国排名第一。Esquire 7月9日的文章概述了Inkitt对AI的使用及其在成功中的作用。
你们中有多少人听说过Inkitt,访问过其出版平台,或者下载过其Galatea阅读应用?
但是我们的“超越出版商的出版报告”不仅限于在线故事平台,还考虑了“内容如何以多种格式(印刷、数字)、媒体(书籍、音频、电影、游戏)、分发渠道(社区、平台、流媒体)和商业模式(产品销售、订阅、流媒体、免费增值、付费模式)进行创作和传播,主要是在数字定义的供应和营销链中。”图书出版商因为不符合他们当前的商业模式而错过了多少机会?
创新、技术和图书出版
除了电子书,现代出版业从未面临技术威胁。(数字有声书更多是带来了欢喜而不是担忧。)互联网时代的黎明为出版商提供了更多机会而非威胁;其实只是一个由互联网推动的单一零售商,亚马逊,打破了常规。
我从未见过关于亚马逊是否(在其所有操作和影响全面考虑后)对图书出版业净收益的研究。它接触到了许多实体书店无法服务的买家,并且愿意牺牲利润来保持低价。电子书和有声书可以大规模交付。但亚马逊能够削减价格,部分原因是它要求供应商提供高折扣和费用,并扼杀了其他零售渠道。这里有痛苦的权衡。
不过,不要在自出版作者面前批评亚马逊。没有The Everything Store,他们根本无法开展业务。
创新者的窘境
为了了解人工智能对图书出版即将产生的影响,我推荐Clayton Christensen的创新者的窘境:当新技术导致伟大企业失败时,该书由哈佛商业评论出版社于1997年首次出版。
Christensen研究了现有(在位)公司如何屈服于创新力量。
成功的、管理良好的公司在面对行业中的颠覆性变化时往往会失败。常规的管理实践,曾帮助他们成为行业领导者,却使他们难以灵活应对可能蚕食其市场的颠覆性技术。
他们忽视了颠覆性技术孵化出的产品,因为乍一看,它们与现有产品相比显得逊色。他们最有利可图的客户通常无法使用所谓的创新产品,也不希望它们。公司试图通过加倍现有产品和服务来抵御颠覆性威胁。
Christensen的关键见解是,通过做出明显“正确”的事情,包括倾听客户,成功的公司使自己完全暴露于颠覆性创新之下。他们专注于当前客户,忽视了最初针对小型、利润较低市场的重要新技术。这为灵活的初创公司打破领导者创造了机会。
Chris Dixon 在讨论这本书时指出,“大新事物之所以能绕过在位者,是因为下一个大事物总是从被视为‘玩具’开始。”嗯,是的,很多人认为Chat AI是玩具。
出版商是否未能认识到基于生成式AI的创新可能会颠覆其脆弱的商业模式?
小说与非小说
AI对图书出版的影响在小说出版和非小说出版方面肯定会有显著不同。
图书出版业往往没有被充分分析为两个分裂的行业,一个出版小说书籍,另一个出版非小说书籍。
虽然大多数贸易出版商既提供小说也提供非小说书籍,但这两种形式在行业内的差距在书籍出版数量和书籍销售上都很明显。估计各不相同,但每年出版的书籍中,小说书籍大约只占10%。然而,销售额却大大偏向小说。年年有变化,但小说约占年度贸易书籍销售的一半。去年前25名畅销书中有21本是小说。根据Wikipedia的汇编,所有曾经卖出超过2000万册的英文书籍中,84%是小说。
图书销售趋势一向难以预测,但小说销售似乎持续上升。2019年跌至32%后,2022年占据了成人市场的40%,2023年略有增长。2024年上半年,成人小说销售额又增长了6.3%。
虽然人工智能将在小说创作过程中被越来越多地使用,如其他地方所讨论的那样,但似乎不太可能出现人工智能生成的故事占据畅销书排行榜的情况。某些类型小说达到“足够好”的水平是可以想象的,但这并不应该让作者和出版商夜不能寐。
另一方面,非虚构类书籍的写作和出版将在各个方面得到人工智能的支持和推动。这已经在发生了。非虚构类作者正在利用聊天人工智能的多种才能,既作为研究助手,也作为写作助手。而非虚构类出版商将越来越多地依靠聊天人工智能来帮助进行手稿开发、事实核查、编辑、营销和分发。
作者面临生存威胁吗?
我与一位非常聪明的作者代理进行了交谈,她一直在思考人工智能对她的客户以及所有专业作者的意义。话题转向了书籍作为“容器”的想法,我请她对此想法进行详细阐述。她的回答是:
“基本思路是,当作者/代理将书籍交给出版商时,它就是一本书。大家都明白它可能会成为我们熟知的各种衍生作品形式之一(翻译,戏剧改编,漫画小说等),但所有这些都是次要的,最重要的是‘作品’本身。作品不是由词语或短语或事实组成的袋子,它是由作者以一种独特的方式结构化的东西。打破容器,摇动拼字袋并抽出随机选择(这并不完全随机,因为这是一个由特定作者的句法和语义以及风格组成的拼字袋),这不是我们在将权利授予出版商时所考虑的。
“这本书是一个整体,其价值大于各部分之和。它是创作灵感(以及大量创造性智力工作的)产物,将所有这些内容组合在一起,成为一本书,而不仅仅是‘一本’书,而是由那个特定作者创作的书。”
书籍中蕴藏着宝藏
当我想到非虚构类书籍时,打破容器是人工智能时代的好处之一。你打破了容器,就像法贝热彩蛋一样,其中包含着宝藏。
容器的限制既是优点也是缺点。一方面,“作品不仅仅是由词语或短语或事实组成的袋子,它是由作者以一种独特的方式结构化的东西。” 但另一方面,在创造容器时,作者由于书籍容器的固有局限性,必须减少、拒绝、重写和重新配置。作品是经过打磨的,但也是经过提炼的,一些东西在这个过程中失去了(同时也获得了其他东西)。
人们不读长篇非虚构类书籍,部分原因是他们已经习惯于在网上浏览所有文字——包括他们的电子邮件。即使是“书籍摘要”模式也失败了——与其说是难以消化的250页非虚构类书籍,不如说是难以消化的8页书籍摘要。
书籍就像午餐盒——所有东西都在一个地方。但我只想要饼干。
对于成名作者来说,摆脱他们的束缚并不容易。但他们可能不得不学会这样做,否则就有可能被新一代熟练的研究人员和作家所超越,这些人可以根据需要在有或没有正式容器的情况下表达自己。容器施加了太多的限制和局限。
归根结底,写作行业已经不可逆转地改变了。这就像抄写员的终结。在这种情况下,我们的修道士作者必须走出他们的书桌和书籍的容器化视角,与形式和他们的读者互动。
哦,是的,我非常了解作者的反驳:但我是作家,不是宣传员。我不在社交媒体上。我对与读者实际交流没有兴趣,除了通过我的作品和偶尔的电子邮件以及越来越少的露面。我有一个网站(但说实话,我从不更新它)。我的作品是我送给读者的礼物。他们可以接受我的作品,也可以拒绝我的作品,但我不会加入他们的客厅。
好吧,你可以把卷轴和用貂鼠血制成的墨水收起来了。如今“作者”这一职业要求你走出书桌,去读者所在的地方——他们的客厅,他们的 Facebook 页面。你可以尽情哀叹,我们正在关闭你的资助、你的终身职位和你的出版机会。这是一个作家和读者的勇敢新世界,没有出版商,那些努力提升你作品却不断打断你与最重视你作品的读者直接联系的可怕中介。
这并不排除优秀的叙事非虚构书籍能够吸引敏锐的读者。恰恰相反。 这些书籍可以继续闪耀。仍然会有畅销的非虚构书籍,尽管只有最畅销的作家才能在经济上站稳脚跟。当前的模式不需要消失,新模式才会蓬勃发展。
我将这些优秀的非虚构书籍视为“美丽的”。“美丽”是指写得美丽、精心编辑、设计考究,并用 FSC 认证纸张印刷,书页边缘不规则。在精品店里出售。
这些精品店被称为“书店”,但它们具备精品零售的所有特点——漂亮的物品,由店主和经理精心挑选,有点贵,但对于那些珍惜这些物品的人来说,物有所值。
大多数非虚构作家的任务现在是超越容器,以及作为守门人的出版商。
多媒体的内容容器
读者群体,尤其是年轻读者,越来越“对媒体无偏见”。为了寻找娱乐或知识,他们可能在看 YouTube 或 TikTok 视频,看 Netflix 系列剧,在 Spotify 上听音乐,浏览 Instagram (“Insta”),了解新闻,或者偶尔读一本书。
(爱抚印刷书籍的 BookTok 居民是一群珍贵的影响者,但整体市场影响不大。)
然而市场模式仍然专注于独特的容器。出版业。电影业。电视业。音乐业。
电影不是书籍。YouTube 视频不是电影。播客不是有声书。
这些分隔并非历史的必然,而是强大组织长期商业决策的结果。
颠覆建立在单一容器基础上的商业模式并不难。
尽管当前一代生成式 AI 对语言的熟练掌握,它在产生声音、图像和视频方面的魔力更加自信。AI 使这本书能够提供多种语言的有声书,以及 31 种电子书翻译。如果没有 AI,这一切几乎不可能实现——传统生产的经济学对我来说毫无意义。
容器分隔
内容创作者传统上受训专注于单一容器领域。我们有写作课程和电影课程和音乐课程。我们很少想到创意作家也可以辅修电影或音乐。或者计算机编程或应用程序开发。
跨媒体 怎么了?教创意人才成为“数字媒体大师”的课程在哪里?
最好的内容总会胜出。但是,随着时间的推移,内容容器的重要性越来越小。数字一代可能不是对容器无偏见,但他们对容器灵活。他们大多数内容都是通过智能手机数字化接收的。印刷品将继续找到受众,但它永远不会再占据中心位置。
“未来的出版商”也需要对容器灵活。内容分发的增长大多不是通过纸上墨水,也不是 EPUB 文件中的文字。有声书的增长并非偶然,YouTube 和 TikTok 的流行也不是。
更大的挑战在于使新内容和现有内容可发现,无论其形式如何,然后在发现后,将意识转化为购买决定。
发现和转化
在线发现问题已经存在了一段时间;AI 并没有创造它。行业老手 Mike Shatzkin 已经多次强调了这一问题 不止一次。有这么多的书籍以印刷形式存在,数字格式使它们可以持续印刷。数百万本绝版书籍可以从二手书零售商处找到。除此之外,每年仅英语就有两百万或更多新书出版。AI 会使饱和问题变得更糟,但它已经失控。
亚马逊的算法并非无私——它们非常擅长呈现最有销路的书籍,即你最有可能购买的下一本书。这本书不仅仅以其销量为特征。它卖得最好不是因为某些骗子优化了在线列表。它卖得最好是因为它确实是最好的,欣喜的读者告诉其他人买它,无论是在线还是面对面。(亚马逊鼓励广告扭曲其算法,是平台“骗局化”(enshittification)的一部分。)
我上面谈到了元数据。转换和发现一样令人头疼。人工智能能帮助作者将浏览者转化为买家吗?
版权的未来
人工智能使版权的概念变得荒谬。这并不是说人们不希望或不应该保护他们的作品——可以说他们比以往任何时候都更应得到保护。这也不是说人工智能使版权无法执行(至少在某种形式下,即使不是目前的形式)。
问题在于“版权保护”也成为了一个面纱,使你的作品消失。如果你的书不能通过与ChatGPT的对话被引用,那么实际上它就不存在。人工智能公司只会授权精华内容。他们不需要脱脂奶。
为什么要保护那些找不到的东西呢?
这就是发现问题可能变成灾难的地方。Google仅通过元数据就能很好地发现书籍。人工智能需要整个内容。与传统搜索引擎不同,人工智能不仅仅基于作品的抽象元数据来响应用户查询。
同时,改变内容容器,比整本书更不同的容器,提出了不同类型的版权挑战。如果书的文本可以根据读者输入实时改变,那么文本的版权是什么?
作者与读者
出版商需要作者;作者不需要出版商。
出版的未来是作者与读者之间的亲密关系。这远比作者与出版商以及读者与出版商之间的关系更强。出版商可能成为作者与读者关系的障碍。在许多情况下,他们不是促进这种关系,而是阻碍它。
很长一段时间以来,获取高质量书面内容的唯一途径是通过书籍或有限的期刊选择。显然,现在情况不再是这样。除了其他媒体的干扰,现在有很多不同的途径可以获取(非容器化的)高质量书面内容。书籍不再享有曾经的优越地位。
人工智能可以交流
“我接下来读什么书最合适?”生成式人工智能可以以前所未有的优雅和精确回答这个问题。随着人工智能成为可靠的推荐引擎,作者将需要通过该引擎进行交流。(当然,Amazon正在研究这一点,并且拥有你之前购买的记录的优势。)
结论
那么这将我们带到了哪里?
我觉得有必要列出出版面临的挑战。聊天人工智能正值传统出版困境之时到来。它不是在一个行业繁荣、可以说“我们不需要什么新奇技术;我们做得很好”的时候到来的。
我上面谈到了出版业面临的最紧迫的挑战:成本上升和利润缩减。
狼对越来越陡的折扣的需求永远不会满足;利润率不会改善。零售价格接近上限。目前的传统出版模式的未来在于降低成本。
工资不能再低了,所以我们需要在生产周期内削减成本。
但出版商几十年来一直在试图削减生产成本。虽然有一些显著的成功,但我们已经耗尽了当前的选择。
我已经展示了人工智能可以在整个工作流程中为出版带来效率。它们不是即时的也不容易:你需要努力使用人工智能。但机会在那里。
出版商并不打算减少人员,所以目标必须是基于现有的员工资源更快地将更多的书推向市场。人工智能工具可以进一步实现这一目标。
当然,总是有销售更多正在出版的书籍的目标。人工智能在这方面也可以提供帮助。
我上面描述了人工智能如何也可以对出版的未来产生变革。
不要担心这个。整理好你的事务,我们再进一步讨论。
单一资源
现在有几乎无穷无尽的材料可以帮助你了解人工智能,当然,太多了。选择你喜欢的媒介:书籍、博客、新闻通讯、视频、播客、课程和心灵占卜。我在这本书中链接了一些关键来源,值得点击一些随机链接看看它们带你去哪里。
目前只有一本优秀的人工智能初学者书籍,Ethan Mollick的共智,于2024年4月初发布。它取材于他同样出色的新闻通讯“One Useful Thing”。
旁注:撰写本书的资格
我不想在介绍中增加这些信息,但我知道很多人对今天写关于人工智能的作者持怀疑态度,怀疑这些作者是否把自己打造成了现代的人工智能专家。毫无疑问,有些人确实如此。我希望我有足够的资格来完成这个项目。
我在1988年读了第一本关于人工智能的书,这本书是在两年前出版的,由Terry Winograd和Fernando Flores合著的Understanding Computers and Cognition: A New Foundation for Design。这本书内容晦涩——很多内容超出了我的理解范围——但这是我第一次对人工智能在图书出版中的可能性感到兴奋。
那时,我已经深入参与了由桌面出版、苹果电脑、PageMaker等引发的出版数字化浪潮。1986年,我监督开发了Page One自动化图书出版软件,这个程序可以将Microsoft Word文件格式的书稿在几分钟内排版成整本书。今天这很容易做到,但当时并不容易。
此后,我继续从事出版技术的工作,担任顾问和分析师,与包括Adobe、Apple和Microsoft在内的一些领先的软件和硬件供应商合作。我还参与并部分拥有了一家名为Enfocus的软件公司。我们创建了一个用于印前工作流程的自动化系统。
当时我们还没有接触到人工智能,但我们非常擅长释放全自动出版生产系统。正如人工智能可以与魔法难以区分一样,最好的自动化也会显得类似于人工智能。
快进到2016年,我的同事Cliff Guren帮助我关注图书出版中的人工智能:事情似乎终于有了进展。The Bestseller Code(Archer和Jockers)于2016年9月出版,明确表明计算机可以高度准确地解释文学的质地。
那时,我已经密切关注图书出版初创公司,其中有少数公司在其软件产品中融入了一些人工智能技术。
再次快进到2022年10月。
在大家开始广泛讨论这个话题的几个月前,Tim O’Reilly在PageBreak会议上介绍了“人工智能与出版转型”。O’Reilly在出版界非常有名,既因为O’Reilly Media,也因为Tools of Change会议。他是科技界的顶级远见者之一。
O’Reilly不仅对人工智能的新进展充满热情,甚至有些过头。他说:“我们现在的感觉很像1992年我们发现万维网时的感觉,”并接着说“这与VisiCalc、个人电脑和网络浏览器一样具有变革性。”
他承认(在当时)用例仍然模糊,指出了O’Reilly Media的一些试点项目。但他说,“这在快速变得更好。机器学习不再是未来的事。这是关于人工智能的民主化。”
O’Reilly谈到出版商应该如何应对这些新技术,表示他们需要“知道何时烧船,全力以赴。有时候你必须做出承诺。”
ChatGPT直到一个月后才发布。PageBreak是第一个将其放在中心位置的出版会议,通过Tim的见解。
披露
本书有五个赞助商。我在写这本书时就知道不会有太多财富可寻,所以我决定通过邀请赞助商参与来支持我的努力。
正如我在我的网站上所指出的,作为顾问、分析师和记者,我支持国际记者联盟全球记者伦理宪章。第13段明确规定了避免利益冲突或“混淆(我的)活动与广告或宣传活动”的义务。
有赞助商意味着存在利益冲突和广告混淆。如果我在《New York Times》工作,答案很简单:“不”。但为自己工作时,披露是我满足这些义务的武器:我会描述我所收到的回报,你可以在我的工作中判断我是否受到了影响。
我选择邀请这些赞助商参与这个项目,因为我不仅熟悉他们的工作,还熟悉他们组织中的个人。他们是我的同事和朋友。我告诉他们,他们的产品可能会在本书的文本中讨论,但他们对这些话没有控制权。他们可以控制的是本书末尾的广告——我会按他们提供的内容发布。这就是我所做的。
我从其他人那里收到了可能影响我在这本书上工作的付款——我可以列举以下几点:
我没有为本书中描述的AI供应商(包括赞助商)做过任何有偿咨询工作。
我从2023年9月的Publishers Weekly AI网络研讨会中获得了一些利润分成收入。
我为我的Publishers Weekly文章获得标准报酬。
如果你发现任何你认为可能由这些参与导致的偏袒,请告诉我。我对AI的偏爱是在巨额财富流入之前形成的。
致谢
如果没有Publishers Weekly的支持,包括名誉主编Jim Milliot和CEO Cevin Bryerman,我不可能有资格讨论AI。Jim支持我早期关于AI的写作,而Cevin(以及Krista Rafanello和团队的其他成员)对去年秋季会议人工智能与图书出版革命的成功起到了关键作用。Andrew Albanese现在是PW的执行主编;Ed Nawotka是高级编辑。我很幸运能与他们共事。
同时感谢众多同事……
Peter Brantley
Cliff Guren,长期的辩论伙伴和我的草稿的洞察读者
两位其他“测试”版读者,提供了宝贵的反馈:Joe Wikert和Brad Farmer
我的出版技术合作伙伴,Ken Brooks,Bill Kasdorf,Bill Rosenblatt,Bill Trippe,Steve Sieck,以及我们最新的合作伙伴,Lettie Conrad和Linda Secondari。
我的妹妹Anne Pashley,她帮助我保持出版创业数据库的更新,并不断激励我的努力。
我每月AI网络研讨会的合作伙伴:BISG的Brooke Horn和Brian O’Leary。
Bill Kasdorf帮助我深入研究了本书的无障碍问题。
Leanpub的Peter Armstrong和Len Epp耐心处理我的问题,帮助我在Leanpub平台上提供最佳的结果。
ElevenLabs的Hugo Rayne,提供有声书支持。
我的好朋友和可靠的写作和推理瑕疵探测器Bob McArthur。
附录:探索传统出版的剩余优势
传统出版的声望是大多数人加入这一行业的原因。我们从小就热爱书籍,上大学时学习英语或类似的专业,踢踢踏踏一段时间,可能在书店找了份工作,或者获得了出版硕士证书,然后在出版公司实习,现在我们在这里。你热爱你的工作,尽管工资低,工作条件并不总是令人愉快。
同样的声望也推动了出版供应链。在供应链的输入端:这对许多作者来说意义重大。我们经常看到这一点。传统出版的经济学没有任何意义,出版时间是自出版的四倍,但也许,也许,我会成为下一个新秀,像Delia Owens(Where the Crawdads Sing)或第二次成为超级明星的Amor Towles(A Gentleman in Moscow)。
这就像拉斯维加斯:除了在内华达的赔率更高。在轮盘赌中玩单个数字,赔率是1比36。玩传统出版,赔率……更糟糕。
与任何传统贸易出版商签订合同的几率很低,更不用说五大之一了。但这不是作者面临的最大问题。实际上找到读者才是最大的挑战。
一个有助于实现这一点的方法是登上畅销书榜单。
让我们来看看企鹅兰登书屋(PRH)。该公司每年仅出版15,000本新书。2021年,他们成功将196本书送上了Publishers Weekly畅销书榜单。如链接文章所述:“PW发布了四个成人畅销书榜单,每个榜单有20本书:精装小说、精装非小说、平装书和大众市场平装书。这意味着在一年中,我们的榜单上有2080个精装书名额和2080个平装书名额。
并不是所有的畅销书都是当年新出版的——我们可以大方地猜测,90%是新书,即1870个名额。
同时,纽约时报每周有15个畅销书名额(分为小说、非小说、儿童书籍;分别列有青年成人和实用书籍;精装书与平装书分开,另有综合榜单)。对于个人作者来说,这意味着每年有780个可用名额,尽管这些名额大多由重复上榜者占据。(The Body Keeps the Score by Bessel van der Kolk 已经在平装书榜单上待了五年半!)所以我们将其减半,即390个可用名额。要占据其中一个名额,你必须卖出大量的书。
纽约时报书评的报道呢?2016年,当时的书评编辑Pamela Paul声称“纽约时报书评每年评论大约1%的新书。”显然,她指的是顶级出版商的书——她不可能考虑小出版社或自出版的作者。所以,每年大概有150本企鹅兰登书屋的15,000本新书被评论。
大多数观察者认为,尽管获得顶级媒体的关注仍然重要且可能产生影响,但评论的影响力已经不如从前,理由之一是与主要评论渠道互动的书籍读者减少了。
让我们将注意力转向下游的供应链,研究分销。虽然出版品牌对作者有分量,但一直以来,出版品牌对书籍购买者和读者几乎没有分量。可它们对分销商和书商却非常有分量。这反映了出版业历来是企业对企业的性质(而不是面对消费者的B2C)。出版商的声望通过分销和零售渠道传播:Barnes & Noble 会因为一本书是来自企鹅兰登书屋而上架,然后将它放在买家的面前;于是声望就这样传递给了读者。
赞助商
David Lamb 和 Susan Reich 于2016年成立了Book Advisors LLC,专门从事出版业的并购咨询。我们已经完成了十几笔交易,以及各种财务、分销和运营咨询项目,包括公平市场估值。我们很高兴最近与Clarke & Esposito、Thad McIlroy的The Future of Publishing以及Kuo-Yu Liang的Ku Worldwide合作。
我们以关系、勤勉和谨慎为荣。无论您有意购买、出售、融资还是咨询,请与我们联系,进行保密讨论。
bookadvisorsllc.com | bookadvisors@gmail.com
Firebrand Technologies 是一家软件和服务公司,三十多年来一直为图书出版商提供数据和工作流程管理解决方案。
NetGalley 是一个在线平台,将出版商和作者与评论者、图书馆员、书商、媒体和教育工作者连接起来,他们在 NetGalley 上发现新书并向他们的受众推荐。
作为软件和数字解决方案的开发者,Firebrand Technologies 和 NetGalley 也是出版行业的专家和活跃成员。我们的解决方案惠及出版过程的各个方面,从收购到销售和市场营销。
NetGalley 帮助出版商为书籍建立热度,快速获得反馈和评论,并发现早期趋势。
Title Management Enterprise 及其紧凑版 Title Management Lite 是 Firebrand 的核心软件应用程序,提供整个出版过程中的高级工作流程管理。
Eloquence on Demand 是出版行业最强大的 ONIX 分发平台,将元数据和数字资产分发给超过 600 个贸易伙伴,支持 ONIX 和其他格式。
Flywheel 是一项后备书单营销服务,识别后备书单中的隐藏机会以提高可发现性和销售量。
Eloquence on Alert 监控市场中的实时书籍数据和趋势,并提醒出版商可能影响销售的重要错误和机会(缺少购买按钮、第三方卖家等)。
FlightDeck 是最先进的 EPUB 验证和测试工具。
欢迎体验更好的图书印刷方式。
Perfect Bound 创建于 2022 年,旨在解决困扰图书出版行业多年的供应链问题。印刷商的产能过剩期和供应短缺导致的延迟窗口交替出现。Perfect Bound 旨在通过让全球各地的印刷商轻松与寻求新动态供应商的出版商联系并开展业务,来打通印刷市场。
什么是 Perfect Bound?
Perfect Bound 是一个双向市场,将独立图书出版商与美国、加拿大、哥伦比亚、巴西、土耳其、中国、马来西亚、印度等地的印刷商连接起来。
一键发现新的出版合作伙伴
我们强大的平台允许您简单地构建产品报价,点击按钮向数百家印刷商发送请求,协商并完成您的印刷作业,并跟踪从印刷到仓库的产品。作为印刷商,连接新出版商、竞标即将开展的项目和获得报酬从未如此简单或安全。
即时与新出版合作伙伴联系
从全球发送和接收印刷请求
执行并跟踪从印刷到仓库的印刷作业
使用 Stripe 的 ACH 支付无缝交易,无需离开平台
认识 Insight,一个专为出版商打造的 AI 平台
“采用 Insight 对我们的出版社而言就像是从骑自行车变成开法拉利。突然间,一切都变得更快了。”
—-德国儿童书籍出版社和 Insight 客户
更智能地工作,取得更多成就
由 Veristage 开发的 Insight 使出版商能够在不断发展的人工智能领域中蓬勃发展。利用 AI 和一套强大的数字工具,Insight 分析并理解您的文档和书籍,以帮助您:
创建、改进和更新 元数据
加快 针对特定标题的市场营销、宣传和销售材料的创建
识别和评估 书籍的关键信息、独特卖点、目标受众、竞争书籍等
优化 您的市场营销和销售内容,以达到最大覆盖面、参与度和销售额的提高
与通用 AI 平台不同,Insight 专为在出版工作流程中运作而设计,帮助您创建出版专用的信息和资产。
如何运作
将您的书籍上传到 Insight 平台
Insight 的 AI 工具分析并理解您的书籍
几分钟内,Insight 为编辑、市场营销、宣传、销售和版权部门生成一系列元数据和关键信息
直接在平台上手动编辑任何信息。您的书籍和 AI 内容会保存在 Insight 中,因此您可以随时访问它们。
使用我们的文档感知 AI 聊天优化您的标题信息,与您的书籍互动,并将书籍细节纳入通信和其他材料中
安全性和版权
Veristage 团队致力于提供安全并保护出版商知识产权的 AI 服务。我们的平台具备先进的信息安全系统,我们只使用不会存储或使用您的数据来训练未来模型的 AI 模型。
适用于各种规模的出版商的解决方案
Insight 旨在为各种规模的出版商服务,从消费类到学术类,从三人团队到跨国组织。我们提供具有竞争力的价格和可扩展的解决方案。
联系我们,了解 Insight 如何为您的业务带来益处: