Generative AI’s系列 | 红杉资本对生成式 AI的预判

从2015年前的小模型，到2015年至今的规模竞赛，再到2022年以后更优、更迅捷、更经济的模型，以及当前杀手级应用的涌现。

摘要

生成式AI的崛起得益于先进的模型、海量数据和强大的计算能力。特别是transformers架构的引入，极大地推动了自然语言处理领域的发展。

生成式AI正在改变多个行业，包括社交媒体、游戏、广告、建筑、编程、平面设计、产品设计、法律、营销和销售等，这些领域都需要人类的原创性创作。

生成式AI的未来应用，包括智能和模型微调、外形规格、交互范式的变化，以及持续的品类领先地位。

尽管生成式AI取得了显著进展，但仍然面临挑战，如如何证明其价值、模型开发堆栈的尴尬期、以及如何塑造新的UI范式。同时，也探讨了生成式AI在不同领域的应用，如文案创作、专业领域写作助手、代码生成、艺术创作、游戏开发、媒体/广告和设计等。

生成式人工智能（AI）以其速度和成本效益著称，并且在某些领域，它的创作质量甚至超越了人类的手工创作。这一技术正在改变多个行业，包括社交媒体、游戏、广告、建筑、编程、平面设计、产品设计、法律、营销和销售等，这些行业都需要人类进行原创性创作。

为何生成式AI在当下崭露头角？

它与AI的广泛发展共享同样的驱动力：先进的模型、海量的数据、以及强大的计算能力。这一领域的变革速度超出了我们的捕捉能力，但简要回顾其近期历史有助于我们理解当前的进展。

第一阶段：小模型（2015年前）

在五年多前，小型模型是理解语言的前沿技术。这些模型在分析任务上表现出色，被用于预测交货时间、分类欺诈行为等。然而，它们在通用的创造性任务上能力有限，生成人类水平的文本或代码几乎不可能。

第二阶段：规模竞赛（2015年至今）

Google Research发表的开创性论文《Attention is All You Need》介绍了一种新型的神经网络架构——transformers，它在自然语言理解方面表现出色，能够生成高质量的语言模型，且更加易于并行处理，减少了训练时间。这些模型能够快速适应特定领域的定制需求。

资料来源：©经济学人报有限公司，伦敦，2022 年 6 月 11 日。

随着AI模型规模的扩大，它们开始在多个领域超越人类的表现。例如，OpenAI的GPT-3模型在性能上实现了巨大飞跃，从代码生成到编写幽默推文，展示了其超人的能力。

尽管基础研究取得了显著进展，但这些大型模型的广泛应用受到了限制。它们需要大量的计算资源，难以运行，且通常不对外开放，或者作为云服务的成本极高。尽管如此，最早的生成式AI应用已经开始涌现。

第三阶段：更优、更迅捷、更经济的模型（2022年+）

新技术如扩散模型降低了训练和推理的成本，研究者们继续开发更先进的算法和更大规模的模型。开发者的访问权限从封闭测试版扩展到了开放测试版，甚至在某些情况下实现了开源。

对于那些曾经无法接触大型语言模型的人来说，现在探索和开发应用的大门已经敞开，应用的发展正如火如荼。

第四阶段：杀手级应用的涌现（当前）

随着平台层的成熟，模型变得更优秀、更快速、更经济，且模型访问趋向于免费和开源，应用层的创新和创造力即将爆发。

正如移动设备通过GPS、摄像头和移动连接等新功能催生了新型应用一样，我们预计这些大型模型将激发新一轮的生成式AI应用浪潮。就像十年前移动技术的转折点为少数杀手级应用创造了市场机会，我们预计生成式AI也将催生出杀手级应用。竞争已经开始。

市场格局（模型+应用）

示意图描述了为每个类别提供支持的平台层，在其上构建的潜在应用程序类型。

当前最先进的模型在文本领域表现突出，模型在撰写短篇和中篇内容方面已经相当出色，通常用于创作初稿或迭代过程。随着技术的进步，输出质量的提升、内容长度的增加以及对特定领域将更好适应。

在代码生成方面，如GitHub CoPilot所示，这一领域有望在短期内显著提升开发者的工作效率。同时，它也使得非专业开发者更容易地以创造性的方式使用代码。

图像生成是一个新兴领域，例如在Twitter上分享生成的图片比文字更有趣。我们观察到不同美学风格的图像模型的出现，以及用于编辑和修改生成图像的各种技术。

语音合成技术已经发展了一段时间（例如Siri），对于电影、播客等高端应用，实现听起来自然的一次性人类语音质量仍然具有挑战性。不过，当前的模型为进一步改进实用应用或最终输出提供了一个基础。

视频和3D模型技术正在迅速进步，它有望开启电影、游戏、虚拟现实、建筑和实体产品设计等大型创意市场。

在其他领域，如音频、音乐、生物学和化学（例如生成蛋白质和分子）也在进行基础模型的研发。这些领域的进展预示着未来可能在更多行业中实现创新和应用。

下图说明了基本模型的未来进展以及可能发生的相关应用的时间表。

文案创作：随着对个性化网络和电子邮件内容的需求日益增长，以促进销售、市场营销策略和客户支持，语言模型成为了理想的应用工具。文案的简洁性和风格化特点，加上团队面临的时间和成本压力，预计将推动对自动化和增强型解决方案的需求。

专业领域写作助手：目前大多数写作助手都是通用型的；我们看到了为特定行业市场开发更精准的生成应用的机会，无论是法律合同撰写还是剧本创作。这些产品的优势在于针对特定工作流程的模型和用户体验（UX）设计的精细调整。

代码生成：现有的应用程序已经为开发者提供了强大的动力，提高了他们的工作效率：GitHub Copilot在安装了它的项目中生成了近40%的代码。但更大的机会可能在于为普通消费者开启编程的大门。学习提示可能成为终极的高级编程语言。

艺术创作：艺术史和流行文化的丰富世界现在都蕴含在这些大型模型中，使得任何人都能够自由探索那些以往需要一生才能掌握的主题和风格。

游戏开发：理想是使用自然语言创建可操作的复杂场景或模型；虽然这种最终状态可能还很遥远，但短期内有更多直接的选择更具可操作性，比如生成纹理和天空盒艺术。

媒体/广告：想象一下自动化代理工作并为消费者动态优化广告文案和创意的潜力。这里有很多机会生成多模式内容，将销售信息与互补的视觉效果配对。

设计：数字和物理产品的原型设计是一个劳动密集型的迭代过程。从粗略草图和提示生成高保真渲染已经成为现实。随着3D模型技术的出现，创成式设计流程将一直延伸到制造和生产——从文本到实物。你的下一个iPhone应用或运动鞋可能由机器设计。

社交媒体和数字社区：有没有使用生成工具表达自己的新方式？随着消费者学习在公共场合创作，像Midjourney这样的新应用程序正在创造新的社交体验。

未来的生成式 AI 应用程序会是什么样子？

生成式 AI 应用程序会是什么样子？以下是一些预测。

智能和模型微调：

生成式AI应用依赖于大型基础模型，如GPT-3。

随着用户数据的积累，这些模型可以被微调以提升特定任务的性能和降低模型的复杂度及成本。这种微调使得应用能够更精准地服务于特定的需求。

外形规格：

生成式AI通常以插件形式融入现有的软件生态，如集成到IDE、图像编辑软件或社交平台中。此外，也有一些专门的Web应用，如文案生成器和视频编辑工具。这些应用可以作为现有工作流程的补充，提供额外的功能和便利。

交互范式：

生成式AI的交互方式正从单一的输入输出模式转变为更加迭代和互动的过程。用户不仅可以获取一次性的输出，还可以对输出进行修改和优化，从而生成更多样化的内容。这种迭代过程使得AI输出更加贴近用户的最终需求。

持续的品类领先地位：

领先的生成式AI公司通过不断优化模型和提升用户体验来维持其市场地位。他们通过收集用户数据来改进模型，提供更好的服务来吸引更多用户，从而形成一个正向的循环。这些公司可能会选择专注于特定的领域，通过深度集成和创新的工作流程来取代传统的应用程序，从而实现持续的增长和成功。

Generative AI’s Act Two

市场地图

与去年的地图不同，选择按用例而不是按模型模式来组织此地图。

反映市场的两个重要推动力：生成式 AI 从技术锤子演变为实际用例和价值，以及生成式 AI 应用程序日益多模态的性质。

此外，红杉资本还提供了一个LLM 开发人员堆栈，在生产中构建生成式 AI 应用程序时所需要的计算和工具供应商。

我们现在处于什么位置？生成式 AI 的价值问题

用户希望用 AI 让工作更轻松、工作成果更好，所以很多人涌向应用程序。

但是很多应用留存率不高，下图比较了 AI 优先应用程序在第 1 个月的移动应用留存率。

生成式 AI 应用的中位数为 14%（Character 和 “AI 陪伴” 类别除外），用户还没有在生成式 AI 产品中找到足够的价值来每天使用它们。

生成式 AI 最大的问题不是寻找用例、需求或分销，而是证明价值。

模型开发堆栈

基础模型还处于尴尬期，很多AI公司创始人还在着手进行提示工程、微调和数据集管理的艰苦工作。

接下来汇聚了使大模型有用的技术，如何塑造生成式 AI 进行新阶段的UI 范式。

新兴的推理技术，如思路链、思路树和反射，正在提高模型执行更丰富、更复杂的推理任务的能力，缩小客户期望和模型能力之间的差距。开发人员正在使用 Langchain 等框架来调用和调试更复杂的多链序列。
RLHF 和微调等迁移学习技术正变得越来越容易获得，尤其是最近推出了 GPT-3.5 和 Llama-2 的微调，这意味着公司可以根据其特定领域调整基础模型并根据用户反馈进行改进。开发人员正在从 Hugging Face 下载开源模型并对其进行微调以实现高质量的性能。
检索增强生成正在引入有关业务或用户的上下文，减少幻觉并提高真实性和有用性。来自 Pinecone 等公司的矢量数据库已成为 RAG 的基础设施支柱。
新的开发者工具和应用程序框架为公司提供了可重复使用的构建块，以创建更高级的AI应用程序，并帮助开发者评估、改进和监控AI模型在生产中的性能，包括像Langsmith和Weights & Biases这样的LLMOps工具
Coreweave、Lambda Labs、Foundry、Replicate 和 Modal 等 AI 优先的基础设施公司正在分拆公有云，并提供 AI 公司最需要的东西：以合理的成本提供充足的 GPU，按需提供且高度可扩展，以及良好的 PaaS 开发人员体验。

新兴产品蓝图

生成式接口。基于文本的对话用户体验是 LLM。逐渐地，从 Perplexity 的生成式用户界面到来自 Inflection AI 的人声等新模式，更新的外形尺寸正在进入武器库。

新的编辑体验：从 Copilot 到 Director's Mode。随着我们从零镜头发展到询问和调整，生成式 AI 公司正在发明一组新的旋钮和开关，它们看起来与传统的编辑工作流程截然不同。

日益复杂的代理系统。生成式 AI 应用程序越来越不仅仅是人工审核的自动完成或初稿;他们现在可以自主地代表我们解决问题、访问外部工具并端到端地解决问题。我们正在稳步从 0 级level发展到 5 级level。

系统范围的优化。一些公司不是嵌入到单个人类用户的工作流程中并提高该个人的效率，而是直接解决系统范围的优化问题。

Generative AI’s Act o1

永远的草莓园

2024 年最重要的模型更新是带有 o1 的 OpenAI，以前称为 Q*，也称为 Strawberry。这不仅重申了 OpenAI 在模型质量排行榜上的应有地位，也是对现状架构的显着改进。更具体地说，这是具有真正一般推理能力的模型的第一个示例，他们通过推理时间计算实现了这一功能。

那是什么意思？预先训练的模型正在对大量数据进行下一个标记预测。他们依赖于 “训练时计算”。尺度的一个新兴属性是基本推理，但这种推理非常有限。如果您可以教模型更直接地进行推理，会怎么样？这基本上就是 Strawberry 发生的事情。当我们说“推理时计算”时，我们的意思是要求模型在给您响应之前停下来思考，这需要在推理时进行更多计算（因此“推理时计算”）。“停下来想一想”的部分是推理。

AlphaGo x LLMs

那么，当模型停下来思考时，它会做什么呢？

让我们先快速绕道回到 2016 年 3 月的首尔。深度学习历史上最具开创性的时刻之一就在这里发生：AlphaGo 与传奇围棋大师李世石的比赛。这不仅仅是一场 AI 与人类的对决，而是全世界看到 AI 所做的不仅仅是模仿模式的时刻。它在思考。

是什么让 AlphaGo 与以前的游戏 AI 系统（如 Deep Blue）不同？与 LLMs，AlphaGo 首先经过预训练，以模仿来自以前游戏的大约 3000 万步棋的数据库中的人类专家，以及更多来自自下棋的棋步。但是，AlphaGo 并没有提供来自预训练模型的下意识反应，而是花时间停下来思考。在推理时，模型会针对各种可能的未来场景运行搜索或模拟，对这些场景进行评分，然后以具有最高预期值的场景（或答案）进行响应。给 AlphaGo 的时间越多，它的表现就越好。由于推理时间计算为零，该模型无法击败最优秀的人类玩家。但随着推理时间的扩大，AlphaGo 变得越来越好——直到它超越了最优秀的人类。

让我们回到 LLM 世界。在这里复制 AlphaGo 的难点是构造 value 函数，或者说对响应进行评分的函数。如果你在玩围棋，那就更直接了：你可以一直模拟游戏到最后，看看谁赢了，然后计算下一步的期望值。如果您正在编码，则有点简单：您可以测试代码并查看它是否有效。但是你如何给一篇文章的初稿打分呢？还是旅行行程？还是长文档中关键术语的摘要？这就是当前方法难以推理的原因，这也是为什么 Strawberry 在接近逻辑的领域（例如编码、数学、科学）上相对较强，而在更开放和非结构化的领域（例如写作）上不那么强大。

虽然 Strawberry 的实际实现是一个严密保护的秘密，但关键思想涉及围绕模型生成的思维链进行强化学习。审计模型的思维链表明，正在发生一些基本而令人兴奋的事情，这实际上类似于人类的思考和推理方式。例如，o1 显示了在作为扩展推理时间的紧急属性卡住时回溯的能力。它还展示了以人类方式思考问题的能力（例如，可视化球体上的点以解决几何问题）和以新的方式思考问题的能力（例如，以人类不会的方式解决编程竞赛中的问题）。

研究团队在尝试提高模型的推理能力时正在努力研究推动推理时间计算的新想法（例如计算奖励函数的新方法、缩小生成器/验证器差距的新方法）。换句话说，深度强化学习又很酷了，它实现了一个全新的推理层。

系统 1 与系统 2 的思考

这种从预先训练的本能反应（“系统 1”）到更深入的深思熟虑的推理（“系统 2”）的飞跃是 AI 的下一个前沿领域。模型仅仅了解事物是不够的，它们需要实时暂停、评估和推理决策。

将预训练视为系统 1 层。无论模型是在围棋（AlphaGo）中的数百万步还是 PB 级的互联网规模文本（LLMs，它的工作都是模仿模式——无论是人类游戏还是语言。但是，尽管模仿很强大，但它并不是真正的推理。它无法正确地思考复杂的新情况，尤其是那些样本之外的情况。

这就是系统 2 思维的用武之地，也是最新一波 AI 研究的重点。当模型 “停下来思考” 时，它不仅仅是生成学习的模式或根据过去的数据吐出预测。它产生了一系列的可能性，考虑了潜在的结果，并根据推理做出了决定。

对于许多任务，系统 1 绰绰有余。正如 Noam Brown 在我们最新一集的 Training Data 中指出的那样，长时间思考不丹的首都是无济于事的——你要么知道，要么不知道。快速、基于模式的调用在这里效果很好。

但是，当我们看到更复杂的问题时（例如数学或生物学的突破），快速、本能的反应并不能解决问题。这些进步需要深入的思考、创造性的问题解决能力，最重要的是，需要时间。AI 也是如此。为了解决最具挑战性、最有意义的问题，AI 需要超越快速的样本内响应，并花时间提出定义人类进步的那种深思熟虑的推理。

新的缩放定律：推理竞赛正在进行

o1 论文中最重要的见解是，镇上有一项新的缩放法。

预训练 LLMs 遵循一个众所周知的扩展定律：您在预训练模型上花费的计算和数据越多，它的性能就越好。

o1 论文为扩展计算开辟了一个全新的平面：您为模型提供的推理时间（或“测试时间”）计算越多，它的推理就越好。

一种模式统治他们所有人？

随着 OpenAI、Anthropic、Google 和 Meta 扩展其推理层并开发越来越强大的推理机器，会发生什么？我们会用一种模式来统治他们吗？

生成式 AI 市场开始时的一个假设是，一家单一的模型公司将变得如此强大和包罗万象，以至于它将包含所有其他应用程序。到目前为止，这个预测在两个方面是错误的。

首先，模型层存在大量竞争，SOTA 功能不断跨越。有可能有人通过广域自我博弈来不断自我提升并实现起飞，但目前我们还没有看到任何证据。恰恰相反，模型层是一场刀战，自上一个开发日以来，GPT-4 的每个代币价格下降了 98%。

其次，这些模型在很大程度上未能作为突破性产品进入应用层，ChatGPT 是一个明显的例外。现实世界是混乱的。伟大的研究人员没有愿望去了解每个可能的垂直领域中每个可能的函数的端到端工作流程的细节。他们停下来停留在 API 上，让开发者世界担心现实世界的混乱，这既有吸引力，又在经济上合理。应用程序层的好消息。

混乱的现实世界：自定义认知架构

作为科学家，您为实现目标而计划和实施行动的方式与您作为软件工程师的工作方式大不相同。此外，作为不同公司的软件工程师，情况甚至有所不同。

随着研究实验室进一步突破水平通用推理的界限，我们仍然需要特定于应用程序或领域的推理来提供有用的 AI 代理。混乱的现实世界需要大量的特定于域和应用程序的推理，而这些推理无法在通用模型中有效编码。

进入认知架构，或者您的系统如何思考：接受用户输入并执行操作或生成响应的代码和模型交互流。

例如，在 Factory 的情况下，他们的每个 “droid” 产品都有一个自定义的认知架构，该架构模仿人类解决特定任务的思维方式，例如审查拉取请求或编写和执行迁移计划以将服务从一个后端更新到另一个后端。Factory Droid 将分解所有依赖项，提出相关的代码更改，添加单元测试并引入人工审查。然后，在获得批准后，在开发环境中对所有文件运行更改，如果所有测试都通过，则合并代码。就像人类可能做的那样——在一组离散的任务中，而不是一个通用的黑盒答案。

应用程序发生了什么变化？

假设您想在 AI 中开展业务。您以堆栈的哪一层为目标？您想在 infra 上竞争吗？祝你好运，击败 NVIDIA 和超大规模公司。您想在模型上竞争吗？祝你好运击败 OpenAI 和 Mark Zuckerberg。您想在应用程序上竞争吗？祝你好运，击败企业 IT 和全球系统集成商。哦。等。这听起来其实很可行！

基础模型很神奇，但它们也很混乱。主流企业无法处理黑匣子、幻觉和笨拙的工作流程。消费者盯着空白的提示，不知道该问什么。这些都是应用层中的机会。

两年前，许多应用层公司被嘲笑为“只是 GPT-3 之上的包装器”。今天，这些包装器被证明是建立持久价值的唯一可靠方法之一。最初的“包装器”已经演变成“认知架构”。

应用层 AI 公司不仅仅是基础模型之上的 UI。远非如此。它们具有复杂的认知架构，通常包括多个基础模型，顶部具有某种路由机制、用于 RAG 的向量和/或图形数据库、确保合规性的护栏，以及模拟人类在工作流中思考推理方式的应用程序逻辑。

服务即软件

云过渡是软件即服务。软件公司成为云服务提供商。这是一个 $350B 的机会。
多亏了代理推理，AI 的过渡是服务即软件。软件公司将劳动力转化为软件。这意味着潜在市场不是软件市场，而是数万亿美元的服务市场。

出售作品意味着什么？Sierra 就是一个很好的例子。B2C 公司将 Sierra 放在他们的网站上与客户交谈。要完成的工作是解决客户问题。Sierra 按分辨率获得报酬。没有“座位”这样的东西。你有工作要做。Sierra 做到了。他们相应地获得报酬。

这是许多 AI 公司的真正北方。Sierra 受益于具有正常故障模式（升级到人工代理）。并非所有公司都如此幸运。一种新兴模式是首先部署为 Copilot（人在环），并使用这些代表来获得部署为 Autopilot 的机会（无人在环）。GitHub Copilot 就是一个很好的例子。

新的 Agent 应用程序队列

随着生成式 AI 的新兴推理能力，一类新的代理应用程序开始出现。

这些应用层公司采取什么形式？有趣的是，这些公司看起来与他们的云前辈不同：

云公司将目标锁定在软件利润池上。AI 公司将目标锁定在服务利润池上。
云公司出售软件（美元/席位）。AI 公司出售作品（美元/结果）
云公司喜欢自下而上，实现无摩擦的分发。AI 公司越来越多地采用自上而下的方式，采用高接触、高信任度的交付模式。

我们看到这些代理应用程序的新队列出现在知识经济的所有领域。以下是一些示例。

Harvey：AI 律师
Glean：AI 工作助手
工厂：AI 软件工程师
Abridge：AI 医学抄写员
XBOW：AI 渗透测试器
Sierra：AI 客户支持代理

通过降低提供这些服务的边际成本（与推理成本的直线下降保持一致），这些代理应用程序正在扩展并创造新的市场。

以 XBOW 为例。XBOW 正在构建一个 AI“渗透测试器”。“渗透测试”或渗透测试是公司为评估自己的安全系统而对计算机系统进行的模拟网络攻击。在生成式 AI 之前，公司仅在有限的情况下（例如，当需要合规时）雇用渗透测试人员，因为人工渗透测试成本高昂：这是一项由高技能人员执行的手动任务。然而，XBOW 现在正在演示基于最新推理 LLMs，它与最熟练的人类渗透测试者的性能相匹配。这使渗透测试市场成倍增加，并为各种形式和规模的公司提供了连续渗透测试的可能性。