Kimi硬刚多模态满血版o1，首曝训练细节！强化学习scaling新范式诞生

首页
活动
资讯
最新资讯文章专题 7x24快讯
报告
数据报告报告专题
付费专栏
短剧精选快问快答合集出海年鉴合集 iOS、GP上下架避坑指南
商务通
服务大厅企业会员
合作
人脉
出海人脉 VIP社群
出海数据库
出海企业库出海产品库月出海榜单海外产品榜单创投联盟
全球产品与增长展会
PAGC 2024 PAGC 2023 PAGC 2022 PAGC 2021

企业管理

扬帆创投微信小程序

更聚焦的出海投融资平台
精准高效领先的融资对接服务

微信扫一扫进入小程序

Kimi k1.5是一个多模态强化学习模型，其长思考（Long CoT）模式下性能追平OpenAI的o1满血版，短思考（Short CoT）模式下大幅领先GPT-4o和Claude 3.5。这是首次有公司达到OpenAI之外的最高水平。模型通过长到短（long2short）技术优化，显著提升了短思考模式下的性能。

摘要

Kimi k1.5的设计和训练包含四大关键要素：长上下文扩展（支持128k上下文长度）、改进的策略优化（通过在线镜像下降算法）、简化框架（无需复杂技术如蒙特卡洛树搜索）、多模态能力（联合训练文本和视觉数据）。

Kimi团队采用部分回滚（Partial Rollout）技术，优化长上下文强化学习的效率，通过分段处理长轨迹，减少计算开销。此外，模型通过长到短的强化学习和最短筛选采样等方法，提升Token效率和性能。

Kimi k1.5在多个基准测试中表现出色，包括数学、代码和多模态推理任务。长CoT模型在复杂推理任务中表现出显著的上下文理解和推理能力，短CoT模型则在Token效率上优于其他同类模型。

Kimi将继续迭代多模态推理模型，推出更具通用能力的Kn系列模型，进一步拓展模型在多领域和多模态的应用能力。

还记得吗，AI大神Karpathy曾说过，「英文是最热门的编程语言」。

两年后的现在，这个规则彻底要被颠覆了。

从今天起，中文很有可能成为全球最热门的编程语言！

就在刚刚，Kimi发布了k1.5 多模态思考模型。这是继去年 11 月他们发布 k0-math 数学模型，12月发布 k1 视觉思考模型之后，连续第三个月带来 k 系列强化学习模型的重磅升级。

Kimi k1.5的性能，如今已经全面追上现役全球最强模型——OpenAI o1满血版。

具体来说，在Long CoT模式下，Kimi k1.5的数学、代码、多模态推理能力，达到了长思考SOTA模型OpenAI o1满血版的水平。这也是全球范围内，首次有OpenAI之外的公司达到。

而在Short CoT模式下，Kimi k1.5大幅领先GPT-4o 和Claude 3.5的水平。

短COT模式下，数学成绩显著高于GPT-4o和Claude Sonnet 3.5

同时，月之暗面也大方公开了这个满血版o1水平的强化学习模型的训练技术细节。

简单出奇迹，首创long2short思维链

扒开Kimi k1.5 25页技术报告，可以清晰看到这款模型的技术创新之处。

当前，基于下一个token预测的语言模型，在计算规模上的扩展，已经得到了有效证明。

但模型Scaling仍受限于可用的数据量，为此，Kimi团队创新性地扩展了强化学习（RL）的应用，开辟出一条全新的路径。

它能够让LLM通过奖励机制进行探索性学习，从而自主扩展训练数据，从而实现计算规模有效扩展。

论文地址：https://github.com/MoonshotAI/kimi-k1.5

以下，是k1.5设计和训练的四大关键要素：

1. 长上下文扩展

2. 改进的策略优化

3. 简化框架

4. 多模态

接下来，我们一起深挖一下这些技术细节吧。

短CoT模型的上下文压缩

与业界普遍采用复杂技术做法不同，Kimi团队选择了一条更为优雅的技术路线——回归第一性原理。

他们证明了，无需依赖蒙特卡洛树搜索、价值函数、过程奖励模型，也能让模型取得卓越的性能。

如上所见，我们已经看到了Kimi k1.5在多个权威基准测试中，取得了显著的突破。

那么，long2short是如何被实现的呢？

Kimi团队认为，可以将长CoT模型的推理先验转移到短CoT模型中，从而即使在有限的测试Token预算下也能提高性能。

模型合并

将长CoT模型和短CoT模型进行合并，除了可以在泛化性上起到积极的作用，还可以提高Token的使用效率。

这种方法通过简单地平均两个模型的权重，将一个长CoT模型与一个短模型结合，得到一个新的模型，而无需进行训练。

最短筛选采样

由于模型对于同一问题生成的响应长度变化很大，因此团队设计了一种最短筛选采样方法。

也就是，先对同一问题采样n次，然后选择最短的正确响应进行监督微调。

DPO

利用长CoT模型生成多个响应样本，然后选择最短的正确解作为正样本，并将较长的响应视为负样本，包括正确但长度是选定正样本1.5倍的较长响应。

这些正负样本对数据集形成了用于DPO训练的成对偏好数据。

long2short强化学习

在标准强化学习训练阶段之后，团队选择了一个在性能与Token使用效率之间提供最佳平衡的模型作为基础模型，并进行单独的long2short强化学习训练阶段。

在第二阶段中，他们应用了「长度惩罚」，并显著减少了最大展开长度，以进一步惩罚可能正确但超出期望长度的响应。

强化学习基础设施

Kimi k1.5系统设计了一种迭代同步的RL框架，旨在通过持续的学习与适应来增强模型的推理能力。

该系统的一项关键创新是引入了部分回滚（Partial Rollout）技术，用于减少计算开销并优化复杂推理轨迹的处理。

如下图3a所示，RL训练系统通过迭代同步的方法运行，每次迭代包含回滚阶段和训练阶段。

在回滚阶段，由中央主控协调的回滚工作节点通过与模型交互生成回滚轨迹，这些轨迹是模型对各种输入生成的响应序列。在随后的训练阶段，训练工作节点访问这些经验以更新模型的权重。

这个循环过程使模型能够持续从其行为中学习，随着时间的推移调整其策略以提升性能。

长CoT强化学习的部分回滚技术

部分回滚（Partial Rollouts）能够通过同时管理长轨迹和短轨迹的回滚，有效地解决处理长CoT特性时的资源分配和效率挑战，进而实现长上下文强化学习（RL）训练的规模扩展。

该技术设定了一个固定的输出Token预算，对每个回滚轨迹的长度进行限制。如果某个轨迹在回滚阶段超过了Token限制，其未完成部分被保存到重放缓冲区，并在后续迭代中继续处理。

此外，由于回滚工作节点是异步运行的，当某些节点处理长轨迹时，其他节点可以独立地处理新的短回滚任务。

如图3b所示，部分回滚系统通过在多次迭代中将长响应分解为多个片段来运行，显著降低了计算开销——系统无需一次性处理整个响应，而是逐步处理和存储片段，从而在保持快速迭代时间的同时生成更长的响应。

部分回滚的实现还提供了重复检测功能。系统能够识别生成内容中的重复序列并提前终止，从而减少不必要的计算，同时保持输出质量。

训练与推理的混合部署

研究者提出了一种用于训练和推理任务的混合部署策略，该策略利用Kubernetes的Sidecar容器共享所有可用GPU，将两种任务协同部署在同一个Pod中。这一策略的主要优势包括：

促进了资源的高效共享与管理，避免了训练节点因等待推理节点而处于空闲状态（当两者部署在不同节点时）
通过使用不同的部署镜像，训练和推理可以独立迭代，从而实现更好的性能
架构并不限于vLLM，还可以方便地集成其他框架

如图4所示，研究者在Megatron和vLLM的基础上实现了这一混合部署框架，从训练到推理阶段不到一分钟的转换时间，反向转换则约为十秒钟。

实验结果

由于k1.5是一个多模态模型，研究者对不同模态的各种基准进行了综合评估。基准测试主要包括以下三类：

Text Benchmark：MMLU, IF-Eval, CLUEWSC, C-EVAL
Reasoning Benchmark：HumanEval-Mul, LiveCodeBench, Codeforces, AIME 2024, MATH500
Vision Benchmark：MMMU, MATH-Vision, MathVista

k1.5长CoT模型

Kimi的k1.5长CoT模型通过长CoT监督微调和视觉-文本联合强化学习，在长距离推理上获得了显著的增强。

评估显示，模型在长上下文中的推理、理解和信息综合能力方面有了显著提升，标志着多模态AI能力的显著进步。

k1.5短CoT模型

Kimi的k1.5短CoT模型集成了多种技术，包括传统监督微调方法、强化学习以及长到短知识蒸馏。

如表3所示，k1.5短CoT模型在覆盖多个领域的多项任务中表现出与领先的开源和专有模型相当或更优的性能。

长上下文Scaling

研究者使用一个中型模型，来研究结合LLM的强化学习的扩展特性。如图5所示，随着训练的进行，模型响应长度和性能准确率同时增加。

尤其值得注意的是，在更具挑战性的基准测试中，响应长度的增长更为陡峭，这表明模型在处理复杂问题时学会生成更详尽的解决方案。

图6表明，模型输出的上下文长度与其问题解决能力之间存在显著的相关性。

最终，k1.5模型的运行能支持128k上下文长度，并在困难的推理基准测试中持续取得改进。

由长到短

研究者重点研究了long2short问题中的Token效率，特别是长CoT模型如何提升短模型性能。

如图7所示，提出的long2short强化学习算法在Token效率方面优于其他方法（如DPO和模型合并）。

值得注意的是，k1.5系列的所有模型（用橙色标记）在Token效率上都优于其他模型（用蓝色标记）。

思考模型，进入冲刺

可以看到，在多模态推理技术路线上，Kimi又进了一步。

从2024年11月，他们首次推出的数学推理模型K0-math就展现出了在数学领域的领先性。

紧接着一个月后，K1视觉思考模型诞生，不仅继承了K0-math的数学底蕴，更突破性地解锁了视觉理解能力。

这意味着，K1不仅「会算」，还能「会看」——通过理解图片中的信息，并通过逐步推理得出答案。

如今，k1.5又继续向前推进了一步，在多个领域数理化、代码、通用中，刷新了SOTA，甚至能够媲美世界顶尖模型。

下一步，Kimi依旧会发力多模态推理，继续迭代出能够在更多模态、更多领域、具备更强通用能力的Kn系列的模型。

k1.5已经带来了诸多惊喜，还真是有点期待下一代模型的到来。

原文链接：点击前往 >

文章作者：新智元

版权申明：文章来源于新智元。该文观点仅代表作者本人，扬帆出海平台仅提供信息存储空间服务，不代表扬帆出海官方立场。因本文所引起的纠纷和损失扬帆出海均不承担侵权行为的连带责任，如若转载请联系原文作者。更多资讯关注扬帆出海官网：https://www.yfchuhai.com/

{{likeNum}}

好文章，需要你的鼓励

相关阅读

热门活动

更多

PAGC 2025|全球产品与增长展会

广东省 · 广州市

线上分享会《小众玩法，开拓差异化出海新钱景》——Global Day出海趋势观察系列活动·01期

文章热榜

更多

不到1年做出两款出圈AI小游戏，这个小团队就想做“一波流”？

雷鸟有了阿里量身定制的通义模型，AI眼镜大战开始结盟了

2024年，跨境“内容电商”之年

2024-12-31 12:12

FunPlus海外工作室关闭；《归龙潮》项目组称仍有近百位成员

2024-12-31 10:12

中企出海，该好好补补软实力了

热门报告

更多

《2024全球AI应用趋势年度报告》

《BrandOS出海品牌社媒影响力榜单》2024年Q4

请前往扬帆出海小程序完成个人认证

认证通过后即可申请入驻

扫码添加小助手

微信扫描二维码，添加小助手
微信号：yfch24

扫码添加小助手

微信扫描二维码，添加小助手
微信号：yfch24

APP
小程序

微信公众号

微信小程序

扬帆出海APP

扬帆出海APP

微信
公众号

微信公众号

关注扬帆出海

专注服务互联网出海！

出海人
社群

微信公众号

扫码进群

与10万+出海人同行！