腾讯推出快思考模型：API 成本只有 deepseek 不到一半

腾讯混元推出了快思考模型 Turbo S，于2月27日正式发布并上线腾讯云和元宝。该模型以快速响应（秒回）、低延迟（首字时延降低44%）和成本低（部署成本大幅下降）为特点，适用于日常决策中依赖直觉的场景。它通过长短思维链融合，提升了理科推理能力，未来将成为腾讯混元系列衍生模型的核心基座。

摘要

快思考模型（如 Turbo S）模拟人类直觉，适合快速回答90%的日常请求；慢思考模型（如混元 T1）则模拟理性思维，适合深度分析和复杂问题解决。两者结合使大模型更智能高效。Turbo S 借鉴了混元 T1 的长思维链数据，通过多步骤推理提升对复杂问题的处理能力。

混元 Turbo S 采用 Hybrid-Mamba-Transformer 融合架构，结合了 Mamba（高效处理长序列）和 Transformer（擅长复杂推理）的优点，降低了计算复杂度和 KV-Cache 缓存占用，提升了训练和推理效率。这一架构创新使其在知识、数学、推理等领域表现出色，成本大幅降低。

Turbo S 通过长短思维链融合和算法优化，提升了模型在数学、代码、逻辑等强推理任务上的表现。同时，其成本显著低于其他同类模型，输入价格为0.8元/百万 tokens，输出价格为2元/百万 tokens，相比前代混元 Turbo 模型和 Deepseek API 成本更低。

Turbo S 的出现旨在平衡响应速度与成本，满足市场对快速、低成本 AI 模型的需求。腾讯混元团队认为，模型规模和训练数据的 scaling law 远未结束，未来将继续探索数据、算法和算力优化，以提升模型性能。

最近，腾讯元宝可以说是「杀疯了」，先是多款产品接入 deepseek，推出自研混元 T1 模型，又是猛推流，一度超越字节「豆包」登上中国区 App Store 免费榜第二，又是入驻微信生活服务「九宫格」。

在各家大模型纷纷推出深度思考模型的同时，腾讯混元又「反常」地推了一个快思考模型 Turbo S。

2 月 27 日，腾讯混元自研的快思考模型 Turbo S 正式发布，目前已在腾讯云和元宝上线。

区别于 Deepseek R1、混元 T1 等需要「想一下再回复」的慢思考模型，混元 Turbo S 能够实现「秒回」，吐字速度提升一倍，首字时延降低 44%，同时在知识、数理、创作等方面也有突出表现。通过模型架构创新，Turbo S 部署成本也大幅下降，持续推动大模型应用门槛降低。

有研究表明，人类约 90%—95% 的日常决策依赖直觉，快思考正如人的「直觉」，为大模型提供了通用场景下的快速响应能力，而慢思考更像理性思维，通过分析逻辑提供解决问题思路。快思考和慢思考的结合和补充，可以让大模型更智能、更高效地解决问题。

据介绍，通过长短思维链融合，腾讯混元 Turbo S 在保持文科类问题快思考体验的同时，基于自研混元 T1 慢思考模型合成的长思维链数据，显著改进了理科推理能力，实现模型整体效果提升。

作为旗舰模型，Turbo S 未来将成为腾讯混元系列衍生模型的核心基座，为推理、长文、代码等衍生模型提供基础能力。

基于 Turbo S，通过引入长思维链、检索增强和强化学习等技术，腾讯自研了推理模型 T1，该模型已在腾讯元宝上线，用户可以选择 Deepseek R1 或腾讯混元 T1 模型进行回答，具体操作上，在元宝中选择 Hunyuan 模型，点亮 T1 即为深度思考，不点亮则为 Turbo S。

开发者和企业用户已经可以在腾讯云上通过 API 调用腾讯混元 Turbo S，即日起一周内免费试用。

定价上，Turbo S 输入价格为 0.8 元/百万 tokens，输出价格为 2 元/百万 tokens，相比前代混元 Turbo 模型价格下降数倍，是 deepseek API 成本的 1/2-1/4，团队称「比大模型界的拼多多还便宜」。另外，混元满血 T1 将在 3 月初发布。

在 3 月 2 日腾讯混元的直播里，腾讯混元专家团队对这次推出的快思考模型做出了详解，极客公园整理重点如下：

为什么要做「快思考」？

团队通过分析和观察发现，用户约 90% 的请求都可以依靠大模型的「直觉」（即快思考模型），无需深度思考就能精准简洁地给出答案，所以针对这些请求需要模型能更快、更准地回应。

对于剩下的约 10% 的请求，需要模型能进行深度思考甚至反思，从而给出更精准的答案。

同时，快思考模型不仅成本更低，还具备强大的数据融合能力，能够融入 MySQL 模型或 Max 模型中的优质数据。

Turbo S 借鉴了腾讯的慢思考模型 Hunyuan T1 的数据，该模型使用一种称为长思维链合成的技术进行训练。这有助于 Turbo S 在保持其速度优势的同时，通过多步骤问题进行推理，使得对于其余 10% 需要反复反思思考的问题也能得到较精准答案。

技术解析：模型架构/工程优化

在业界通用的多个公开 Benchmark 上，腾讯混元 Turbo S 在知识、数学、推理等多个领域展现出对标 DeepSeek V3、GPT 4o、Claude3.5 等业界领先模型的效果表现。

*表格中，其它模型的评测指标来自官方评测结果，官方评测结果中不包含部分来自混元内部评测平台

架构方面，通过创新性地采用了 Hybrid-Mamba-Transformer 融合模式，混元 Turbo S 有效降低了传统 Transformer 结构的计算复杂度，减少了 KV-Cache 缓存占用，实现训练和推理成本的下降。

传统 Transformer 架构存在以下缺陷 ：

计算复杂度高，序列维度呈平方级关系，在训练和推理时复杂度高；

推理时需要 KV-Cache，且随着序列长度增加线性增加，部署成本高；预测时时间成本高，每步预测因叠加 KV-Cache 与序列长度呈线性关系，越往后生成越慢，尤其对于 Mamba 线性 Attention 机制，每步预测都是 O1 复杂度，所以需要做更高效的 attention 或甚至 linear 的 attention，目前行业内已有一些相关探索方案如 window attention、mobile、NSA 等，都是通过不同方式压缩计算复杂度。

Hybrid-Mamba-Transformer 融合架构是混元 Turbo S 中的一项突破性架构创新，通过融合两种强大的架构，平衡效率和上下文推理能力：

Mamba 是一种状态空间模型（SSM），专为高效处理长序列而设计，在内存使用上比 Transformer 更为节省。与 Transformer 不同，后者在处理长文本时会遇到 KV-cache 内存的平方级扩展问题，而 Mamba 可以在不产生过多计算开销的情况下处理更长的文本，更适合阅读、总结和生成长文档的回答（例如法律文本、研究论文等）。

尽管 Mamba 高效，但它在捕捉复杂的上下文关系方面不如 Transformer。Transformer 擅长理解复杂的模式和依赖关系，特别适合推理密集型任务，如数学运算、逻辑推理和问题解决，适用于多步骤推理、代码生成和深度上下文理解。

混元 Turbo S 首次将 Mamba 应用于超大规模 MoE 模型 MoE（专家混合模型）通过每次查询激活一部分参数，从而提高计算效率，在保持精度的同时充分利用了 Mamba 的高效性，同时也保留了 Transformer 在推理任务中的优势。这一突破不仅降低了训练和推理成本，还提升了速度和智能水平。

算法做到了哪些不一样的工作？

长短思维链的融合。

通过长短思维链融合，对于需反复推理反思的问题也能得到更精准答案，T1 模型可得到相对长链数据，将长链数据和短链数据融合训练后采样，采样依据正确性和长度正确性，采用规则方法和滤波 model case，从而提升模型整体能力，尤其在数学、代码、逻辑等强推理任务上表现更好，且短链模型能很好地融合长链能力，体验更佳。

即短链模型其实体验更佳，通过融合长链也能有很好的推理能力。

scaling law 还没结束

GPT-4.5 是短链模型天花板的一个存在，但 API 的成本非常高，以百万 tokens 计算约为 150 美元，约是 Turbo S 成本 500 倍，且据推测，GPT-4.5 的激活参数量达万亿级别。因此，Turbo S 等快思考模型的出现，正是为了在保证响应速度的同时，降低成本并保持较好的性能。

不管是模型 size 的 scaling 还是训练数据的 scaling，目前 scaling law 远未结束，现在中文互联网上可获取数据量各家差不多，谁能通过获取或合成方式获得更多数据量对模型 performance 来说是关键。

标注数据方面，更专业标注团队对模型表现影响大，如小说创作、医疗方向等，拥有更专业标注团队和数据的模型表现会更好，整体来看，在数据、算法、算力工程优化等方面对 scaling 的探索都远未结束。

原文链接：点击前往 >

文章作者：极客公园

版权申明：文章来源于极客公园。该文观点仅代表作者本人，扬帆出海平台仅提供信息存储空间服务，不代表扬帆出海官方立场。因本文所引起的纠纷和损失扬帆出海均不承担侵权行为的连带责任，如若转载请联系原文作者。更多资讯关注扬帆出海官网：https://www.yfchuhai.com/