扬帆创投微信小程序
更聚焦的出海投融资平台
精准高效领先的融资对接服务
微信扫一扫进入小程序

阿里巴巴开源发布了QwQ-32B推理模型,参数量为320亿,但性能足以媲美6710亿参数的DeepSeek-R1满血版。该模型通过大规模强化学习显著提升了推理能力,尤其在数学和编程任务上表现出色。

摘要

 

QwQ-32B基于冷启动开展大规模强化学习,分为两个阶段:第一阶段针对数学和编程任务进行训练,通过校验答案和代码执行提供反馈;第二阶段增加通用能力训练,进一步提升模型的通用性能。这证明了强化学习在提升中型模型性能方面的巨大潜力。

 
QwQ-32B已在Hugging Face和ModelScope开源,采用Apache 2.0开源协议。用户可以通过Qwen Chat直接体验模型,也可通过API进行集成和使用。

 
QwQ-32B是千问团队在大规模强化学习以增强推理能力方面的第一步。团队计划将更强大的基础模型与规模化计算资源的强化学习相结合,以实现人工通用智能(AGI),并探索智能体与强化学习的集成,以实现长时推理和更高智能表现。

 
QwQ-32B发布后收获广泛好评,被认为在性能和部署灵活性上具有优势。用户反馈显示,该模型在高性能设备上运行迅速,社区对其进一步优化和更小版本的开发充满期待。

 

今天凌晨 3 点,阿里开源发布了新推理模型 QwQ-32B,其参数量为 320 亿,但性能足以比肩 6710 亿参数的 DeepSeek-R1 满血版。

 

image.png

 

千问的推文表示:「这次,我们研究了扩展 RL 的方法,并基于我们的 Qwen2.5-32B 取得了一些令人印象深刻的成果。我们发现 RL 训练可以不断提高性能,尤其是在数学和编码任务上,并且我们观察到 RL 的持续扩展可以帮助中型模型实现与巨型 MoE 模型相媲美的性能。欢迎与我们的新模型聊天并向我们提供反馈!」

 

QwQ-32B 已在 Hugging Face 和 ModelScope 开源,采用了 Apache 2.0 开源协议。大家也可通过 Qwen Chat 直接进行体验!

 

 

本地部署工具 Ollama 也第一时间提供了支持:ollama run qwq

 

image.png

 

千问官方发布了题为「QwQ-32B: 领略强化学习之力」的官方中文博客介绍这一吸睛无数的进展。考虑到强化学习之父 Richard Sutton 与导师 Andrew Barto 刚刚获得图灵奖,QwQ-32B 的发布可说是非常应景。

 

image.png

 

博客中写到,大规模强化学习(RL)非常具有潜力,在提升模型性能方面可望超越传统的预训练和后训练方法。

 

近期的研究表明,强化学习可以显著提高模型的推理能力。例如,DeepSeek-R1 通过整合冷启动数据和多阶段训练,实现了最先进的性能,使其能够进行深度思考和复杂推理。

 

而千问团队则探索了大规模强化学习(RL)对大语言模型的智能的提升作用,推理模型 QwQ-32B 便由此而生。

 

这是一款拥有 320 亿参数的模型,其性能可媲美具备 6710 亿参数(其中 370 亿被激活)的 DeepSeek-R1。该团队表示:「这一成果突显了将强化学习应用于经过大规模预训练的强大基础模型的有效性。」

 

QwQ-32B 中还集成了与 Agent(智能体)相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。该团队表示:「我们希望我们的一点努力能够证明强大的基础模型叠加大规模强化学习也许是一条通往通用人工智能的可行之路。」

 

模型效果

 

QwQ-32B 在一系列基准测试中进行了评估,包括数学推理、编程和通用能力。以下结果展示了 QwQ-32B 与其他领先模型的性能对比,包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始的 DeepSeek-R1。

 

image.png

 

可以看到,QwQ-32B 的表现非常出色,在 LiveBench、IFEval 和 BFCL 基准上甚至略微超过了 DeepSeek-R1-671B。

 

强化学习

 

QwQ-32B 的大规模强化学习是在冷启动的基础上开展的。

 

在初始阶段,先特别针对数学和编程任务进行 RL 训练。与依赖传统的奖励模型(reward model)不同,千问团队通过校验生成答案的正确性来为数学问题提供反馈,并通过代码执行服务器评估生成的代码是否成功通过测试用例来提供代码的反馈。

 

随着训练轮次的推进,QwQ-32B 在这两个领域中的性能持续提升。

 

在第一阶段的 RL 过后,他们又增加了另一个针对通用能力的 RL。此阶段使用通用奖励模型和一些基于规则的验证器进行训练。结果发现,通过少量步骤的通用 RL,可以提升其他通用能力,同时在数学和编程任务上的性能没有显著下降。

 

API

 

如果你想通过 API 使用 QwQ-32B,可以参考以下代码示例:

 

图片

 

未来工作

 

千问团队还在博客中分享了未来计划,其中写到:「这是 Qwen 在大规模强化学习(RL)以增强推理能力方面的第一步。通过这一旅程,我们不仅见证了扩展 RL 的巨大潜力,还认识到预训练语言模型中尚未开发的可能性。在致力于开发下一代 Qwen 的过程中,我们相信将更强大的基础模型与依托规模化计算资源的 RL 相结合,将会使我们更接近实现人工通用智能(AGI)。此外,我们正在积极探索将智能体与 RL 集成,以实现长时推理,目标是通过推理时间扩展来释放更高的智能。」

 

QwQ-32B 收获无数好评

 

QwQ-32B 一发布就收获了无数好评,甚至我们的不少读者也在催促我们赶紧报道。

 

在前段时间的 DeepSeek 热潮中,大家都热衷于讨论满血版,因为蒸馏版性能受限。但是 671B 的满血版模型无法轻易部署,普通的端侧设备只能退而求其次。现在,Qwen 把模型大小打下来了,端侧有希望了吗?

 

image.png

 

有网友表示,手机上肯定还不行,但运行内存比较高的 Mac 或许可以一战。

 

image.png

 

还有人喊话阿里巴巴通义实验室科学家 Binyuan Hui 去做更小的模型。

 

image.png

 

image.png

 

还有人晒出体验,表示运行很快:

 

image.png

 

图片
苹果机器学习研究者 Awni Hannun 也同样已经在 M4 Max 上成功运行了 QwQ-32B,看起来速度非常快。
图片
在 Qwen 的官方聊天界面(Qwen Chat),我们已经能看到 QwQ-32B 的预览版模型。感兴趣的读者可以前去测试。
image.png
 
测试链接:https://chat.qwen.ai/

原文链接:点击前往 >

文章作者:机器之心

版权申明:文章来源于机器之心。该文观点仅代表作者本人,扬帆出海平台仅提供信息存储空间服务,不代表扬帆出海官方立场。因本文所引起的纠纷和损失扬帆出海均不承担侵权行为的连带责任,如若转载请联系原文作者。 更多资讯关注扬帆出海官网:https://www.yfchuhai.com/

{{likeNum}}

好文章,需要你的鼓励

请前往扬帆出海小程序完成个人认证
认证通过后即可申请入驻
扫码添加小助手
微信扫描二维码,添加小助手
微信号:yfch24
扫码添加小助手
微信扫描二维码,添加小助手
微信号:yfch24
APP
小程序
微信公众号
微信小程序
扬帆出海APP
扬帆出海APP
微信
公众号
微信公众号
关注扬帆出海
专注服务互联网出海!
出海人
社群
微信公众号
扫码进群
与10万+出海人同行!