DeepSeek 声称其“推理模型”在某些基准测试上击败了 OpenAI 的 o1
中国 AI 实验室 DeepSeek 公开发布了名为 DeepSeek-R1 的所谓“推理模型(reasoning model)”,并宣称其在某些 AI 基准测试(benchmarks)上的表现可与 OpenAI 的 o1 相媲美。
R1 可以从 AI 开发平台 Hugging Face 以 MIT 许可证(MIT license)的方式获取,这意味着它可以在商业环境中不受限制地使用。根据 DeepSeek 的说法,R1 在 AIME、MATH-500 和 SWE-bench Verified 这几项基准测试(benchmarks)上都击败了 o1。AIME 使用其他模型来评估模型的性能,MATH-500 则是一些文字题目的集合,而 SWE-bench Verified 则侧重编程任务。
由于 R1 是一款推理模型(reasoning model),它会对自身进行事实核对(fact-check),这有助于避免模型通常会遇到的一些陷阱(pitfalls)。推理模型(reasoning model)往往需要更长的时间——通常需要额外的几秒到几分钟——才能得出结论,这比一般的非推理模型(nonreasoning model)要慢。但好处在于,它在物理、科学、数学等领域通常更可靠。
DeepSeek 在技术报告(technical report)中透露,R1 拥有 6710 亿个参数(parameters)。参数(parameters)大致对应于模型解决问题的能力,拥有更多参数(parameters)的模型通常比参数(parameters)更少的模型表现更好。
6710 亿参数(parameters)已经相当庞大,但 DeepSeek 也推出了从 15 亿参数到 700 亿参数大小不等的 R1 “蒸馏(distilled)”版本。最小的版本可以在笔记本电脑上运行。至于完整的 R1,则需要更强大的硬件,但它确实可以通过 DeepSeek 的 API 使用,价格比 OpenAI 的 o1 便宜 90%-95%。
R1 的发布正值拜登政府即将卸任之际,美国政府提出了更严厉(harsher)的出口规则及对中国企业使用 AI 技术的限制。中国企业此前已经无法购买高端 AI 芯片,但如果这些新规则按原文生效,那么相关公司将面临对半导体技术和模型更严格的限制,从而影响它们打造高级 AI 系统的能力。
在上周的一份政策文件(policy document)中,OpenAI 敦促美国政府支持美国本土的 AI 研发,以防中国模型赶上或超越美国模型的能力。在接受 The Information 的采访(interview)时,OpenAI 的政策副总裁 Chris Lehane 特别点名了 High Flyer Capital Management(DeepSeek 的企业母公司),称其是一个值得关注的组织。
到目前为止,至少已有三家中国实验室——DeepSeek、阿里巴巴以及隶属于中国独角兽企业 Moonshot AI 的 Kimi——声称它们的模型可以与 o1 相媲美。(值得一提的是,DeepSeek 是第一家——它在今年 11 月下旬就宣布了 R1 的预览版。)在 X 上的一篇帖子(post)中,乔治梅森大学(George Mason University)的 AI 研究员 Dean Ball 表示,这种趋势预示着中国的 AI 实验室会持续“紧随其后”快速迭代。
DeepSeek-R1 介绍
1. 核心亮点
-
DeepSeek-R1-Zero
该模型跳过了预先的监督微调(Supervised Fine-Tuning, SFT)阶段,直接采用大规模 RL 训练,从而自然激发出诸如自我验证、反思以及长链式推理(chain-of-thought, CoT)等能力。不过,由于存在重复生成、可读性不足及中英文混杂等问题,团队在此基础上进行改进。 -
DeepSeek-R1
为解决上述问题,团队在 RL 前引入冷启动数据,推出了改进版模型 DeepSeek-R1,其在数学、代码与推理任务上的表现已与 OpenAI-o1 模型相当。同时,团队开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Llama 和 Qwen 系列精炼出的六个密集模型,其中 DeepSeek-R1-Distill-Qwen-32B 在多个基准测试上创下了密集模型的新 SOTA(state-of-the-art)记录。
2. 模型构建与提炼
-
后训练:RL 无需预先 SFT
团队采用直接对基础模型进行 RL 训练的方法,探索出模型“链式思考”(CoT)解决复杂问题的潜能。值得一提的是,这是首次公开验证大模型的推理能力可仅通过 RL 激励获得,无需 SFT 预训练,为未来相关研究指明了方向。 -
模型提炼:小模型同样出色
研究表明,通过提炼技术可以将大模型中的推理模式成功迁移至小模型,效果超越直接在小模型上使用 RL 训练所获得的推理能力。基于 DeepSeek-R1 生成的推理数据,团队对 1.5B、7B、8B、14B、32B 及 70B 参数量的模型进行了微调,并开源相应的检查点,助力学界提炼更优的小型模型。
3. 评测结果概览
- 模型生成长度上限为 32,768 个 token,采用温度(temperature)0.6、top-p 值 0.95 参数,并生成 64 个回答来估计 pass@1 指标。
- 在英文、代码、数学以及中文等多个评测基准(如 MMLU、DROP、Codeforces、AIME 等)中,DeepSeek-R1 展现出与甚至超越部分主流大模型的综合能力。
- 精炼后的小模型(如 DeepSeek-R1-Distill-Qwen 系列)在各项任务上也表现优异,部分指标甚至刷新了纪录。
4. Chat 聊天网站与 API 平台
- 用户可通过 DeepSeek 官方网站 与 DeepSeek-R1 互动,并启用 “DeepThink” 功能。
- 同时,平台提供与 OpenAI 兼容的 API 服务,详情见 DeepSeek Platform。