DeepSeek V3 与前沿 AI 模型的成本
2024 年 12 月 26 日,当西方大多数 AI 领域的人还在享受圣诞假期时,中国的 DeepSeek AI 发布了他们的 DeepSeek-V3 通用模型(以及 基础模型),并附上了详细的 技术报告 和在 chat.deepseek.com 上的演示。这是他们最新的专家混合模型(MoE, Mixture of Experts),训练数据量达到 14.8T tokens,总参数量为 671B,激活参数量为 37B。大多数人都注意到了它相对于其他前沿语言模型的惊人表现——最显著的是,它在 Llama 405B instruct 上取得了显著改进,而激活参数量却比之前最好的开源权重模型少得多:
这些结果中最令人印象深刻的部分都集中在被认为极其困难的评估上——MATH 500(这是 从完整测试集中随机抽取的 500 个问题)、AIME 2024(超级难的数学竞赛题)、Codeforces(竞赛代码,如 o3 中所展示的)以及 SWE-bench Verified(OpenAI 改进的数据集分割)。同时击败 GPT-4o 和 Claude 3.5,并且以一定的优势,这是极其罕见的。1
自发布以来,我们还得到了 ChatBotArena 排名的确认,该排名将其置于前 10 名,超过了最近的 Gemini pro 模型、Grok 2、o1-mini 等。仅凭 37B 的激活参数,这对许多企业应用来说极具吸引力。
在过去的一周里,我一直在使用 DeepSeek V3 作为日常聊天任务的驱动工具。从检查基本事实到请求对某件工作的反馈,DeepSeek V3 表现得非常出色,但它呈现信息的方式并不完全符合 我对 Claude 或 ChatGPT 的期望。它几乎让人觉得模型的个性或后训练较浅,使得模型感觉比实际提供的更多。这是一个非常强大的模型,但使用它时并没有像 Claude 或像 ChatGPT 这样高度打磨的应用那样带来那么多乐趣,因此我不打算长期使用它。
这次发布最引人注目的部分是 DeepSeek 分享了他们是如何做到这一切的。技术报告分享了无数关于模型和基础设施决策的细节,这些决策决定了最终的结果。其中许多细节令人震惊且出乎意料——突出了一些数字,这些数字让 Meta 在 GPU 使用上显得浪费,这促使许多在线 AI 圈子或多或少地感到震惊。
这篇文章回顾了 DeepSeek V3 的技术细节,但重点是如何最好地看待在 AI 前沿训练模型的成本,以及这些成本可能如何变化。
我们将在下面讨论具体数字,但问题是,DeepSeek V3 报告中列出的众多技术创新中,哪些对其 学习 效率贡献最大——即模型性能相对于使用的计算资源。
在普遍的赞扬声中,也有一些 质疑 这份报告中有多少是真正的新突破,比如“DeepSeek 是否真的需要管道并行”或“高性能计算(HPC)一直在做这种类型的计算优化(或者在 TPU 领域也是如此)”。
解释这两种讨论的方式应该基于这样一个事实:DeepSeek V3 模型在 每 FLOP 的比较中相对于同类模型(甚至可能是一些闭源 API 模型,更多内容见下文)表现得非常出色。抛开所有花哨的东西,真正重要的是模型相对于花费的 FLOPs 有多好。这就是效率的比较。
DeepSeek 训练堆栈中一些值得注意的改进包括以下内容。这些改进中哪个对模型的学习效率影响最大仍有争议:
-
多头潜在注意力(MLA, Multi-head Latent Attention)2,以最小化注意力操作符的内存使用,同时保持模型性能。
-
多 token 预测,类似于今年早些时候 Meta 论文 中研究的内容,以提高模型性能;
-
高效的专家混合架构,这些架构在每 FLOP 训练计算上的基准测试中表现越来越好(正如我们在 OLMoE 中发现的那样);
-
部分 8 位原生训练,3 这可以通过让你在相同内存中容纳两倍大的模型来有效地使你的计算翻倍(在实践中,你只量化部分权重或优化器状态,因此增益小于从今天的 16 位默认值中想象的 2 倍);以及
-
自定义多 GPU 通信协议,以弥补 H800 较慢的通信速度并优化预训练吞吐量。
DeepSeek V3 中的每一项进步都可以单独写一篇简短的博客文章。
后训练方面的创新较少,但为那些优化在线强化学习(RL)训练的人提供了更多可信度,因为 DeepSeek 做到了这一点(采用了一种 宪法 AI,由 Anthropic 首创)4。事实上,这种质量的模型是从 DeepSeek 的推理模型系列 R1 中 蒸馏 出来的,这让我对推理模型是真正的核心更加乐观。
关于 DeepSeek 是否训练了 OpenAI 模型的输出存在一些 争议,这在 OpenAI 的服务条款中是禁止“竞争对手”这样做的,但现在很难证明这一点,因为 ChatGPT 的许多输出现在在网络上普遍可用。在预训练中很难过滤掉这些内容,尤其是如果它能让模型变得更好(因此你可能对此视而不见)。
DeepSeek 在论文中描述的许多技术是我们 Ai2 的 OLMo 团队可以从中受益并直接借鉴的。5
DeepSeek 实施了许多优化其堆栈的技巧,这些技巧在全球只有 3-5 个 AI 实验室做得很好。复制这些技巧并非不可能,这为未来 AI 能力分布在更多参与者手中带来了希望。成本会随着时间的推移而下降,但引用的数字还不准确。6
编辑: 这里的“引用数字”主要指的是公众对发布的一般反应,因为 DeepSeek 明确表示这些成本并不全面(感谢 Teortaxes 提出):
请注意,上述成本仅包括 DeepSeek-V3 的正式训练,不包括在架构、算法或数据上进行的前期研究和消融实验的成本。
接下来是分析。
炫耀 计算资源 是 AI 公司之间的常见做法。它也是一种强大的招聘工具。它与你能取得的进展或你加入的组织能取得的进展密切相关。
对于感受到 芯片出口管制 压力的中国公司来说,以“哇,我们可以用更少的资源做更多的事情”为角度并不特别令人惊讶。如果我是他们,我可能也会这样做,这比“我的集群比你的大”更有激励作用。这说明我们需要理解计算资源的 叙述 对他们的报告有多重要。
DeepSeek AI 直接将 Meta 作为目标,以令人信服地宣称自己是“领先的开源前沿模型实验室”。他们在论文中分享了以下关于训练模型所使用的计算量的表格:
并在文本中补充说明:
在预训练阶段,训练 DeepSeek-V3 每万亿 tokens 仅需 180K H800 GPU 小时,即在我们自己的 2048 个 H800 GPU 集群上需要 3.7 天。因此,我们的预训练阶段在 不到两个月 内完成,成本为 2664K GPU 小时。
首先,我们需要将 GPU 小时本身放在上下文中。这是基础设施效率的原始衡量标准。Llama 3 405B 使用了 30.8M GPU 小时进行训练,而 DeepSeek V3 使用了 2.6M GPU 小时(更多信息见 Llama 3 模型卡)。
DeepSeek 的工程团队在利用有限资源方面做得非常出色。作为参考,Nvidia H800 是 H100 芯片的“削弱”版本。SemiAnalysis 对 不同之处有很好的解释:
Nvidia 迅速推出了 A100 和 H100 GPU 的新版本,分别命名为 A800 和 H800,这些 GPU 在计算能力上几乎同样强大。这些 GPU 并没有削减总计算能力或内存带宽。虽然 NVLink 速度被削减到 400GB/s,但这对于大多数并行策略(如 8x 张量并行、完全分片数据并行和管道并行)并不构成限制。这些削减也无法通过最终用户检查,并且有可能像 Nvidia 以前的加密货币挖矿限制器一样被逆转,如果硬件没有被熔断的话。
翻译一下——它们仍然是非常强大的 GPU,但限制了你可以使用的有效配置。第二个需要考虑的点是,为什么 DeepSeek 只在 2048 个 GPU 上进行训练,而 Meta 强调他们在 超过 16K GPU 集群 上训练模型。这可能是 DeepSeek 最有效的预训练集群,他们还有许多其他 GPU,这些 GPU 要么没有地理上集中,要么缺乏受芯片禁令限制的通信设备,使得其他 GPU 的吞吐量较低。多个估计将 DeepSeek 的 GPU 数量定在 20K(在 ChinaTalk 上)到 50K(Dylan Patel)A100 等效 GPU 之间。这远远少于 Meta,但它仍然是世界上拥有最多计算资源的组织之一。
如果 DeepSeek 能够做到,他们会很高兴地在更多 GPU 上同时进行训练。为一个模型训练几个月在分配组织最有价值的资产——GPU 时是非常冒险的。根据 SemiAnalysis(付费内容),OpenAI 的 Orion 的“失败”之一是需要如此多的计算资源,以至于训练时间超过 3 个月。这是 OpenAI 明确希望避免的情况——他们更愿意像 o3 那样快速迭代新模型。
例如,对于 Tülu 3,我们微调了大约 1000 个模型,以收敛到我们满意的后训练配方。这 100 次运行中只有 1 次会出现在上述后训练计算类别中。理解技术进步和峰值效率的下限是必不可少的,但如果没有大量的计算空间来实验大规模模型,DeepSeek-V3 就永远不会存在。
对于像这样的模型,实验中使用多少总计算量的问题要复杂得多。语言建模实验室的常见做法是 使用扩展法则来降低想法风险,以便在预训练中花费很少的时间在不会产生有效模型的最大规模上进行训练。这看起来像是在非常小的规模(可能是 1B-7B)上进行数千次运行,以达到中等数据量(从 Chinchilla 最优 到 1T tokens)。DeepSeek 肯定也这样做了。DeepSeek V3 模型的预训练实验使用的总计算量可能是论文中报告数字的 2-4 倍。
这还不包括他们用于 DeepSeek V3 的其他项目,例如 DeepSeek r1 lite,它被用于合成数据。像任何实验室一样,DeepSeek 肯定还有其他实验项目在后台进行。
仅根据最终预训练运行来计算项目使用的计算量是一种非常无用的估算实际成本的方法。这对于理解计算的实际利用率和底层 学习 效率非常有用,但根据最终运行使用的 GPU 的市场价格来分配模型的成本是具有误导性的。
GPU 的真实拥有成本——需要明确的是,我们不知道 DeepSeek 是拥有还是租用 GPU——将遵循类似于 SemiAnalysis 总拥有成本模型(付费功能)的分析,该模型包含了除实际 GPU 之外的其他成本。对于 10K+ A/H100 的大型 GPU 集群,电力等项目的成本最终每年超过 1000 万美元。GPU 本身的资本支出(CapEx),至少对于 H100 来说,可能超过 10 亿美元(基于单个 H100 的市场价格为 3 万美元)。
这些成本并不一定全部由 DeepSeek 直接承担,即他们可能与云提供商合作,但他们在计算上的成本(不包括电力等)至少每年数亿美元。
举一个例子,考虑 DeepSeek V3 论文有 139 位技术作者。这是一个非常大的技术团队。人力成本也很容易每年超过 1000 万美元,估计 DeepSeek AI 一年的运营成本将接近 5 亿美元(甚至超过 10 亿美元),而不是任何关于这个模型的 550 万美元的数字。这里的成功在于,他们在美国科技公司中具有相关性,这些公司每年在 AI 模型上的支出接近或超过 100 亿美元。
AI 进步的代价更接近于此,至少在基础设施(代码和数据7)的开源版本取得实质性改进之前。这让我们回到了同样的辩论——什么是真正的开源 AI?随着 开源权重 模型的推出,训练模型的成本将继续下降,尤其是在伴随详细技术报告的情况下,但扩散的速度受到需要具有挑战性的逆向工程/复制工作的瓶颈限制。
我们在 o1 风格的模型中看到了这一点。现在我们知道它们存在,许多团队将以 1/10 的成本构建 OpenAI 所做的事情。知道 DeepSeek 做了什么,更多的人将愿意投资构建大型 AI 模型。随着更多人获得这样做的知识,这些项目出错的风险降低了。
如果 DeepSeek V3 或类似模型以完整的训练数据和代码发布,作为真正的开源语言模型,那么成本数字将是真实的。开源使技术的持续进步和扩散加速。目前,DeepSeek V3 最有价值的部分可能是技术报告。鉴于模型的庞大,大多数用户不会利用权重可用的优势,而是直接在 chat.deepseek.com 或通过 API 使用它,这指向了关于开源 AI 的“为什么”的紧迫问题。
无论如何,按照这个速度,几年后你可以以约 550 万美元的成本训练一个性能与 DeepSeek V3 相当的模型。目前,成本要高得多,因为它们涉及扩展开源工具(如 OLMo 代码)和挖角能够解决 AI 前沿问题的昂贵员工。
路径是明确的。DeepSeek 表明,现代 AI 流水线的许多部分并不是魔法——它是通过精心工程和决策积累的持续收益。面对大型科技公司的巨额资本支出、Anthropic 和 OpenAI 的数十亿美元融资以及 AI 芯片的持续出口管制,DeepSeek 已经走得比许多专家预测的更远。制造尖端 AI 的能力并不局限于旧金山内部的一小部分人。目前的成本很高,但像 DeepSeek 这样的组织正在一天天降低成本。
去年早些时候,许多人会认为扩展和 GPT-5 级别的模型将在 DeepSeek 无法承受的成本下运行。随着 Meta 在其产品中更深入地使用 Llama 模型,从推荐系统到 Meta AI,他们也预计会成为开源权重模型的赢家。今天,这些趋势被反驳了。Meta 必须利用其财务优势来缩小差距——这是一种可能性,但不是必然的。我肯定预计在未来几个月内会看到 Llama 4 MoE 模型,并且更加期待看到这个开源模型的故事如何展开。
参考:https://www.interconnects.ai/p/deepseek-v3-and-the-actual-cost-of