为什么AI领域都在讨论DeepSeek

几天前,只有最资深的极客听说过 DeepSeek,这是一家中国AI子公司,隶属于同样名字独特的 高飞资本管理公司(High-Flyer Capital Management),一家成立于2015年的量化分析(Quant)公司。

然而,在过去几天里,这家公司已经成为硅谷讨论的焦点。这主要得益于 DeepSeek-R1 的发布,这是一种新的大语言模型(LLM),其“推理”能力可以媲美 OpenAI 当前最好的模型 o1。DeepSeek-R1 可以花几秒到几分钟回答复杂问题,并通过“链式思维”(chain of thought)的方式一步步反思自己的分析。

不仅如此,DeepSeek-R1 在多个第三方基准测试(用于评估AI在各种主题上回答问题能力的测试)中的表现与 OpenAI 的 o1 持平甚至更好。而且据报道,其训练成本仅为 500万美元左右,使用的图形处理器(GPU)数量也少得多,这些GPU受到美国严格的出口管制。

与 o1 只能通过 ChatGPT Plus 订阅(20美元/月)或更高价格的版本(例如 Pro 每月200美元)访问不同,DeepSeek-R1 被完全开源。这也解释了为什么它迅速攀升至 AI 代码共享社区 Hugging Face 上最受欢迎和最活跃的模型排行榜之首。(点击查看排名)

由于完全开源,很多开发者已经对该模型进行了微调,训练出了多种用于特定任务的版本,例如缩小模型规模以便在移动设备上运行,或者将其与其他开源模型结合使用。即使是开发用途, DeepSeek 的API成本也比 OpenAI o1 模型低90%以上

最令人印象深刻的是,您甚至不需要是软件工程师也可以使用它:DeepSeek 提供了一个免费的网站移动应用,即使是美国用户也能使用,提供一个类似 OpenAI ChatGPT 的R1驱动的聊天界面。而且,DeepSeek 再次领先 OpenAI,将强大的推理模型与网络搜索相结合,而目前 OpenAI 只在其性能较弱的 GPT 系列模型中提供网络搜索功能。

一个讽刺又发人深省的对比

这种情况的讽刺性令人回味,尤其是考虑到 OpenAI 的初衷是将AI民主化,普及到大众手中。正如 Nvidia 高级研究经理 Jim Fan 在X平台上表示:“我们正生活在一个由非美国公司延续 OpenAI 原初使命的时代——真正开放的前沿研究,赋能所有人。这简直毫无逻辑。最有趣的结果往往是最有可能的。”

又或者,正如 X用户 @SuspendedRobot 评论,指向的报道称 DeepSeek 的训练是基于 ChatGPT 的问答输出等数据:“OpenAI 从整个互联网‘盗取’数据来赚大钱,DeepSeek 则从 OpenAI‘借鉴’,并免费还给大众。这让我想起某个英国民间传说故事。”

Meta因Llama开源模型落后而陷入危机?

根据在硅谷匿名八卦分享应用 Blind 上的一条广泛传播的信息,有传言称 DeepSeek 的成功令 Meta 陷入危机,因为其速度远超 Meta 试图称霸开源AI领域的 Llama 模型。

这条信息的流传反映了 DeepSeek-R1 的发布所引发的广泛关注和讨论。DeepSeek 的强劲表现不仅挑战了 OpenAI,还对 Meta 等试图在开源AI领域占据主导地位的企业提出了巨大威胁。

“这改变了整个游戏规则”

X平台用户 @tphuang 提出了一些引人深思的观点:“DeepSeek 已经将AI商品化,除了顶级应用以外。第一张图片让我豁然开朗。R1 的成本比美国劳动力低得多,未来5年内很多工作将会被自动化取代。”他随后进一步指出为什么 DeepSeek 的 R1 比 OpenAI 的 o1 对用户更具吸引力:

“o1 有3个主要问题:
1)速度太慢
2)价格太高
3)用户缺乏控制权,依赖于 OpenAI
R1 完全解决了这些问题。一家公司只需购买自己的 Nvidia GPU,就可以运行这些模型。无需担心额外成本或 OpenAI 服务器的慢速或响应不及时。”

@tphuang 还提出了一个 耐人寻味的类比:“DeepSeek 会成为LLM领域的‘安卓’,就像安卓在操作系统领域所扮演的角色吗?”

网络企业家 Arnaud Bertrand 则毫不掩饰地谈到 DeepSeek 成功的震撼性影响,在X平台上写道:“很难高估这对整个游戏规则的改变。更重要的是,这也是对美国试图阻止中国技术发展的战略的一个巨大反思。如果没有这些限制,DeepSeek 可能根本无法诞生(正如俗语所说,‘需求是发明之母’)。”

关于内容审查的问题

然而,也有人对 DeepSeek 的迅速崛起提出了警告,认为作为一家位于中国的初创公司,它必然受到该国法律和内容审查要求的约束。

当然,这并不是完全对等的比较。对某些人而言,对外国产技术的抵触可能让他们对 DeepSeek 的最终价值和实用性持怀疑态度。但其性能和低成本却是不容忽视的事实。

在一个 中国占美国进口商品总量16.5%的时代,很难仅仅基于内容审查或安全风险的理由反对使用 DeepSeek-R1,尤其是当其模型代码可以自由下载、离线使用,并在安全环境中运行和微调的情况下。

我确实察觉到关于“西方衰落”和“中国崛起”的某种存在性危机思维,这在围绕 DeepSeek 的讨论中表现得尤为突出。而其他人也将其与 美国用户在 TikTok 短暂被禁期间转向使用“小红书”(Xiaohongshu)的现象联系起来,当时他们惊讶地发现视频中展示的中国中上产阶层生活质量。这些背景叙事为 DeepSeek-R1 的到来增添了更多意义——一个中国似乎崛起的背景下,美国却在某些指标上明显处于下滑状态的世界图景。

这只是中国AI震撼世界的开始

DeepSeek 也绝不会是唯一一个威胁硅谷巨头统治地位的中国AI模型。就在昨天,另一家中国公司——抖音母公司字节跳动——发布了名为 Doubao-1.5-pro 的模型,其在第三方基准测试中的表现相当于 OpenAI 的非推理 GPT-4o 模型,但 成本却只有1/50

中国的AI模型在短时间内取得了如此显著的进步,以至于即使是技术行业之外的人士也开始关注。《经济学人》最近刚刚发表了一篇关于 DeepSeek 成功及其他中国AI努力的文章,而政治评论员 Matt Bruenig 在X平台上表示:“我近一年都在使用 Gemini、ChatGPT 和 Claude 为 NLRB 文件摘要服务。DeepSeek 的表现比它们都更好。而且聊天版本是免费的,API 使用成本比 OpenAI 的API便宜99.5%。[耸肩表情]”

OpenAI 将如何应对?

难怪 OpenAI 联合创始人兼 CEO Sam Altman 今天宣布,公司将把尚未发布的第二代推理模型 o3 引入 ChatGPT,甚至免费提供给非付费用户。OpenAI 似乎仍然在通过开发更专有、更先进的模型来开辟自己的道路,继续设定行业标准。

但问题是:面对 DeepSeek、字节跳动及其他中国AI公司的快速追赶,OpenAI 在开发和发布新一代尖端AI模型方面还能领先多久?如果有一天失去领先地位,它的衰落速度又会有多快、多猛烈?

当然,OpenAI 也有另一个历史先例支持它。如果 DeepSeek 和其他中国AI模型真的像谷歌的开源安卓系统对移动领域那样,在一段时间内占据了市场的大部分份额,只需看看苹果的iPhone如何通过其封闭的专有系统在高端市场站稳脚跟,并逐步向下扩展,如今占据了美国国内近60%的智能手机市场份额,就能看出OpenAI可能的长期发展路径。

尽管如此,对于那些花费巨资使用领先实验室AI模型的公司来说,DeepSeek 表明,完全相同的能力可能以更低的成本、更高的控制权提供。而在企业环境中,这可能已经足够赢得比赛。

参考:https://venturebeat.com/ai/why-everyone-in-ai-is-freaking-out-about-deepseek/

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注