DeepSeek V3:一款开源国产AI大模型

中国实验室DeepSeek推出了一款目前最强的开源AI模型之一:DeepSeek V3。这款模型由AI公司DeepSeek研发,于本周三正式发布,采用了宽松的许可证协议,允许开发者免费下载并用于包括商业用途在内的多种应用场景。

DeepSeek V3能够处理各种文本相关任务,例如编程、翻译以及根据描述性提示撰写文章和邮件。根据DeepSeek的内部基准测试,这款模型在可下载的“开放”模型以及只能通过API访问的“封闭”AI模型中表现优异。尤其是在编程竞赛平台Codeforces的一部分比赛中,DeepSeek V3超越了Meta的Llama 3.1 405B、OpenAI的GPT-4o以及阿里巴巴的Qwen 2.5 72B。

此外,DeepSeek V3还在Aider Polyglot测试中表现出色,该测试旨在评估模型是否能够成功编写与现有代码无缝集成的新代码。


技术规格与训练数据

DeepSeek V3的训练基于一个包含14.8万亿个token的数据集(1百万个token约等于75万字)。模型本身也规模庞大,拥有6710亿个参数(在Hugging Face平台上为6850亿个参数),是Llama 3.1 405B(4050亿参数)规模的1.6倍。

参数数量通常(但不总是)与模型性能正相关。然而,较大的模型也需要更强大的硬件支持。未经优化的DeepSeek V3需要多台高端GPU才能以合理的速度运行。

尽管训练如此大规模的模型通常代价高昂,DeepSeek却声称仅花费了550万美元,并在两个月内通过一个由Nvidia H800 GPU组成的数据中心完成了训练。值得注意的是,这些GPU是美国商务部对中国出口限制的硬件。


模型的争议与挑战

DeepSeek V3的一个显著问题是其训练数据可能涉及其他AI模型的输出。例如,DeepSeek V3在一些测试中会误认为自己是OpenAI的ChatGPT,并输出与GPT-4类似的内容,包括笑话和API使用说明。

专家认为,这可能是因为训练数据中包含了来自ChatGPT或GPT-4生成的文本。这种做法可能会导致“幻觉”(hallucination)和误导性答案,并可能违反OpenAI的服务条款。OpenAI明确禁止用户使用其产品输出开发与OpenAI竞争的模型。

此外,DeepSeek V3的训练数据可能未经过严格筛选,从而包含大量AI生成的内容。这种“污染”数据可能使模型在吸收和迭代其他AI模型的输出时进一步放大其偏见和缺陷。

DeepSeek近期还发布了DeepSeek-R1模型,旨在与OpenAI的“推理”模型GPT-4o竞争。DeepSeek背后的投资方是中国量化对冲基金高飞资本管理公司,该公司通过AI支持其交易决策,并建立了多个自有服务器集群用于模型训练。


未来的挑战与思考

DeepSeek V3无疑是一项技术成就,但其涉及训练数据、模型输出以及AI监管的争议表明,AI行业在迈向“开放”与创新的同时,仍需面对复杂的技术和伦理挑战。模型开发者需要更加注重数据质量和知识产权的合规性,同时在提高模型性能的同时避免放大已有的偏见。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注