2024年大语言模型（LLMs）回顾

本文翻译自：https://simonwillison.net/2024/Dec/31/llms-in-2024/

2024年，大语言模型（Large Language Models, LLMs）的发展领域发生了很多事情。这篇文章总结了过去十二个月中我们对该领域的发现，并尝试识别其中的关键主题和转折点。

本文是我2023年总结的续篇。

TL;DR: 2024年大型语言模型（LLMs）的关键进展

2024年，大型语言模型领域取得了多项显著突破，以下是本文的要点总结：

GPT-4壁垒被攻克：超过18家机构开发了超越GPT-4性能的模型，包括谷歌、OpenAI、Meta等。输入上下文长度显著增加，支持上百万tokens的模型逐渐普及。
本地运行GPT-4级模型：技术进步让用户可以在笔记本电脑甚至手机上运行类似GPT-4的模型，比如Qwen2.5-Coder和Llama 3.3 70B。
价格暴跌：竞争和效率提升使LLM运行成本大幅降低，部分模型的价格比2023年下降了20倍以上。
多模态模型崛起：支持图像、音频和视频输入的多模态模型成为主流，推动LLM应用范围更广。
语音和实时摄像头模式：语音输入和输出的表现极为逼真，实时摄像头功能开启了全新互动方式。
提示驱动的应用生成商品化：用户可以通过提示快速生成交互式应用程序，多家平台引入了类似功能。
训练效率显著提升：以DeepSeek v3为例，其训练成本仅为600万美元，展现了显著的资源优化能力。
环境影响改善与挑战：运行提示的能耗显著下降，但数据中心基础设施的扩建仍对环境造成压力。
低质内容问题凸显：未被审核的AI生成内容成为2024年的热点问题，“slop”一词成为AI生成低质内容的代名词。
合成训练数据效果突出：越来越多的模型采用人工合成数据进行训练，提升了模型的准确性和性能。
复杂性增加：LLM的使用门槛不断提高，用户需要更多专业知识来避免陷阱，正确利用其强大能力。
知识分布不均：大部分用户对LLM技术的了解有限，需要更多科普和指导内容。
批判性思维的必要性：面对技术的诸多问题和负面影响，建设性批评和科学引导至关重要。

GPT-4壁垒被全面攻克

在我的2023年总结中，我提到我们尚未知道如何构建GPT-4——到那时，OpenAI的最佳模型已经发布将近一年，但没有其他AI实验室能推出更好的模型。OpenAI究竟掌握了哪些其他团队未能掌握的秘密？

我很高兴地看到，过去的十二个月中这种局面彻底改变了。如今，已有18个机构的模型在Chatbot Arena排行榜中得分超过了2023年3月发布的原始GPT-4（排行榜中显示为GPT-4-0314），总计70个模型。

其中，最早的是谷歌的Gemini 1.5 Pro，于2月份发布。除了达到GPT-4水平的输出质量，它还为该领域引入了一些全新功能——最显著的是其支持100万（后来提升至200万）的输入上下文长度，以及输入视频的能力。

我当时撰文介绍了Gemini Pro 1.5的杀手级应用是视频，这让我在5月份谷歌I/O大会的开幕主题中短暂亮相（作为特邀嘉宾）。

Gemini 1.5 Pro还展示了2024年的一个关键趋势：上下文长度的增加。去年，大多数模型的上下文长度为4096或8192个token，例外的是Claude 2.1支持200,000个token。而今年，每个主要供应商都有一个支持10万+token的模型，谷歌的Gemini系列甚至支持高达200万。

更长的输入上下文极大地扩展了LLM可以解决的问题范围：现在你可以输入整本书并提问关于其内容的问题，更重要的是，你可以提供大量示例代码，帮助模型正确解决编程问题。相比单纯依赖模型权重中已嵌入的信息，基于长输入上下文的LLM用例让我更感兴趣。我开发的许多工具都采用了这种模式。

接下来回到超过GPT-4的模型：Anthropic的Claude 3系列于3月发布，其中Claude 3 Opus迅速成为我的日常使用首选。在6月，他们更进一步，推出了Claude 3.5 Sonnet，这款模型在6个月后依然是我的最爱（尽管10月22日进行了重大升级，版本号仍是3.5。Anthropic粉丝后来开始称其为Claude 3.6）。

然后还有其他模型。如果你浏览Chatbot Arena排行榜，你会发现GPT-4-0314已跌至第70名左右。18家拥有更高评分模型的机构包括谷歌、OpenAI、阿里巴巴、Anthropic、Meta、Reka AI、01 AI、亚马逊、Cohere、DeepSeek、Nvidia、Mistral、NexusFlow、智谱AI、xAI、AI21 Labs、普林斯顿大学和腾讯。

在2023年，训练出一款超越GPT-4的模型是件大事。到了2024年，这已不足为奇，尽管每当新机构加入这一名单时，我个人仍会庆祝。

有些GPT-4模型甚至可以在我的笔记本电脑上运行

我的笔记本电脑是一台配备64GB内存的2023款M2 MacBook Pro。这是一台性能强大的设备，但它已经将近两年历史了——更重要的是，自从2023年3月我第一次在电脑上运行LLM以来，这就是我一直在用的机器（参见大型语言模型迎来“稳定扩散时刻”）。

这台电脑去年3月勉强可以运行GPT-3级别的模型，而现在却可以运行多个GPT-4级别的模型！以下是我的一些心得：

Qwen2.5-Coder-32B是一款在我的Mac上可以运行的高水平代码生成LLM，它于11月发布，并采用Apache 2.0许可证。
我现在可以在笔记本电脑上运行GPT-4级别的模型描述了12月发布的Meta的Llama 3.3 70B模型。

这让我感到难以置信。我原以为具有GPT-4能力和输出质量的模型需要数据中心级别的服务器以及售价超过4万美元的GPU。

这些模型占用我的64GB内存中的很大一部分，因此我并不经常运行它们——几乎无法同时运行其他程序。

它们之所以能运行，归功于过去一年中在训练和推理性能方面的显著提升。事实证明，在模型效率方面还有很多低垂的果实可以采摘。我预计未来还有更多突破。

值得一提的是Meta的Llama 3.2模型。它们虽然未达到GPT-4水平，但在1B和3B参数大小下表现极其出色。我在iPhone上使用免费的MLC Chat iOS应用运行Llama 3.2 3B，发现它是一款非常强大的小型（小于2GB）模型。试试让它写出“一个关于数据记者爱上当地陶艺家的Netflix圣诞电影情节大纲”。以下是我以每秒20个token速度得到的回答：

这是完整的对话记录。虽然有些平淡且略显普通，但现在我的手机居然可以为Netflix提案圣诞电影大纲了！

LLM价格暴跌，得益于竞争和效率提升

过去12个月中，顶级托管LLM的运行成本大幅下降。

2023年12月（参见OpenAI的价格页面的互联网存档），OpenAI对GPT-4的收费为每百万输入token 30美元，对当时新推出的GPT-4 Turbo收费10美元/百万token，而GPT-3.5 Turbo仅需1美元/百万token。

如今，30美元/百万token可以买到OpenAI最昂贵的模型o1。GPT-4o的价格是2.50美元（比GPT-4便宜12倍），而GPT-4o mini仅为0.15美元/百万token——比GPT-3.5便宜近7倍，且功能大幅提升。

其他模型提供商的收费更低。Anthropic的Claude 3 Haiku（3月发布，仍是其最便宜的模型）价格为0.25美元/百万token。谷歌的Gemini 1.5 Flash收费0.075美元/百万token，而其Gemini 1.5 Flash 8B仅需0.0375美元/百万token——比去年GPT-3.5 Turbo便宜27倍。

这些价格变化的推动因素是竞争加剧和效率提升。效率的提升对于那些关心LLM环境影响的人来说尤为重要。这些价格下降直接反映了运行提示所需的能源消耗。

虽然AI数据中心的建设对电网和环境造成了巨大压力（参见Bloomberg的报道），但至少单个提示的能源成本不再那么令人担忧。

多模态视觉已成常态，音频和视频正崭露头角

我的“蝴蝶”示例说明了2024年的另一个关键趋势：多模态LLM的崛起。

一年前，这方面最显著的例子是GPT-4 Vision，它在2023年11月OpenAI的开发者大会上发布。谷歌的多模态Gemini 1.0也于2023年12月7日发布，因此也勉强算入了2023年的时间范围。

到了2024年，几乎所有重要模型供应商都推出了多模态模型。我们见证了Anthropic的Claude 3系列在3月发布，Gemini 1.5 Pro在4月发布（支持图像、音频和视频），9月带来了Qwen2-VL、Mistral的Pixtral 12B以及Meta的Llama 3.2 Vision模型。10月，OpenAI引入了音频输入和输出，11月Hugging Face推出了SmolVLM，12月亚马逊Nova发布了图像和视频模型。

到了10月，我升级了我的LLM CLI工具以支持多模态模型，现在它有多个插件可以支持各种视觉模型。

我认为，那些抱怨LLM改进放缓的人，往往忽略了这些多模态模型所带来的巨大进步。能够针对图像（以及音频和视频）运行提示是一种令人着迷的新方式来应用这些模型。

语音和实时摄像头模式让科幻成真

语音输入和实时视频模式的出现值得单独强调。

与ChatGPT对话的功能最早于2023年9月发布，但这功能主要是“障眼法”：OpenAI使用了其优秀的Whisper语音转文字模型，以及新推出的文字转语音模型（命名为tts-1），实现了ChatGPT移动应用中的对话功能，但实际模型只是处理文本。

2024年5月13日发布的GPT-4o演示中，展示了一种全新的语音模式，这是真正的多模态GPT-4o（“o”意为“全能”）。该模型可以直接接受音频输入，并输出极为逼真的语音，而无需单独的TTS或STT模型。

然而，这次演示的语音听起来与斯嘉丽·约翰逊的声音极为相似……而在她提出投诉后，这次演示中的声音（名为Skye）从未进入生产环境。

由于新语音模式在首次演示后迟迟未发布，导致了一些混乱。我在ChatGPT“4o”模式尚未启用新功能一文中对此进行了探讨。

当ChatGPT高级语音模式最终在8月至9月逐步推出时，其表现令人惊叹。我经常在遛狗时使用它，与模型对话，发现语音语调的改进极大地提升了对话体验。我还通过OpenAI的音频API进行了许多实验。

更有趣的是，高级语音模式可以模仿口音！以下是当我让它扮演一只带有浓厚俄罗斯口音的加州褐鹈鹕，并用西班牙语与我交谈时的表现：

此处显示音频文件，需支持浏览器的音频元素。

不仅是OpenAI，谷歌的Gemini也支持音频输入，Google Gemini应用现已具备与ChatGPT类似的语音能力。亚马逊还预告了亚马逊Nova的语音模式，预计将在2025年第一季度推出。

谷歌于9月发布的NotebookLM通过生成两个“播客主持人”之间的逼真对话，将音频输出推向了新高度。之后，他们还添加了自定义指令功能，因此我将其改造成鹈鹕对话：

此处显示音频文件，需支持浏览器的音频元素。

12月，实时视频模式的出现再次掀起了热潮。ChatGPT语音模式现在允许用户共享摄像头视频流，与模型实时讨论所见内容。谷歌Gemini同样发布了这一功能的预览，而且比ChatGPT提前一天上线。

这些功能目前仅推出了几周，我认为它们的影响还未完全显现。如果你还没尝试过，真的应该试试看。

基于提示的应用程序生成已成商品化

2024年，这项技术从可能的应用变成了触手可及的工具。

我们早已知道LLM在编写代码方面表现惊人。事实证明，通过正确的提示，它们不仅可以编写代码，还可以为你生成完整的交互式应用程序，包括HTML、CSS和JavaScript（如果集成额外工具链甚至可以使用React）——而且通常仅需一个提示即可完成。

Anthropic通过发布Claude Artifacts让这一概念迈向了新的高度。这一开创性的功能最初在Claude 3.5 Sonnet的发布公告中提到，却因位置过于靠后而被大多数人忽略。

借助Artifacts，Claude可以根据需求为你编写一个交互式应用程序，并直接在Claude界面中让你使用。

以下是我的Extract URLs工具，它完全由Claude生成：生成记录：

自从Claude Artifacts发布后，我发现自己使用它的频率非常高。在10月，我注意到自己的依赖程度，甚至写了一篇文章，我本周用Claude Artifacts构建的一切，描述了我在7天内开发的14个小工具。

此后，许多团队纷纷推出了类似系统。GitHub在10月宣布了自己的版本——GitHub Spark。Mistral Chat在11月添加了名为Canvas的功能，实现了类似体验。

Val Town的Steve Krause基于Cerebras开发了类似版本，展示了一个2,000 token/秒的LLM如何在不到一秒钟内迭代应用程序。

然后到了12月，Chatbot Arena团队推出了一个全新排行榜，评估这一功能。用户可以用两个不同的模型构建同一个交互式应用程序并投票比较效果。这无疑证明了该功能已经成为各大领先模型中可以高效实现的商品化能力。

我还在为我的Datasette项目尝试这一模式，目标是让用户通过提示构建和迭代自定义组件及数据可视化工具。我还找到了使用uv运行环境写一键式Python程序的类似方法。

这种基于提示的定制界面功能既强大又易于实现（只要你解决了浏览器沙箱的复杂问题），我预计2025年将会有大量产品引入这一功能。

顶级模型的全民访问权只持续了短短几个月

今年有几个月时间，世界上最好的三个模型——GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro——对大部分用户免费开放。

OpenAI于5月让GPT-4o对所有用户免费开放，Claude 3.5 Sonnet在6月发布时也免费向公众开放。这是一个重要的转变，因为在过去的一年中，免费用户通常仅限于使用GPT-3.5级别的模型，而这些模型极易让新用户对LLM的实际能力产生错误认知。

这种免费访问的时代随着OpenAI推出ChatGPT Pro而结束。这项每月收费200美元的订阅服务成为唯一可以访问其最强大模型o1 Pro的方式。

由于o1系列（以及未来可能受其启发的新模型）通过在推理阶段增加计算成本来提升性能，我认为免费使用最先进模型的时代可能不会再回来了。

“代理”（Agents）依然未能真正落地

我对“代理”（agents）这个术语感到非常困惑。它没有单一、清晰且广为人知的定义……但使用该术语的人似乎从未意识到这一点。

如果你告诉我你正在构建“代理”，你几乎没有传递任何信息。我无法通过心灵感应来判断你指的是几十种可能定义中的哪一种。

主流定义分为两类：一种认为AI代理显然是替你行事的东西——比如旅行社的模式；另一种则认为是具备工具访问权限的LLM，可以在解决问题时循环调用这些工具。“自主性”（autonomy）这个词也常被扔进这个讨论中，但同样缺乏明确定义。

（我还收集了211种定义并整理到Datasette Lite中。我尝试用gemini-exp-1206总结这些定义。）

无论如何，代理仍然给人一种永远“即将到来”的感觉。

术语问题暂且不论，我依然对其效用保持怀疑，因为轻信问题仍未解决。LLM会相信任何你告诉它的内容。任何试图代表你做出重大决定的系统都将面临同样的障碍：如果一个旅行代理或数字助理无法分辨真假信息，它还有什么用？

最近，谷歌搜索就因提供了一条完全虚假的描述而被抓包。这段描述是关于一部不存在的电影《Encanto 2》，实际上它总结的是一个粉丝维基的虚构条目。

提示注入攻击是轻信问题的自然产物。2024年，我几乎没有看到这方面的实质性进展，而我们已经从2022年9月开始讨论这个问题。

我开始认为大多数人对“代理”的理想定义实际上依赖于人工通用智能（AGI）本身。要构建一个不轻信的模型是一项极其艰巨的任务。

评估（Evals）非常重要

Anthropic的Amanda Askell（她为Claude的性格设计做出了很大贡献）：

优秀系统提示背后的枯燥但关键的秘密是测试驱动开发。你不能写一个系统提示再找方法测试它。你需要先写测试，再找到一个能通过测试的系统提示。

2024年，我们逐渐清楚，编写良好的自动化评估（evals）对构建可靠的LLM应用程序至关重要。拥有强大的评估套件，可以帮助你更快地采用新模型，更高效地迭代开发，并比竞争对手构建出更可靠、实用的产品功能。

Vercel的Malte Ubl：

当@v0首次发布时，我们对保护提示非常谨慎，使用了各种复杂的前处理和后处理。

最终，我们完全改变了策略，允许提示自由运行。没有评估的提示、模型，尤其是用户体验，就像得到了一个没有说明书的损坏ASML机器。

我仍在探索如何为自己的工作找到最合适的评估模式。每个人都知道评估很重要，但如何最好地实现评估仍然缺乏完善的指导——我将相关内容整理在我的评估标签下。我的骑自行车的SVG鹈鹕基准测试只是对真正评估套件的一个初步尝试。

苹果智能不佳，但苹果的MLX库表现优秀

作为Mac用户，今年让我对自己的平台选择感到更加满意。

去年，我觉得缺少一台带有NVIDIA GPU的Linux或Windows机器是一大劣势，尤其是在尝试新模型方面。

理论上，一台64GB内存的Mac应该是运行模型的绝佳设备，因为其CPU和GPU可以共享相同的内存。但实际上，许多模型发布的权重和库更加偏向NVIDIA的CUDA，削弱了其他平台的表现。

llama.cpp生态系统在这方面起到了很大帮助，但真正的突破是苹果的MLX库——“一个为Apple Silicon设计的数组框架”。它非常出色。

苹果的mlx-lm Python支持运行多种MLX兼容模型，在我的Mac上性能表现非常好。Hugging Face上的mlx-community提供了超过1000个已转换为MLX格式的模型。

Prince Canuma的优秀且快速更新的mlx-vlm项目将视觉LLM带到了Apple Silicon平台。我最近使用它运行了Qwen的QvQ模型。

虽然MLX库令人惊艳，但苹果自己的“Apple Intelligence”功能却令人失望。我在6月的WWDC 2024主题演讲后对此进行了初步评论，当时我乐观地认为，苹果专注于保护用户隐私并最小化误导用户的可能性，这是对LLM应用程序的一个不错的选择。

然而，这些功能推出后表现平平。作为一名LLM深度用户，我知道这些模型能够做到什么，而苹果的LLM功能只是这些能力的浅薄模仿。最终呈现的只是错误总结的新闻标题（例如BBC的投诉），以及完全没有用的写作助手工具。不过，“生成表情符号”（Genmoji）还是挺有趣的。

推理扩展“推理模型”的崛起

2024年最后一个季度中最有趣的发展是新型LLM架构的出现，这种架构以OpenAI的o1模型为代表——最初版本（o1-preview和o1-mini）于9月12日发布。

一种理解这些模型的方法是将其视为链式思维（chain-of-thought）提示技巧的扩展。该技巧首次出现在2022年5月的论文《大型语言模型是零样本推理者》（Large Language Models are Zero-Shot Reasoners）中。

这是指，如果你让模型在解决问题时“自言自语”，通常可以得到更好的结果，而不是直接输出答案。

o1模型将这一过程进一步内化到模型架构中。具体细节尚未完全公开：o1模型在用户不可见的“推理token”中进行思考（尽管ChatGPT界面会显示这些推理的摘要），然后输出最终结果。

这一架构的最大创新在于，它提供了一种新的模型扩展方式：除了通过增加训练阶段的计算成本来提高性能，模型现在还可以通过在推理阶段消耗更多计算资源来解决更复杂的问题。

o1的后续版本o3（跳过了“o2”因其在欧洲的商标问题）于12月20日发布，在ARC-AGI基准测试中取得了令人印象深刻的成绩，尽管其运行成本可能超过了100万美元！

o3预计将在2025年1月推出。我怀疑有多少人需要解决现实问题时会使用如此昂贵的推理开销——我肯定不需要！——但这显然代表了LLM架构的一大进步，可用于应对更具挑战性的问题。

除了OpenAI，谷歌在12月19日也发布了其首款推理扩展模型gemini-2.0-flash-thinking-exp相关介绍。

阿里巴巴的Qwen团队于11月28日推出了QwQ模型——这是一款使用Apache 2.0许可证发布的模型，我甚至可以在自己的机器上运行它。随后，他们于12月24日发布了一款视觉推理模型QvQ相关介绍，我也成功在本地运行。

DeepSeek推出了他们的DeepSeek-R1-Lite-Preview模型，可以通过聊天界面试用，该模型于11月20日发布。

要了解更多关于推理扩展的知识，我推荐Arvind Narayanan和Sayash Kapoor的《AI进展是否放缓？》。

Anthropic和Meta目前尚未发布类似的推理扩展模型，但我会感到非常惊讶如果他们没有在开发相关项目。Meta在12月发布的一篇论文《训练大型语言模型在连续潜在空间中进行推理》与此主题密切相关。

最强现有LLM是否在中国以不到600万美元的成本训练完成？

还不完全是，但非常接近！不过，这确实是一个吸引眼球的标题。

年末的大新闻是DeepSeek v3的发布——它在圣诞节当天直接上传到Hugging Face，但没有任何README文件。随后，文档和论文于第二天发布详细介绍。

DeepSeek v3是一款拥有6850亿参数的超大规模模型——这是当前最大的开放许可证模型之一，显著大于Meta Llama系列的最大模型Llama 3.1 405B。

基准测试表明，其表现与Claude 3.5 Sonnet不相上下。在“氛围基准”（即Chatbot Arena）中，它目前排名第7，仅次于Gemini 2.0和OpenAI 4o/o1模型。这是目前排名最高的开放许可证模型。

DeepSeek v3最令人印象深刻的地方在于训练成本。该模型使用了2,788,000小时的H800 GPU，预计成本为5,576,000美元。相比之下，Llama 3.1 405B的训练时间为30,840,000小时——是DeepSeek v3的11倍，而后者的基准测试分数稍高。

美国对中国GPU出口的限制似乎激励了某些非常高效的训练优化技术！

环境影响得到了改善

随着模型效率的提升——无论是托管的还是本地运行的——运行一个提示所需的能耗大幅减少，这对环境影响带来了积极变化。

OpenAI从GPT-3到现在的模型，其提示运行成本下降了100倍。据我所知，谷歌Gemini和亚马逊Nova（两家价格最便宜的模型提供商）运行提示并未亏本。

这意味着，作为个人用户，我们不需要对运行绝大多数提示的能源消耗感到愧疚。与开车上街甚至观看一段YouTube视频相比，其影响可能微不足道。

在模型训练方面，DeepSeek v3以不到600万美元的成本完成训练，这表明训练成本可以而且应该继续下降。

对于效率较低的模型，我喜欢将其能耗与商业航班进行比较。最大的Llama 3模型的训练成本相当于少量满载的纽约到伦敦的客运航班。这显然不是没有代价，但一旦训练完成，该模型可以被数百万人使用而无需额外训练成本。

环境影响却变得更糟

更大的问题在于，为应对未来对模型的需求，科技公司正在进行的大规模数据中心基础设施扩建。

谷歌、Meta、微软和亚马逊等公司正投入数十亿美元建设新数据中心，对电网和环境造成了非常实际的影响。这甚至引发了兴建新核电站的讨论，但这些电站可能需要几十年才能投入使用。

这些基础设施是否必要？DeepSeek v3的600万美元训练成本以及LLM价格的持续下降似乎暗示并不一定需要如此。然而，如果你是一位科技公司高管，是否愿意冒险不建设这些设施，却在几年后被证明是错误的选择？

一个有趣的比较是19世纪铁路在世界范围内的建设方式。铁路建设需要巨大的投资，对环境造成了显著影响，并且许多线路最终被证明是不必要的——有些甚至由不同公司重复建设，服务相同的路线！

结果，这些泡沫导致了多次金融危机（参见1873年恐慌、1893年恐慌、1901年恐慌和英国的铁路狂热），但也留下了许多有用的基础设施，以及大量的破产和环境破坏。

这是“低质内容”的一年

2024年，“低质内容（slop）”一词成为了一种术语。我在5月的一篇文章中扩展了这一推文的定义：deepfates的推文：

见证“slop”实时成为术语，就像“spam”成为垃圾邮件的代名词，“slop”正在成为AI生成的低质内容的定义。

我将其定义稍作扩展为：

低质内容是指那些未被请求且未被审核的AI生成内容。

我在《卫报》和《纽约时报》中被引用讨论这一术语。在《纽约时报》中我这样说：

社会需要用简洁的方式讨论现代AI的积极与消极影响。“忽略那封邮件，它是垃圾邮件”，以及“忽略那篇文章，它是低质内容”，都是有用的提醒。

我喜欢“低质内容”这一术语，因为它如此简洁地总结了我们不应该使用生成式AI的方式！
“低质内容”甚至成为了2024年牛津年度词汇的候选词，但最终输给了“脑腐”（brain rot）。

合成训练数据效果显著

“模型崩溃”的概念似乎意外地在公众认知中扎根。这一概念最初出现在2023年5月的论文《递归的诅咒：基于生成数据的训练让模型遗忘》（The Curse of Recursion: Training on Generated Data Makes Models Forget）中，随后在2024年7月的一篇《自然》文章中再次提到，其标题更加引人注目——《当训练数据递归生成时，AI模型崩溃》。

这个想法十分吸引人：随着互联网被AI生成的“低质内容”淹没，模型本身也会退化，陷入“吃自己的输出”的恶性循环，从而走向崩溃。

然而，现实显然不是这样。相反，我们看到AI实验室越来越多地使用合成数据来训练模型——通过刻意生成的人工数据，帮助模型朝着正确的方向发展。

我见过的最佳描述之一来自Phi-4技术报告，其中包括以下内容：

合成数据作为预训练的重要组成部分正变得越来越普遍，Phi系列模型始终强调合成数据的重要性。与其说合成数据是有机数据的廉价替代品，不如说它在以下几个方面具有直接优势：

结构化和渐进式学习：在有机数据集中，token之间的关系通常复杂且间接。需要许多推理步骤将当前token与下一个token连接起来，这使得模型难以通过预测下一个token有效学习。相比之下，由语言模型生成的每个token都由前面的token预测而来，这使得模型更容易跟随由此产生的推理模式。

另一个常见的技术是使用更大的模型帮助创建训练数据，以训练更小、更廉价的替代模型——这一技巧被越来越多的实验室采用。DeepSeek v3使用DeepSeek-R1生成的“推理”数据进行训练。Meta的Llama 3.3 70B模型则使用了超过2500万个合成生成的示例进行微调。

精心设计的训练数据是构建LLM的核心竞争力。随意抓取网络内容并将其无差别地用于训练的时代已经一去不复返了。

LLM的使用变得更加复杂

我一直在强调，LLM是高级用户的工具——它们是伪装成厨房刀具的电锯。看起来它们简单易用——输入问题和提示似乎并不难——但实际上，你需要具备深厚的理解和经验，才能充分利用这些工具，并避免它们的诸多陷阱。

如果说2024年带来了什么变化，那就是这一问题变得更糟了。

我们已经构建了可以用人类语言对话的计算机系统，它们能回答你的问题，通常还会正确……这取决于问题的类型、你如何提问，以及问题是否准确反映在未公开的秘密训练数据集中。

可用系统的数量爆炸式增长。不同系统配备了不同的工具来解决你的问题——例如Python、JavaScript、网络搜索、图像生成，甚至可能包括数据库查询……因此，你最好了解这些工具是什么，它们能做什么，以及如何判断LLM是否真的使用了它们。

你知道ChatGPT现在有两种完全不同的方式来运行Python吗？

想要构建一个可以与外部API交互的Claude Artifact？你最好先了解CSP和CORS的HTTP头。

尽管模型变得更加强大，但它们的局限性仍然存在。OpenAI的o1也许终于能（大致）数出“strawberry”中的字母R数量，但它的能力仍然受到其作为LLM的本质限制，以及运行环境的约束。o1不能进行网络搜索，也不能使用代码解释器，但GPT-4o可以——两者都运行在相同的ChatGPT界面中。（如果你要求，o1会假装能做这些事情，这是2023年早期URL幻觉错误的倒退。）

我们在做什么来解决这个问题？几乎没有什么进展。大多数用户被直接丢进深水区。LLM的默认聊天界面就像让新电脑用户直接使用Linux终端，并期望他们自己搞清楚一切。

另一方面，最终用户对这些工具的工作方式及其能力发展出了一些极其错误的认知。我见过许多案例，人们试图用ChatGPT的截图来赢得争论——这是完全荒谬的行为，因为这些模型本质上不可靠，你还可以通过提示让它们说出任何话。

也有许多更了解技术的人完全放弃了LLM，因为他们无法理解如何从这种存在诸多缺陷的工具中获益。掌握在不可靠与极度强大之间找到平衡的能力，是使用LLM的核心技能，而这显然不是一项容易获得的技能。

教育内容在这里有巨大空间，但我们需要比那些轰炸式推特帖子中的AI投机者做得更好。

知识分布极其不均

大多数人已经听说过ChatGPT。但有多少人听说过Claude？

活跃跟踪这些技术的人和不跟踪的人之间的知识鸿沟是巨大的。

快速的技术变化也没有帮助。仅在过去一个月，我们就见证了实时接口的普及——你可以用手机摄像头指向某物，并用语音与模型实时讨论它……或者让它假装是圣诞老人。大多数技术爱好者甚至都没尝试过这些功能。

鉴于这项技术对社会的持续（及潜在）影响，我认为这种知识差距的规模是不健康的。我希望能看到更多努力来缩小这种差距。

LLM需要更好的批判

有些人绝对讨厌这项技术。在我经常出没的一些社区中（Mastodon、Bluesky、Lobste.rs，甚至偶尔的Hacker News），仅仅提到“LLMs是有用的”就足以引发一场大争论。

我能理解这一点。这项技术确实有很多值得批评的地方——对环境的影响、不道德的训练数据、缺乏可靠性、负面应用以及对就业的潜在影响。

LLMs绝对需要批评。我们需要讨论这些问题，找到减轻影响的方法，并帮助人们学习如何以负责任的方式使用这些工具，让积极的应用超越消极的影响。

我喜欢对这项技术持怀疑态度的人。过去两年的宣传过于聒噪，充斥着大量虚假信息和蛇油式炒作。基于这些宣传，许多非常糟糕的决定正在被做出。批判是一种美德。

如果我们希望拥有决策权的人能做出正确的决定，那么我们首先需要承认这些工具确实存在好的应用场景，然后帮助解释如何在避免诸多陷阱的同时将其付诸实践。

（如果你认为根本不存在好的应用场景，我不确定你为何能读到这篇文章的最后！）

我认为，仅仅告诉人们这整个领域都是环境灾难性的剽窃机器，而且不断虚构事实，这是一种误导。虽然有一定的真实性，但这忽视了这些工具的真正价值。而要实现这些价值需要直观的指导。

那些真正理解这些技术的人，有责任帮助其他人理解。

星期四

谈练 AI谈谈 AI, 练练 AI

2024年大语言模型（LLMs）回顾

TL;DR: 2024年大型语言模型（LLMs）的关键进展

GPT-4壁垒被全面攻克

有些GPT-4模型甚至可以在我的笔记本电脑上运行

LLM价格暴跌，得益于竞争和效率提升

多模态视觉已成常态，音频和视频正崭露头角

语音和实时摄像头模式让科幻成真

基于提示的应用程序生成已成商品化

顶级模型的全民访问权只持续了短短几个月

“代理”（Agents）依然未能真正落地

评估（Evals）非常重要

苹果智能不佳，但苹果的MLX库表现优秀

推理扩展“推理模型”的崛起

最强现有LLM是否在中国以不到600万美元的成本训练完成？

环境影响得到了改善

环境影响却变得更糟

这是“低质内容”的一年

合成训练数据效果显著

LLM的使用变得更加复杂

知识分布极其不均

LLM需要更好的批判

DeepSeek V3：一款开源国产AI大模型

Nvidia 以7亿美元收购并开源Run:ai，帮助企业管理AI GPU资源

k·AI

发表回复取消回复

谈练 AI

谈练 AI谈谈 AI, 练练 AI

2024年大语言模型（LLMs）回顾

TL;DR: 2024年大型语言模型（LLMs）的关键进展

GPT-4壁垒被全面攻克

有些GPT-4模型甚至可以在我的笔记本电脑上运行

LLM价格暴跌，得益于竞争和效率提升

多模态视觉已成常态，音频和视频正崭露头角

语音和实时摄像头模式让科幻成真

基于提示的应用程序生成已成商品化

顶级模型的全民访问权只持续了短短几个月

“代理”（Agents）依然未能真正落地

评估（Evals）非常重要

苹果智能不佳，但苹果的MLX库表现优秀

推理扩展“推理模型”的崛起

最强现有LLM是否在中国以不到600万美元的成本训练完成？

环境影响得到了改善

环境影响却变得更糟

这是“低质内容”的一年

合成训练数据效果显著

LLM的使用变得更加复杂

知识分布极其不均

LLM需要更好的批判

DeepSeek V3：一款开源国产AI大模型

Nvidia 以7亿美元收购并开源Run:ai，帮助企业管理AI GPU资源

k·AI

Related Posts

LLM能否通过不断要求“写出更好的代码”来写出更好的代码？

为什么GPT-3.5-turbo-instruct擅长下棋，而其他大模型不行？

AI领域的历史争议：为什么日本AI先驱未获诺奖认可？

谷歌发布105量子比特芯片“Willow”：量子计算新里程碑

为什么AI领域都在讨论DeepSeek

DeepSeek V3 与前沿 AI 模型的成本

发表回复 取消回复

谈练 AI

发表回复取消回复