OpenAI推出“深度研究”(Deep Research)AI Agent
周末,未来的一个暗示悄然到来。长期以来,我一直在讨论人工智能(AI)领域的两场并行革命:自OpenAI的o1发布以来,自主代理(autonomous agents)的崛起和强大推理器(Reasoners)的出现。这两条线索终于汇聚成了令人印象深刻的东西——能够以人类专家的深度和细致进行研究的AI系统,但以机器的速度。OpenAI的深度研究(Deep Research)展示了这种融合,并让我们对未来有了一个初步的感知。但要理解为什么这很重要,我们需要从基础构建模块开始:推理器和代理。
过去几年,每当你使用聊天机器人时,它的工作方式都很简单:你输入一些内容,它会立即逐字(或更技术地说,逐标记(token))开始回应。AI只能在生成这些标记时“思考”,因此研究人员开发了一些技巧来改进其推理能力——比如告诉它“在回答之前一步一步地思考”。这种方法被称为“思维链提示(chain-of-thought prompting)”,显著提高了AI的表现。
推理器本质上自动化了这一过程,在实际给出答案之前生成“思考标记”。这至少在两个方面是一个突破。首先,因为AI公司现在可以让AI基于优秀问题解决者的示例学习如何推理,AI可以更有效地“思考”。这种训练过程可以生成比我们通过提示更高质量的思维链。这意味着推理器能够解决更困难的问题,尤其是在数学或逻辑等领域,这些领域是旧版聊天机器人无法胜任的。
第二个突破点是,推理器“思考”的时间越长,它们的答案就越好(尽管随着思考时间的增加,改进的速度会减慢)。这很重要,因为以前让AI表现更好的唯一方法是训练越来越大的模型,这非常昂贵且需要大量数据。推理模型表明,你可以通过让AI生成越来越多的思考标记来使其变得更好,使用回答问题时的计算能力(称为推理时计算(inference-time compute)),而不是在模型训练时。
研究生级别的谷歌防作弊问答测试(GPQA)是一系列多项选择题,即使有互联网访问权限的博士在其专业领域外也只能答对34%,在其专业领域内答对81%。它展示了推理模型如何加速了AI能力的提升。数据来源。
由于推理器是如此新颖,它们的能力正在迅速扩展。在短短几个月内,我们已经看到从OpenAI的o1系列到新的o3模型的显著改进。与此同时,中国的深度搜索(DeepSeek)r1找到了在降低成本的同时提高性能的创新方法,谷歌也推出了他们的第一个推理器。这只是一个开始——预计很快会看到更多这些强大的系统。
虽然专家们对AI代理(AI agent)的精确定义存在争议,但我们可以简单地将其视为“一个被赋予目标并能够自主追求该目标的AI”。目前,AI实验室正在展开一场构建通用代理(general-purpose agents)的竞赛——这些系统可以处理你交给它们的任何任务。我之前写过一些早期例子,比如Devin和会使用电脑的Claude,但OpenAI刚刚发布了Operator,可能是迄今为止最完善的通用代理。
下面的视频加速了16倍,捕捉了通用代理的潜力和陷阱。我给Operator一个任务:阅读我在OneUsefulThing上的最新Substack帖子,然后去Google ImageFX制作一张合适的图片,下载它,并交给我发布。 发生的事情很有启发性。起初,Operator以令人印象深刻的精确度移动——找到我的网站,阅读帖子,导航到ImageFX(短暂停顿让我输入登录信息),并创建图片。然后问题开始了,而且是双重的:不仅Operator被OpenAI的文件下载安全限制所阻挡,它还在任务本身中开始挣扎。代理系统有条不紊地尝试了所有可能的解决方法:复制到剪贴板、生成直接链接,甚至深入网站的源代码。每次尝试都失败了——有些是由于OpenAI的浏览器限制,有些是由于代理自己对如何实际完成任务感到困惑。观看这个坚定但最终失败的问题解决循环,既揭示了这些系统的当前局限性,也提出了关于代理在现实世界中遇到障碍时最终会如何行为的问题。
Operator的问题凸显了通用代理的当前限制,但这并不意味着代理是无用的。专注于特定任务的经济上有价值的窄代理(narrow agents)似乎已经可行。这些由当前LLM(大语言模型)技术驱动的专家,可以在其领域内取得显著成果。一个典型的例子是OpenAI的新深度研究(Deep Research),它展示了专注的AI代理可以有多么强大。
OpenAI的深度研究(不要与谷歌的深度研究混淆,稍后会详细介绍)本质上是一个窄研究代理,基于OpenAI尚未发布的o3推理器构建,并具有访问特殊工具和能力。这是我最近见过的最令人印象深刻的AI应用之一。为了理解为什么,让我们给它一个主题。我特意选择了我研究领域内一个高度技术性和有争议的问题:初创公司何时应该停止探索并开始扩展?我希望你研究关于这个主题的学术研究,重点关注高质量论文和随机对照试验(RCTs),包括处理有问题的定义以及常识与研究之间的冲突。以研究生级别的讨论呈现结果。
AI提出了一些聪明的问题,我澄清了我的需求。现在o3开始工作。你可以看到它的进展和“思考”过程。真的值得花点时间看看下面几个示例。你可以看到AI实际上是在像研究人员一样工作,探索发现,深入挖掘“感兴趣”的内容,并解决问题(比如找到访问付费文章的替代方法)。这个过程持续了五分钟。
真的花点时间看看这三个“思考”过程的片段
最后,我得到了一个13页、3778字的草稿,包含六个引用和一些额外的参考文献。老实说,这非常好,尽管我希望有更多的来源。它将困难和矛盾的概念编织在一起,找到了一些我意想不到的新颖联系,仅引用了高质量的来源,并且充满了准确的引用。我不能保证一切都是正确的(尽管我没有看到任何错误),但如果是一个刚开始的博士生提交这样的东西,我会很满意。你可以在这里查看完整结果,但下面的几个摘录足以展示为什么我如此印象深刻。
引用的质量也标志着真正的进步。这些不是常见的AI幻觉或错误引用的论文——它们是合法的高质量学术来源,包括我的同事Saerom(Ronnie)Lee和Daniel Kim的开创性工作。当我点击链接时,它们不仅带我找到论文,还经常直接带我找到相关的高亮引用。尽管仍然存在限制——AI只能访问它在几分钟内找到和阅读的内容,付费文章仍然无法访问——但这代表了AI如何与学术文献互动的一个根本性转变。这是第一次,AI不仅仅是在总结研究,而是在一个真正接近人类学术工作的水平上积极参与研究。
值得将其与谷歌上个月推出的同样名为深度研究(Deep Research)的产品进行对比(唉)。谷歌展示了更多的引用,但它们通常是质量参差不齐的网站混合体(无法访问付费信息和书籍对所有代理都有影响)。它似乎是一次性收集文档,而不是像OpenAI的研究代理那样由好奇心驱动的发现。而且,由于(截至目前)这是由非推理的旧版Gemini 1.5模型驱动的,总体总结更加表面化,尽管仍然扎实且显然没有错误。这就像一个非常好的本科生作品。我怀疑如果你稍微阅读一下下面的内容,差异会很明显。
从更广泛的角度来看:这两种输出都代表了通常需要消耗数小时人类努力的工作——OpenAI的系统接近博士级别的分析,谷歌的系统则是扎实的本科生作品。OpenAI在其公告中做出了一些大胆的声明,并附有图表,表明他们的代理可以处理15%的高经济价值研究项目和9%的极高价值项目。尽管这些数字值得怀疑——他们的方法论没有解释——但我的实际测试表明,它们并非完全离谱。深度研究确实可以在几分钟内生成有价值的、复杂的分析,而不是几小时。鉴于快速的发展速度,我预计谷歌不会让这种能力差距持续太久。我们可能会在未来几个月内看到研究代理的快速改进。
你可以开始看到AI实验室正在构建的这些部分不仅仅是拼凑在一起——它们正在相互配合。推理器提供了智力动力,而代理系统则提供了行动能力。目前,我们正处于像深度研究这样的窄代理时代,因为即使是我们最好的推理器也还没有准备好实现通用自主性。但窄并不意味着限制——这些系统已经能够完成曾经需要高薪专家团队或专业咨询公司的工作。
这些专家和咨询公司不会消失——如果有什么变化的话,他们的判断将变得更加关键,因为他们从执行工作转变为协调和验证AI系统的工作。但实验室认为这只是一个开始。他们押注更好的模型将破解通用代理的代码,超越窄任务,成为可以在网络上导航、跨所有模态处理信息并在世界中采取有意义行动的自主数字工作者。Operator表明我们还没有到达那里,但深度研究表明我们可能正在路上。
参考:https://www.oneusefulthing.org/p/the-end-of-search-the-beginning-of