O1意义被大大低估！OpenAI核心科学家重磅发声：测试时计算将引爆AGI时代！

　　（来源：硬AI）

　　OpenAI从预训练巨头到测试时计算先锋。

　　在最新一期节目中，OpenAI知名研究员、O1研究团队的核心科学家Noam Brown，表达了对“测试时计算”（或推理时计算，test-timecompute）技术引爆AGI时代的坚定信心。

　　他认为，尽管扩大预训练规模是提升模型性能的有效手段，但成本高昂且终将触及天花板。而“测试时计算”技术的出现，为解决这一瓶颈提供了全新的思路，将加速AGI的到来。

　　Brown曾认为，实现AGI至少需要十年，但“测试时计算”技术仅用两三年时间便攻克了他在2021年与OpenAI首席科学家IlyaSutskever讨论时提出的关键难题：如何扩展推理过程中的计算量。

　　他认为，这项技术让模型能够在推理阶段进行更深入的思考和计算，从而解决更复杂的问题，而O1模型便是测试时计算研究的突破，可自主学习策略、拆解任务、识别并纠正错误，展现出前所未有的智能水平，证明了模型可以进行更深入的推理和解决更复杂的问题，它存在的意义被大大低估。

　　Brown强调，测试时计算目前还处于早期发展阶段，未来拥有巨大的提升空间。

　　他以ChatGPT为例：目前每次查询的成本约为1美分，但对某些高价值应用场景，用户愿意支付的费用可能高达100万美元，这预示着测试时计算拥有巨大的市场潜力，将在未来释放出更强大的能量。

　　精华概要

　　本文主要围绕OpenAI研究科学家Noam Brown对大型语言模型（LLM）能力、测试时间计算以及AGI发展时间线的看法展开。

　　精华概要如下：

　　大模型能力触碰天花板？测试时计算打开新思路

模型越大，性能越强，但成本也越高，终将面临经济上的不可逾越的障碍。
测试时计算提供了一种更经济高效的方式来提升模型性能。

　　问：模型能力是否已经达到了极限？

　　答： Noam认为，LLM的能力并非遇到了硬性瓶颈，而是面临着经济上的软性限制。单纯通过扩大预训练规模来提高性能，成本会呈指数级增长，导致经济上不可行。

　　测试时计算：AGI 的终极密码？

测试时计算仍处于早期阶段，潜力巨大，还有很多低 hanging fruits 等着我们去摘取。
测试时计算可以解决预训练无法解决的问题，例如在推理过程中进行扩展。

　　问：测试时计算的上限有多高？

　　答： Noam认为，测试时计算是提升LLM能力性价比的关键。相比预训练的巨额投入，测试时间计算的成本相对较低，且算法改进空间巨大，具有巨大的提升潜力。他估计测试时间计算的成本还有至少八个数量级的提升空间。

　　AGI实现时间被大大缩短

　　问：Sam Altman 曾说：“我们基本知道如何构建 AGI 了”，你的看法呢？

　　答：我和 Sam 的观点一致，OpenAI 的研究人员普遍认为 AI 会快速发展。测试时计算的出现解决了很多关键问题，例如如何扩展推理过程中的计算量。我原本以为这需要 10 年时间才能实现，但实际上只用了 2-3 年。

　　O1的意义被低估了：OpenAI从预训练巨头到测试时计算先锋

OpenAI 正全力投入开发能够扩展测试时计算的技术。
O1 是测试时计算研究的突破，它证明了模型可以进行更深入的推理和解决更复杂的问题。

　　问：是什么促使你专注于测试时计算的研究？

　　答：在扑克和外交等游戏中，我看到了测试时计算的巨大潜力。我意识到，仅仅扩大预训练规模无法实现真正的智能，需要找到一种方法来扩展推理过程中的计算量。在 2021 年，我跟 Ilya Sutskever 讨论过 AGI 的时间线，当时我认为至少需要 10 年时间。令我惊讶的是，他当时也认为仅靠扩大预训练规模无法实现 AGI。

　　问：是什么让你相信测试时计算会成功？

　　答：当我们让模型“思考”更长时间时，它开始展现出一些我们原本以为需要人工添加到模型中的能力，例如尝试不同的策略、将复杂问题分解成更小的子问题、识别并纠正错误。这让我相信，测试时计算是通往更高级智能的关键。

　　问：OpenAI 为什么会转向测试时计算？

　　答： OpenAI 内部也意识到仅靠扩大预训练规模无法实现 AGI，他们一直在寻找新的突破口。虽然最初的动机是为了克服数据墙的限制，但最终目标与扩展测试时计算的目标一致。O1 的出现实际上颠覆了 OpenAI 自己开创的预训练范式，这表明 OpenAI 愿意投资有风险的方向。

　　通用模型一统天下？专用模型和工具仍有价值

未来可能会出现一个能够处理所有任务的单一模型，并根据需要使用专门的工具。

　　问：专用模型的未来如何？

　　答：我认为最终会出现一个能够处理所有任务的单一模型。但目前 O1 和 GPT-4 各有优劣。O1 更智能，擅长解决复杂问题，但响应速度较慢。GPT-4 响应速度更快，更适合那些不需要深入推理的任务。

　　问：专用工具在未来会扮演什么角色？

　　答：我认为未来会出现很多介于简单计算器和复杂模型之间的专用工具。例如，当 O1 被要求进行复杂的数学计算时，它可以选择调用计算器工具来节省时间和成本。

　　O1 惊艳亮相：颠覆编码，开启人机协作新时代

O1 在编码任务中表现出色，可能会改变软件开发领域。
未来的模型将更加智能，能够执行更复杂的任务，例如代理任务。

　　问：你对 O1 的哪些用例感到兴奋？

　　答：我对 O1 在编码方面的应用感到兴奋。它可以帮助程序员完成更复杂的任务，甚至可以独立完成整个项目。

　　问：你希望未来看到哪些新的应用？

　　答：我希望看到 O1 被用于推进科学研究。它可以帮助科学家分析数据、设计实验、甚至提出新的理论。

　　问：你认为 O1 能够在哪些领域取得突破？

　　答： O1 预览版在数学和编码方面表现出色。我认为随着模型的不断发展，它将在越来越多的领域超越人类专家。

　　“苦涩的教训”：脚手架技术的宿命

目前很多辅助工具和提示工程技术是权宜之计，最终会被更强大的、能够自适应解决问题的模型所取代。

　　问：脚手架技术（诸如辅助工具、提示工程技术等）是否会持续存在？

　　答：我认为脚手架技术最终会被更通用的方法所取代。Richard Sutton 在他的“苦涩的教训”一文中指出，依赖人工编码知识的技术最终会被那些能够随着数据和计算能力的增加而扩展的技术所超越。

　　问：初创公司应该如何应对快速发展的模型能力？

　　答：我建议初创公司不要在脚手架技术上投入过多资源，因为随着模型能力的快速发展，这些技术可能会很快过时。

　　学术界的作用、对未来人工智能发展的展望

学术界应该专注于探索新的架构和方法，这些架构和方法可以随着数据和计算能力的增加而扩展。
人工智能模型可以用于进行社会科学实验，例如测试不同的经济政策或研究人类行为。

　　问：学术界在人工智能研究中应该扮演什么角色？

　　答：学术界应该专注于探索新的架构和方法，这些架构和方法可以随着数据和计算能力的增加而扩展。

　　我建议学术研究人员不要试图在需要大量数据和计算能力的领域与行业研究实验室竞争，而应该专注于探索新的方向。

　　问：人工智能如何应用于社会科学研究？

　　答：我认为人工智能模型可以用于进行社会科学实验。例如，我们可以用 AI 模型来模拟不同的经济政策的效果，或者研究人类在不同情境下的行为模式。

　　问：人工智能代理如何相互交流？

　　答： LLM 的出现解决了人工智能代理之间如何进行通信的问题，因为它们可以使用人类语言进行交流。

　　问：你对人工智能技术的未来有何看法？

　　答：我认为人工智能机器人技术的发展可能会比较缓慢，因为硬件迭代比软件迭代更加困难和昂贵。

　　以下为访谈全文：

　　全文部分

　　主持人Jacob： Noam Brown是OpenAI的研究科学家，他是他们O1项目工作的核心成员。Noam在大型语言模型推理领域处于前沿地位，在FAIR期间他从事外交和扑克博弈问题研究，有着非常有趣的过往经历，我们今天讨论了大型语言模型中关于无监督学习的最大问题。我们讨论了这些模型是否遇到了瓶颈，测试时间计算能够扩展到什么程度，Noam如何定义AGI，以及在过去几年中他对人工智能研究的看法发生了哪些改变。这是在O1正式发布后进行的一次非常有趣的访谈，我相信大家会很喜欢。闲话少说，让我们听听Noam怎么说。Noam，非常感谢你参加播客。当然，很高兴来到这里。我已经期待这一刻很久了，并且在O1令人兴奋的发布之后，这个时机也恰到好处。

　　Noam Brown：是的，我也很期待。我们明天将发布O1，我想等到这个播客发布的时候，它已经上线了。我对此非常兴奋。我认为社区会喜欢它，但我们拭目以待吧。

　　主持人Jacob：好吧，我不能不从过去一个月大家都在问的一个问题开始，也就是：我们是否已经触及了模型能力的瓶颈？我认为这个问题有很多方面。所以，或许我们可以从你认为在预训练的扩展方面是否还有更多潜力入手。

　　Noam Brown：我对这个问题的看法，我公开表达过，我认为各个方面都有更大的提升空间，这包括预训练。我认为正确的思考方式是，每次你想进一步扩展这些模型，都会付出代价。

　　看看GPT-2；它的成本在5000美元到50000美元之间，取决于你的衡量方法。再看看GPT-4，显然有很多改进，但根本上变化的是投入的资源数量。前沿模型的支出大幅增加——从数千美元到数万美元，再到数十万美元、数百万美元，而对于一些实验室来说，今天甚至可能是数亿美元。

　　模型不断改进，我认为这种情况还会持续下去。如果你投入更多的资金、更多的资源和更多的数据，你就会得到一个更好的模型。问题是，如果你每次都想将其规模扩大十倍，那么在某个时刻，这将成为一个难以承受的成本。

　　如果你想让它变得更好，并目标是再次提高十倍，那么你说的就是数十亿美元。如果你想再提高十倍，你说的就是数百亿美元。在某个时刻，继续以这种规模投资将不再经济划算，这导致了一种情况，即人们假定不会在单个模型上花费数万亿美元。

　　在这种情况下，并没有坚硬的壁垒；更像是一个软性壁垒，最终经济因素将不再支持如此大规模的持续投资。

　　主持人Jacob：是的。而且看起来，显然，在许多方面，你可以通过测试时间的计算来推进这项工作，就像，你知道的，从成本角度来看，这里有更容易实现的成果来推进它。

　　Noam Brown：没错。这就是为什么我对测试时间计算如此兴奋的原因。我认为很多人也对此感到兴奋，因为它感觉我们回到了GPT-2时代。当GPT-2被发现并且比例法则被理解后，很明显，如果你将其规模扩大1000倍，你将得到一个更好的模型。虽然现在在预训练期间将规模扩大这么大的因素有点困难，但在测试时间计算中，我们仍处于早期阶段。这意味着我们有很多机会和空间来进一步增强它。

　　在这个领域，算法改进还有很多低垂的果实。我相信在这个方向上可以有很多令人兴奋的发展。这并不是说预训练已经完成了；相反，在测试时间计算范式上还有很大的提升空间。重要的是要强调，即使回顾预训练，也并非只有再达到两个数量级才能完成。

　　摩尔定律将继续适用，成本也可能会随着时间的推移而下降。那么问题就变成了我们能够多快地扩展这些改进。曾经有过一个显著的溢出效应，规模化相对容易快速实现，但这种情况现在正在变得不那么真实。随着我们前进，我们需要找到新的方法来创新和适应，以跟上这些变化。

　　主持人Jacob：我知道这可能是一个过于宽泛的问题，但是测试时间计算的上限有多高？或者你如何看待它的发展方向？

　　Noam Brown：同样，我从美元价值的角度来思考这个问题。那么，今天一个ChatGPT查询的成本是多少？大约一分钱。对于一个你非常关心的查询，你能花费多少成本？你愿意支付多少成本？我认为有一些问题，人们愿意为此付出很多钱。我说的不是一美元或五美元。我说的对社会而言最重要的一些问题，人们愿意支付数百万美元。那么这是多少个数量级？大概有八个数量级吧？所以我认为还有很大的提升空间。我也认为算法改进还有很大的空间。所以这不仅仅是，哦，我们只是要投入更多资金到查询中，然后你就会得到更好的输出。而是，不，实际上，我们可以进一步改进这种模式，并使扩展更好。

　　主持人Jacob：你知道，我认为有趣的一点是，大概一个月前，Sam Altman发推文说，我们基本上知道如何构建AGI了。我认为你转发了这条推文，并表示他的观点与今天OpenAI研究人员的平均观点一致。你能详细说说吗？因为现在有很多人都在说，哦，我们已经触及瓶颈了。你认为他们错在哪里？

　　Noam Brown：我觉得我们对这一点已经相当坦诚了，我们看到事情进展得非常迅速。我认为这是我的观点。我认为Sam也表达了他的观点。我认为，你们知道的，我听到一些人说，哦，Sam只是在试图制造炒作之类的东西。对此我感到有点惊讶，因为，我们说的是同样的事情。而且，是的，我认为公司里普遍的观点是事情进展会很快。

　　主持人Jacob：你认为仅仅是预训练和测试时间计算就能解决大部分问题吗？还是说，看起来还有算法方面的问题？

　　Noam Brown：这绝对不是我们已经完成的。这不像我们已经破解了超级智能的密码，现在我们只需要……

　　主持人Jacob：如果你下次来播客节目，那将会非常酷。

　　Noam Brown：虽然那将会很棒。但是我认为……好的，我这样想，回到2021年末，我和Ilya Sutskever喝过咖啡。你知道的，他问我关于我对AGI时间线的看法。我告诉他，说实话，我认为这需要很长时间。我非常怀疑我们能在未来十年内实现。

　　我给他的主要原因是，我们没有一种通用的方法来扩展推理计算，一种可扩展的测试时计算。我看到了它在游戏中的巨大作用，以及它在语言模型中缺乏普遍性的这一事实。对我来说，仅仅通过扩展预训练就能达到超级智能似乎有点可笑。你看这些模型，是的，它们做的事情很聪明，但是，那时候它们甚至连井字棋的棋盘都画不出来，你知道吗？

　　是的，你得到了GPT-4，突然它们就能画棋盘并做出大部分合法走法，但有时它们仍然会犯规，并在井字棋中做出很大的次优决策。我毫不怀疑，如果我们将预训练再扩展一个或两个数量级，它将开始非常擅长玩井字棋。但如果情况就是这样，我们花费数百亿美元训练一个模型，而它却几乎无法玩井字棋；这距离超级智能还差得很远。

　　我告诉他，看看，除非我们能找到一种非常通用的方法来扩展推理计算，否则我们无法达到超级智能。我认为这是一个极其困难的研究问题，可能至少需要十年才能解决。顺便说一句，令我惊讶的是，他同意我的观点。他同意仅仅扩展预训练并不能达到超级智能。当时我没有意识到，但他也在非常仔细地考虑这个扩展测试时计算的方向。所以我认为至少需要十年。实际上只用了两三年。

　　我认为那是当时最难解决的研究问题。我毫不怀疑还有其他的问题。事实上，我知道还有其他未解决的问题，未解决的研究问题。但我认为，它们中没有任何一个会比我们已经解决的问题更难。是的。因此，我认为事情将继续取得进展。是的。

　　主持人Jacob：显然，你在测试时计算方面产生了巨大的影响。你的研究生涯显然是在搜索和规划方面，以及扑克和外交等游戏中。我的意思是，从其他人的说法来看，似乎当你加入OpenAI时，你已经非常明确地表示这是需要推动发展的方向。看起来确实取得了回报。我很想知道，当你加入时，这种方法的共识程度如何？也许可以谈谈如何让研究机构围绕这一目标展开工作。

　　Noam Brown：是的，很有趣。当我进入就业市场并在一堆地方面试时，人们普遍对研究实验室需要超越当前范式的想法持相当开放的态度。我认为大多数前沿研究实验室的人们都认为，仅仅预训练不会让我们达到超级智能，还需要其他东西。人们非常愿意探索如何扩展测试时计算。有些实验室比其他实验室更重视这一想法，但我实际上有点惊讶的是OpenAI非常支持它。

　　OpenAI作为大规模预训练的先驱，并且比任何人都更进一步地扩展了预训练，它不仅持开放态度，而且还积极主动。在我与他们讨论时，我没有意识到他们在加入我之前就已经思考这些想法有一段时间了。当我加入后，我发现他们感兴趣的动机有些不同；他们更专注于克服数据壁垒，而不是弄清楚如何扩展测试时计算。尽管关注点有所不同，但最终目标还是相当兼容的。

　　最初，当我们开始这个探索性研究方向时，只有少数人在从事这项工作。并不是说公司一半的人员都致力于这项大规模工作。在我加入几个月后，包括我在内的各种人员都在尝试不同的方法，其中许多方法都没有产生结果。然而，一个人的想法产生了一些积极的迹象，引起了其他人的注意。这促进了进一步的探索和实验，导致更多有希望的迹象出现。

　　最终，我认为领导层意识到在这个研究方向上有一些有价值的不同之处，这导致了大幅度扩大努力的决定。我支持这种认识，这证明了OpenAI的组织卓越性。令人印象深刻的是，OpenAI能够看到这个冒险方向的潜力，并愿意大力投资来发展它。重要的是要注意，考虑到它扰乱了他们开创的范式，像O1这样的东西从OpenAI出现是有些令人惊讶的。这种回应表明，OpenAI并没有陷入创新者的窘境，并且准备投资一个方向，在这种情况下，很可能会有所回报。

　　主持人Jacob：是的。不，这真的很有趣，因为显然，如果剧本继续仅仅是不断扩展预训练并筹集更多资金来做这件事，OpenAI就拥有很好的地位来做到这一点。因此，任何正交的方法，是的，都是不同的。所以它来自同一个地方是很酷的。显然，你最初的时间表是，嘿，这需要10年才能做到。你只用了两年就做到了。你首先看到了什么让你觉得，是的，好吧，实际上这可能比我想象的要快得多？

　　Noam Brown：首先，这不仅仅是我。是我和许多其他人一起，在比我预测的更短的时间内做到了这一点。我首先看到的是什么？我认为当我加入时，我们对我们希望模型执行的行为进行了很多讨论。这包括诸如我们希望能够看到它尝试不同的策略来解决问题（如果一种策略不起作用）；我们希望看到它处理一个涉及许多步骤的难题，并将该问题分解成更小的部分，以便逐一解决；我们希望看到它识别出自己犯的错误，并纠正这些错误或避免在第一时间犯错。

　　并且围绕如何获得这些个体事物进行了大量的讨论。这让我有点困扰，事实上，我们甚至会尝试单独解决它们，因为这似乎就像，好吧，理想情况下，我们只需要得到一些能够自己弄清楚所有这些东西的东西。而且，你知道的，我们得到了最初的积极迹象。然后，你知道的，我大力支持的尝试之一是，为什么我们不只是让它思考更长时间呢？是的。当我们让它思考更长时间时，它就会自发地做这些事情。这并不是说，哦，突然我们有了某种东西。但就像，哦，这里有一些迹象表明它正在做我们正在制定策略以使其能够做的事情。它只是自己想通了它应该做这些事情。并且。

　　而且很明显，我们可以将其扩展得更远。所以对我来说，那就是一个重要的时刻，我们只是让它思考更长时间，突然间你看到了质的变化。你看到了这种我们认为必须以某种方式添加到模型中的定性行为，而它自己就弄明白了。当然，性能有所提高，但性能并没有提高那么多。真正让我相信的是看到这种质的变化，看到那些行为，好吧，这将是一件大事。是的。我认为那大概是2023年10月。

　　主持人Jacob：您能否为今天的听众解读一下，在什么情况下使用O1模型进行规划比较有帮助，而什么情况下应该坚持使用GPT-4o，或者说O1模型帮助不大？您对未来的改进有什么预期？毕竟，您一直在不断改进它。

　　Noam Brown：我认为最终会只有一个模型。现在的情况是，GPT-4在很多方面都更好，而O1在很多方面也更好。当然，O1更智能。所以，如果你有一个非常棘手的问题，O1就非常适合。我和大学的研究人员交流过，比如，我有一个朋友是教授，他非常喜欢O1。他是一个真正的资深用户，因为他可以用它来解决那些通常需要拥有博士学位的人才能处理的难题。

　　我认为对于某些任务，比如创意写作，GPT-4o可能更好，尽管我不确定——我知道对于创意写作，4o比O1预览版更好。我不确定O1的比较结果如何。但4o的一大优势在于，你可以立即得到回应。所以，如果你只需要立即得到回应，而且它不是一个非常复杂的推理任务，我认为4o是一个不错的选择。是的，但我应该说，我们最终的目标只有一个模型，你可以向它询问任何问题，如果它需要深入思考，它就能做到；如果不需要，它也能立即给出相当好的回应。

　　主持人Jacob：多模态模型和这些模型未来的交集是什么样的？

　　Noam Brown： O1可以接收图像作为输入。是的，我认为这将非常令人兴奋。看看人们将如何利用它将会非常令人兴奋。是的，我看不出有任何障碍阻止它像4o和其他模型一样成为多模态模型。

　　主持人Jacob： O1令人着迷的一点是，我觉得您之前在推理方面所做的许多工作都是建立在针对特定问题的推理之上的。据我理解，围棋是蒙特卡洛树搜索，这对于扑克来说可能并不那么相关。显然，您所构建成果中令人印象深刻的一点是，您普遍扩展了推理计算能力。您可以谈谈实现这一点需要什么，以及与过去针对特定类型问题所做的一些更具体的工作相比有何不同吗？

　　Noam Brown：好吧，我认为这需要，我不能详细介绍具体的技术，但我认为重要的是，这可能需要改变思维方式。我认为当我还是博士生以及之后，当我看到扩展测试时间计算在扑克中产生了多么大的差异时，我想，好吧，这很棒，但不幸的是，它只适用于扑克。那么，我们如何将这种算法扩展到越来越多的领域呢？因此，你知道，有一个问题是，如何让这项技术同时适用于扑克和围棋，或者扑克和外交之类的游戏？因此，我们开发了在Hanabi（汉诺塔）中有效的技术，也开发了在外交游戏中有效的技术。

　　我考虑过的事情之一是，尝试让这个算法玩尽可能多的游戏。尝试设计一个类似于在扑克中使用的算法，但能够更广泛地应用。我认为外交游戏的工作实际上让我相信，这是一种错误的思考方式。你真的需要从最终目标出发，那就是认识到我们拥有这个极其通用的领域。语言实际上就是一个很好的例子，它具有如此广泛的应用。

　　与其尝试将一种在某个领域有效的技术扩展到越来越多的领域，最终扩展到所有领域，不如从所有领域出发，想办法扩展测试时间计算。当然，最初它不会扩展得很好；它不会成为扩展测试时间计算的非常好的技术。但问题是，我们能否让它随着时间的推移越来越好地扩展？我认为这种思维方式的改变至关重要。外交游戏的工作真正说服我改变了这种思维方式。

　　当我们试图将为扑克开发的技术应用于外交时，当我们试图将其应用于完整的外交游戏时，我们面临了挑战。我们设法将一些技术应用于外交，并对它实际可以做什么进行了限制，但它所能达到的成就存在上限。我们只在外交游戏中达到了强人类水平的表现，很明显，进一步推动这种模式并不能产生超人类的表现。

　　为了解决外交的全部范围并取得超人类的表现，很明显我们需要一种能够有效应对几乎任何事物的方法。因此，我想，好吧，我们只需要跳到最终目标，并尝试从那里进行创新。

　　主持人Jacob：这太有趣了。我的意思是，您提到过，您预计一切都会融合成一个模型。我想，从中期来看，您认为我们会有一个“统治一切”的模型吗？或者，显然，很多人都在为不同的用例构建专门的模型。您认为构建自己的模型有意义吗？我想有些人正在构建法律模型、医疗保健模型或其他一些模型。

　　Noam Brown：这是一个好问题。我经常被问到这个问题。我没有很好的答案，但我一直在思考的一件事是，你可以要求O1乘以两个大数，它可以做到。它会逐步进行算术运算，计算如何进位等等，实际上乘以两个大数并告诉你答案。

　　它这样做没有任何意义。最佳方法，它真正应该做的，是调用一个计算器工具或编写一个Python脚本，该脚本乘以这两个数字，运行脚本，然后告诉你结果。

　　所以我认为计算器工具就像光谱的一端——非常专业，非常简单，但也非常快速和廉价。在光谱的另一端，你拥有像O1这样的东西，它非常通用，非常强大，但也相当昂贵。

　　我认为很有可能你会看到许多工具充当这两个极端之间的中间体。像O1这样的模型可以使用这些工具来节省自身和用户大量的成本。

　　主持人Jacob：是的。这些工具最终并非增强能力，而只是为了避免解决某些本来可以……的问题时需要大量的计算成本，这一点非常有趣。

　　Noam Brown：是的，也完全有可能其中一些工具比O1做得更好。我认为我的思考方式与我思考人类如何行动的方式差不多，你知道，你可以要求人类做某事，但也许他们最好使用计算器，或者，你知道，使用某种其他类型的专用机器之类的东西。

　　主持人Jacob：好吧，我想关于O1方面，就像你提到的你的教授朋友使用它一样，你有没有在实际应用中看到任何其他意想不到的用例，或者你个人比较喜欢的用例？你有没有在实际应用中看到任何其他意想不到的用例，或者你个人比较喜欢的用例？

　　Noam Brown：我认为我真正期待的一件事是看看O1如何用于编码。我认为O1预览版，人们对其编码能力印象深刻，但在某些方面它编码能力不错，但在其他方面表现不佳。因此，它在编码模型中并非严格占主导地位。我相信O1会做得更好，我非常期待看到这如何改变这个领域，如果它确实改变了这个领域的话。

　　我只是非常好奇自己如何使用O1以及其他人如何使用。我们已经有一些人试用并给我们反馈，但我认为在我们实际部署到实际应用中之前，我们并不知道它究竟是如何被使用的。你如何使用它？

　　我用它来完成很多编码任务。如果任务很简单，我会把它交给4o，但如果我知道任务非常困难，需要编写大量代码，我就会把它交给O1，让它独自完成整个任务。通常情况下，如果遇到4o无法解决的难题，我就会把它交给O1。

　　主持人Jacob：通常会给我一个答案。它还没有进行核心AI研究。O1还没有进行核心AI研究。你提到在O1的开发过程中，显然你看到了一些东西，一些关于推理能力的具有重要意义的里程碑。当你考虑时，显然你还在继续研究这类模型。对你来说，未来有哪些具有意义的里程碑？如果你在你们继续扩展规模的过程中看到的话，哪些对你来说很重要？

　　Noam Brown：就像里程碑是指基准测试之类的吗？

　　主持人Jacob：我的意思是，它可能是具体的基准测试，或者，你知道，仅仅是你如何看待下一组重要的能力，你知道，你希望像O2那样拥有的能力。

　　Noam Brown：我真的很期待看到这些模型变得更具自主性。我认为很多人都是这样想的。其中一个主要的挑战，一个实现智能体的主要障碍，是人们对这些模型的认知。人们已经讨论智能体有一段时间了。自从ChatGPT发布以来，他们就会来找我问：“哦，你为什么研究智能体？”

　　我的感觉是这些模型太脆弱了。如果你有一个需要许多中间步骤的长时程任务，你需要模型具有可靠性和连贯性，才能弄清楚它需要完成这些单独的步骤，然后执行它们。人们试图提示模型这样做，虽然你可以让它工作，但它总是很脆弱，而且不够通用。

　　这些模型的开发很酷的一点是，我认为这是一个真正的概念验证。你可以给它们一个非常困难的问题，它们可以自己找出中间步骤，并确定如何独立解决这些步骤。事实上，它们可以完成完全超出像GPT-4这样模型能力的任务，而无需过多的提示，这令人鼓舞。

　　我认为这是一个很好的概念验证，证明这些模型可以开始以更具自主性的方式运行。所以，我对这个方向感到兴奋。

　　主持人Jacob：现在显然有很多人都致力于研究智能体，我认为他们基本上会利用模型当前的局限性，并找到解决方法，对吧？无论是将六个模型调用链接在一起以检查输出，还是找到一些经过微调的小型模型来检查某些内容是否完全追溯到原始数据源。感觉上，所有这些编排和支架都是为了让这一切能够工作而构建的。这种感觉是否依然存在，或者这些最终都会成为底层模型的一部分？

　　Noam Brown：你知道，好吧，有一篇很棒的文章叫做《苦涩的教训》。我知道我们不能不提到《苦涩的教训》就结束这次播客。你知道，因为我很惊讶。就像每当我参加各种活动（例如AI活动）做演讲时，我会偶尔对人们进行民意调查，问他们有多少人读过《苦涩的教训》，结果令人惊讶地少。

　　主持人Jacob：我觉得如果有人听过你的播客或关注你的推特，他们应该已经被介绍过这篇文章了。

　　Noam Brown：或者少于很多次。很好，太好了。所以，对于那些没有读过的人，我的意思是，我认为这是一篇很棒的文章。我强烈建议大家阅读它。它是强化学习领域的创始人理查德·萨顿写的，他谈到了这一点。

　　他说，基本上，如果你看看象棋的历史，例如，人们尝试解决象棋的方法是将事情编码起来，例如将他们的知识编码到模型中，并试图让它们执行类似人类的任务。最终行之有效的方法是那些能够有效地随着更多计算能力和更多数据而扩展的技术。

　　我认为现在这些语言模型也是如此。我们已经达到了一定的能力水平，进一步推进它非常诱人。有些事情是这些模型无法做到的，而你希望它们具备这些能力。因此，有很大的动力去添加大量的支架并采用各种提示技巧来进一步推动模型，有效地将大量的知识编码到模型中以达到目的。

　　最终，从长远来看，行之有效的方法是一种能够随着更多数据和更多计算能力而良好扩展的技术。关于这些支架技术是否能够随着更多数据和更多计算能力而良好扩展的问题，我认为答案是否定的。相比之下，像O1这样的方法能够随着更多数据和更多计算能力而很好地扩展。

　　从长远来看，我相信我们将看到许多试图进一步推动前沿的支架技术最终会逐渐消失。

　　主持人Jacob：我认为这对今天的构建者来说是一个有趣的问题，就像你可以用它来解决当前的问题，然后随着时间的推移而发展，以满足需求。

　　Noam Brown：是的，这是一件棘手的事情，特别是对于初创公司来说，因为我知道他们可能面临许多对某些任务的需求。而且，你知道，有些事情是模型无法实现的。他们会想，好吧，如果我投入大量资源到支架和定制中，让它能够做那些事情，那么我就会拥有一家能够做别人做不到的事情的公司。但我认为重要的是，这实际上是我们告诉人们这些模型将会进步，而且它们将会迅速进步的原因之一，那就是你不想处于这样一种境地：模型的能力得到了提高，突然之间，模型可以开箱即用地完成这项工作，而你现在浪费了六个月的时间来构建支架或一些专门的智能工作流程，而现在模型可以开箱即用地完成这项工作了。

　　主持人Jacob：谈谈大型语言模型领域更广泛的情况，我的意思是，超越测试时间计算，还有什么其他的研究领域是你关注的？

　　Noam Brown： Sora 真让我兴奋，我想很多人都是这样。我觉得它真的很酷。我之前并没有太关注视频模型的现状，所以当我看到它的时候，我对它的能力感到非常惊讶。

　　主持人Jacob：你显然是在学术界打下了坚实的基础。鉴于现在显然可以访问完全不同级别的计算资源，我想现在很多人都在思考学术界在人工智能研究中的作用，你是如何看待当今学术界的作用的？

　　Noam Brown：是的，这是一个非常棘手的问题。我和很多博士生聊过，他们处境艰难，他们想帮助推动前沿发展。但在数据和计算能力如此依赖的时代，这很难做到。如果你没有这些资源，就很难推动前沿发展。

　　我认为，一些博士生可能会倾向于做我不应该做的事情，即加入他们的人类领域知识，或应用一些小技巧来尝试进一步推动前沿。所以，你拿一个前沿模型，添加一些巧妙的提示或其他什么，把它往前推一点，然后在某些评估中比其他人高出 0.1%。问题是，我不太责怪学生；我认为学术界激励了这种行为。我的意思是，在顶级会议上发表论文很有声望，如果你能够证明你在某些评估中至少比其他人略好一些，那么发表论文就容易得多。

　　所以，激励机制是按照鼓励这种行为的方式设置的，至少在短期内是这样。然而，从长远来看，这最终并非最有影响力的研究。我的建议是不要试图在尖端能力方面与尖端工业研究实验室竞争。还有很多其他的研究可以做，而且我已经看到在不同领域取得了真正有影响力的研究成果。

　　一个例子是研究新型架构或能够很好扩展的新方法。例如，如果你能证明你在整合更多数据和计算能力时展示了扩展趋势并展示了有前景的路径，那么即使它在某些评估中没有达到最先进的性能，这也是很好的研究。人们会关注这一点。

　　那些偶然关注该领域的人可能不会注意到它，它也可能不会进入新闻周期，但如果你的工作显示出有希望的趋势，你的工作就会产生影响。我向你保证，工业研究实验室会查看这类论文。如果他们看到一些展示有希望趋势的东西，他们愿意投入资源去看看它在大规模情况下是否真的有效。

　　主持人Jacob：当你玩一个新模型时，什么评估对你来说仍然有意义？你在看什么？

　　Noam Brown：我认为我问了很多关于“感觉”的问题，我相信每个人都有一个常用的“感觉”问题。我的常用问题确实是井字棋。总是游戏。我想这是有道理的。是的，看到一些模型玩井字棋的挑战性有多大，令人震惊。我开玩笑说，我认为这仅仅是因为互联网上没有足够的五岁孩子在 Reddit 上分享策略。

　　主持人Jacob：而且我们还没有用大量的井字棋数据填充世界。

　　Noam Brown：是的，我只是看看这些模型如何处理我日常提出的问题。看到从 4o 到 O1 预览版再到 O1 的进步，非常酷。

　　主持人Jacob：是的。我的意思是，你提到了，显然，听起来自从 21 年以来，你改变了想法，然后用测试时间计算展示了可能性。在过去的一年里，你在人工智能研究领域改变了哪些想法？

　　Noam Brown：我应该说我并没有在 2021 年改变主意。在 2017 年初我们得到扑克结果时，我就已经相当认同这一点。是的，我认为对于大型语言模型来说，我认为我开始更多地思考这个问题是在 2020 年或 2021 年。

　　主持人Jacob：对不起，我的意思是说，你在 2021 年认为需要 10 年的时间，而现在认为是两年。在过去的一年里，你有什么想法做了 180 度转变？

　　Noam Brown：嗯，我认为我改变观点的主要方面是我认为事情进展的速度有多快。就像我说的，我记得我在人工智能领域已经工作了很长时间，按照今天的标准来看。我于 2012 年开始读研究生，我见证了深度学习革命的发生。我在 2015 年、2016 年和 2017 年看到人们非常认真地讨论 AGI 和超级智能。我当时的观点是，仅仅因为 AlphaGo 在围棋方面超过了人类，并不意味着我们很快就会获得超级智能。

　　我认为这实际上是正确的评估。我相信人们没有充分看待 AlphaGo 的局限性。是的，它可以下围棋，甚至可以下国际象棋和将棋，但它不能玩扑克。没有人真正知道如何让它比这更通用。两人零和博弈是一个非常理想的情况，你可以进行无限的自我博弈，并不断朝着实现超人类性能的方向攀登。然而，现实世界并非如此。

　　我比较持怀疑态度。与平均水平的人工智能研究人员相比，我可能对我们可以朝着改变世界的非常智能的模型取得进展更为乐观。但与 OpenAI 或其他一些地方的人相比，我属于比较怀疑的一方。我认为我对这一点的看法已经改变了很多。看到能够以一种非常通用的方式扩展测试时间改变了我的想法。

　　我变得越来越乐观。我认为我在 2021 年与 Ilya 进行的谈话是其开端。他让我相信，是的，我们还没有完全弄清楚整个范式，但也许并没有像十年那么遥远。也许我们可以更快地实现它。看到这实际上发生了改变了我的观点，我现在相信事情会比我最初想象的发生得更快。

　　主持人Jacob：我的意思是，显然有很多公司试图与英伟达竞争。我认为亚马逊最近一直在积极投资 Trainium，让 Anthropic 使用它。你怎么看待其他一些硬件方面的努力？

　　Noam Brown：我对硬件投资感到非常兴奋。我认为O1的其中一个亮点在于，它真正改变了人们对硬件的思考方式。过去人们认为，大规模的预训练运行成本很高，但推理成本会很低且易于扩展。我认为这种情况不会持续下去。我认为我们将看到对推理计算的重大转变。如果能够优化推理计算，那将是一个巨大的胜利。因此，我认为现在硬件领域有很多机会可以发挥创造力，以适应这种新的范式。

　　主持人Jacob：稍微偏离大型语言模型的话题，我觉得您在外交方面的工作非常有趣。显然，这是一场涉及谈判、预测他人行为等的博弈。很难不去思考这对于将社会同化以测试政策，甚至以某种方式让AI参与政府的意义。您是如何思考这个问题的？随着这些模型越来越好，您对它们在社会中扮演的角色有什么直觉？

　　Noam Brown：我想这里有两个问题，但回答其中一个，我认为我对这些模型感到兴奋的一个方向是将它们用于许多社会科学实验以及神经科学方面的工作。我认为可以通过研究这些在海量人类数据上训练并能够很好地模仿人类的模型来了解很多关于人类的信息。当然，它们最大的优点是比雇佣大量人类来进行这些实验更具可扩展性和经济性。我很想知道社会科学如何利用这些模型在其领域进行酷炫的研究。

　　主持人Jacob：是的，您能想象这会如何实现吗？

　　Noam Brown：嗯，我认为，如果你想做……我不是社会科学家，所以，你知道，我没有认真想过这个问题……但我认为，例如经济学，有很多……你之前在美联储工作过，对吧？我想社会科学的答案。我认为博弈论其实是一个很好的例子，你知道，我在本科时做过一些这样的实验，比如，他们会雇佣一些本科生，付给他们少量钱，让他们做一些小型博弈论实验，看看他们有多理性？他们如何回应激励？他们有多在乎赚钱而不是报复那些伤害他们的人？现在可以用AI模型做很多这样的事情。并不明显的是它能否与人类的表现相匹配，但这并不意味着我们无法量化它。你可以实际观察，看看这些模型通常是否会做人类会做的事情。然后，如果你有一个更昂贵的实验，你可以，也许可以推断并说，好吧，用人类受试者做这个实验不划算，但我们可以使用这个AI模型。

　　或者考虑那些也引发伦理问题的方面。也许你不能做这个实验，因为对人类来说是不道德的，但你可以用AI模型来做。举个例子，就是最后通牒博弈。你熟悉吗？不熟悉。好的。最后通牒博弈涉及两个参与者；我们称他们为A和B。A有1000美元，他们必须将其中一部分给B。然后B可以决定是否接受这种分配，或者说两个玩家都得不到任何东西。

　　例如，如果A有1000美元，他给B 200美元。如果B接受，则B得到200美元，A得到800美元。如果B拒绝，则两人都得不到任何东西。实验表明，如果人们获得大约30%，他们就会拒绝。当然，有一个问题是，好吧，如果这是一小笔钱，那就很容易理解。如果只有10美元，而你只得到3美元，那么你会因为生气而拒绝。

　　但是，如果金额是10000美元，而你只得到3000美元，你还会这样做吗？这是一个不同的问题。因此，唯一的方法是，当然，进行这样的实验非常昂贵。历史上，他们会去另一个国家的贫困社区，给他们提供对他们来说是一大笔钱的东西，看看他们的行为会有何不同。但即使那样，你也能控制的程度有限。现在有了AI模型，也许你真的可以获得一些关于人们如何对这些成本高昂的情况做出反应的见解。

　　主持人Jacob：这太有趣了。对于神经科学和其他方面也是如此，我一直认为社会科学的一个抱怨是所有这些实验都是针对需要在他们的入门心理学课上获得学分的大学生进行的。因此，也接触到更广泛的——互联网至少比大多数这些实验所训练的受众更广泛，这些实验基本上都是顶级机构的19岁年轻人。

　　Noam Brown：是的，这是一个很好的观点。我还应该说，如果你正在进行像GPT-3.5这样的实验，GPT-3.5不会在很多情况下很好地模仿人类的行为。但这是一个可以量化的事情，你可以实际测量这些模型与人类行为的匹配程度。我怀疑，我自己还没有看过这些实验，但我怀疑随着模型变得越来越强大，它们在模仿人类在这些环境中的行为方面做得更好。

　　主持人Jacob：是的。然后显然，你在外交方面的工作侧重于在一个由人类组成的团队中有一个AI参与者。这是否会改变什么？我觉得我们即将进入一个AI代理与其他AI代理互动、谈判等等的世界。这是否会改变事情？它改变了什么？你需要做的，为了创造一个真正有效的AI代理，底层工作是什么？我想，这完全是一个相同的问题，还是？

　　Noam Brown：我认为我对大型语言模型感到兴奋的一点是，在人工智能领域，一直存在一个问题，即如何让AI相互沟通？因此，人工智能领域有一个叫做涌现式通信的领域，人们试图教AI相互沟通。是的。而这个问题现在实际上已经解决了，因为你内置了一种语言，而人类也恰好使用这种语言。因此，许多问题都像开箱即用一样得到了解决。因此，你可能不需要做太多改变。

　　主持人Jacob：您如何看待人工智能机器人领域正在发生的事情？您认为未来几年这个领域会走向何方？

　　Noam Brown：我认为从长远来看，这很有意义。我获得了机器人学硕士学位。实际上我并没有接触太多机器人，但我参加了这个项目，有很多朋友都在从事机器人研究。我最大的收获之一是硬件开发非常困难，与软件相比，硬件迭代需要更长的时间。所以我认为机器人技术的发展会需要一段时间，仅仅是因为在真实的物理机器人上进行迭代既困难又昂贵，但我相信会有进展。

　　主持人Jacob：显然，你们即将发布一个新模型，人们将在其基础上构建各种我们无法想象的东西。但总的来说，您认为目前有哪些应用领域尚未得到充分探索，或者您希望有更多开发者参与这些模型的开发？

　　Noam Brown：我认为看到这些模型推动科学研究发展，我感到非常兴奋。我相信直到现在，我们一直处于一种奇怪的状态，模型普遍功能强大，但在几乎任何领域都没有超越人类专家。

　　随着时间的推移，我认为这种情况将会改变，我们将开始看到模型超越人类专家所能做到的水平，最初只在少数几个特定领域，然后逐渐扩展到越来越多的领域。这为我们推进人类知识前沿打开了可能性。

　　将这些模型用作研究人员的合作伙伴而非替代品，这种可能性最让我兴奋。我们可以一起完成以前不可能完成的事情，或者更快地完成这些事情。我认为这种应用即将到来，虽然目前还不太可能实现，但我相信我们很快就会看到它的出现。

　　主持人Jacob：您认为目前的模型能够做到这一点吗？

　　Noam Brown：我不知道。这实际上也是我期待看到O1发布的原因之一，因为，你知道，我不是某个领域的专家，也不是所有这些不同领域的专家。我不知道它能否改进化学研究或化学研究现状，或者生物学研究或理论数学的现状。让这些领域的专家使用该模型，并观察他们能用它做什么，我认为这将给我们一些反馈，告诉我们它在这些领域的水平。

　　主持人Jacob：您提到它可能先从狭窄的领域开始，然后再扩展到更广阔的领域。您对特别适合它的狭窄领域有什么直觉，还是需要社区在实践中去发现？

　　Noam Brown：让他们去尝试吧。我认为这需要社区去发现。在O1预览版中，它在数学和编码方面表现特别出色。这些结果非常令人印象深刻。它正在广泛地改进各个方面，但我们在这两个方面看到了相当显著的进展。如果这种情况持续下去，并且我们看到性能在广泛领域都有提高，我不会感到惊讶，但由于数学和编码已经领先，它在这两个领域将继续更快地进步。我认为这将是全面的广泛改进。

　　主持人Jacob：好的，这是一次引人入胜的谈话。我们通常喜欢以快速问答环节结束，快速了解您的看法。也许可以先说说，您认为当今人工智能领域中哪件事被过度炒作，哪件事被低估了？

　　Noam Brown：哦，天哪。这应该是快速问答环节吗？这是一个很难回答的问题。

　　主持人Jacob：这里我只能提出一些过于宽泛的问题，你知道的。

　　Noam Brown：我的意思是，我认为被过度炒作的是许多提示技术和支架技术，正如我所说的，我认为这些技术从长远来看将会被淘汰。被低估的，我认为，我是O1的忠实粉丝，我不得不说O1。我认为对于关注该领域的人来说，这是一个巨大的进步。我认为对于更广泛的世界来说，我不知道人们是否已经认识到它应有的意义。

　　主持人Jacob：我想我会选择这两个。希望它们明天就能发布。让我们拭目以待。您认为2025年的模型进展会与2024年一样多还是更少？

　　Noam Brown：我认为我们将看到进展加速。

　　主持人Jacob：您如何定义AGI（通用人工智能）？

　　Noam Brown：我不定义。我一直在尽量避免使用这个术语。我认为人工智能将有很多事情是人类可以做到的，而人工智能在很长一段时间内都无法做到。我认为这是理想的场景，尤其是像体力劳动这样的事情。我认为人类将在很长一段时间内占据优势。因此，我认为能够加速人类生产力并使我们的生活更轻松的人工智能，比AGI这个术语更重要。

　　主持人Jacob：好的，Noam，我总是喜欢让嘉宾留下最后一句话。我觉得有很多地方可以引导人们了解你的工作，了解OpenAI正在发生的事情，但现在是你的时间了。你有什么想对我们的听众说的，或者有什么想强调的吗？

　　Noam Brown：是的，我的意思是，最主要的是，你知道，对于那些持怀疑态度的人，我理解。我在这个领域工作了很长时间。我对现状以及围绕人工智能进展的炒作持非常怀疑的态度。我意识到人工智能将会进步，但我认为我们甚至要花更长的时间才能达到这个水平。

　　我认为，重要的是要认识到，与五年前甚至十年前相比，我们现在所处的状态完全是科幻小说。进展令人惊叹，我认为人们合理地担心我们是否会遇到瓶颈，或者进展是否会停止。

　　但是，我相信重要的是要认识到，在我看来，测试时计算范式确实解决了其中许多担忧。对于那些仍然对人工智能进展持怀疑态度的人，我建议你们自己去看看。我们已经在博客文章和结果中非常透明地说明了现状以及我们对未来方向的展望。我认为证据非常明确。

　　主持人Jacob：好的，Noam，这真是太迷人了。能和你坐下来聊聊，是我的工作中真正的乐趣。非常感谢您抽出时间。当然。再次感谢Noam进行如此精彩的对话。如果您喜欢这个节目，请考虑订阅并与朋友分享。我们一直在努力宣传这个播客。我们即将与领先的人工智能研究人员和创始人进行一系列精彩的对话。2025年将有一系列令人难以置信的嘉宾阵容。非常感谢您的收听，我们下周再见。