从可持续的规模定律到智能体经济,意味着什么?
【罗卫国按】2025年6月9-10日,“2025罗汉堂-北大国发院数字经济年会”在北京大学国家发展研究院召开。本文为美国国家工程院外籍院士、北京智源人工智能研究院创始理事长张宏江博士在本次年会上的主题演讲。
大家早上好。感谢邀请我来分享关于近期人工智能技术发展的想法。我的演讲将涵盖几个主要方面。首先,我将讨论支撑大语言模型发展的“规模定律(scaling law)”是否可持续。然后,我会谈谈大模型如何推动整个AI生态的规模化发展,特别是在算力和电力基础设施的投资建设方面。最后,我还将讲一下核心的技术方向,特别是AI智能体和智能体经济,并花几分钟想象一下未来的可能性。
1、可持续的规模定律
对于大语言模型或AI基础模型,我们必须了解推动它们进步的一个关键驱动力就是“规模定律”。今天的大型AI模型的本质在于由规模提升而涌现出来的能力,这是模型在达到一定规模、一定性能参数临界点时,突然具备的能力,也可以说是拐点。我们在GPT-3上观察到了这种现象,后来的ChatGPT以及过去两年快速发展的其他模型也都体现了这一点。一般来说,参数越多,性能就越好——这一点目前仍然成立。
尽管业内普遍感觉预训练模型(pretraining model)的规模定律在逐渐放缓,但它依然非常重要:随着训练时间和模型规模的增加,模型的准确率在提高,只是提高的速度没有以前那么快了。与此同时的好消息是,在OpenAI的o1模型发布后,我们看到了一个重要的拐点,那就是规模定律可以被拓展到推理模型(reasoning model)。这意味着在推理阶段,模型所获得的时间越多,它的表现就越好,结果就越准确。我们称这种现象为“推理规模定律(reasoning scaling)”,或“测试时规模定律(test-time scaling)”。这是过去六个月中推动模型性能提升的重要力量,同时也是拉动算力需求迅速上升的重要因素。
这将我们引向一种新的提升模型性能的路径。我们以前主要依赖转换器(transformer)来做预训练,现在则进入了强化学习(reinforcement learning)阶段。我敢大胆预测,未来不仅仅是预训练和推理阶段存在规模定律,我们将看到更多新的规模定律持续驱动模型性能的提升,同时也会对算力提出更高的要求。也就是说,尽管预训练的规模定律有所减缓,但后训练(post-training)阶段、强化学习阶段的规模定律则开始显现,进一步提升模型性能,并持续增加对算力的需求。
另一个好消息是所谓的“大语言模型通缩(LLMflation)”:模型的使用价格(即单位token的价格)在过去三年中以非常快的速度下降。我们看到基本上每年token的价格下降约10倍,三年总计下降约1000倍。与此同时,从主流模型的发布可以看到,每一代模型发布时,token价格下降了,但性能却更好了。所以我要强调的是:规模定律依然有效,token价格在持续下降,我们因此可以把它看作一种新的“摩尔定律(Moore’s Law)”——模型能力持续提升的同时,使用成本在不断降低。
2、AI产业规模化升级
我讲的第二点是AI正在大规模的产业化。这不仅是模型本身的规模提升,更是整个产业生态体系的规模扩展。大家看到OpenAI、Anthropic这些初创公司提供的是“模型即服务(Model-as-a-Service)”,同时大型平台和云计算公司在持续提供“平台即模型(Platform-as-a-Service)”。我们应该意识到,AI模型不仅是模型,它将会成为一个平台,平台将会进一步构建自身的生态体系:平台的上层会出现越来越多的应用程序,而在下层则是云计算,再往下一层是计算的硬件,其中最关键的是GPU。这也是为什么在过去两年里,GPU在AI领域中处于绝对主导地位。大家最终认识到,从规模定律的角度来看,不论是模型训练还是模型使用,虽然token价格下降了,但用户越来越多、应用场景越来越丰富,这都将消耗越来越多的算力。
因此,我们看到AI基础设施建设正以前所未有的速度快速扩张。比如OpenAI宣布的Stargate项目,计划投入约1000亿美元和上千名工人在德克萨斯建设数据中心,未来可能将投资规模进一步上涨至5000亿美元,预计部署10万个——甚至扩展至50万个——GPU。另外,Elon Musk的Colossus项目,在前四个月就已经部署了10万个GPU,计划最终包括20万个GPU。我算了一下,10万个GPU的运行功耗大约是150兆瓦;如果扩展到100万个GPU,则将消耗约1.5吉瓦。这意味着什么?整个北京市的耗电量约为13吉瓦。也就是说,仅仅一个拥有100万个GPU的数据中心,就会消耗北京市总用电量的八分之一。由此可见AI基础设施的投建规模之大。
正是这种对GPU的大量需求使得NVIDIA股价持续上涨。除了OpenAI和Musk之外,Google、Microsoft、Amazon等公司也都在加大投资,仅2025年他们在AI相关的资本开支上就预计投入超过3000亿美元。这将直接导致美国出现电力紧张的问题。如果这种速度持续下去,美国的电网明年就将不堪重负。这也解释了为什么过去一年里大家又开始关注核能——尤其是小型核电站技术——相关的股票也涨势强劲。整个AI数据中心产业链,在过去一年经历了大规模的建设潮,并且还将持续下去。这不仅仅是GPU、数据中心,还包括能源。这就是我们所说的AI产业规模化。
3、核心技术方向
我想更深入地谈谈技术方向的问题。技术发展路径的第一阶段主要还是“预训练(pretraining)”,这是核心。一个公司如果没有能力构建强大的基础模型,它就无法开发出优秀的推理模型,更不可能构建出高质量的智能体。接下去的整个路线图非常清晰:预训练 → 微调(fine tuning) → 强化学习 → 智能体 (agent) → 具体应用场景 (specific domain)。这是为什么我们看到OpenAI在发布GPT-4之后,又发布了o1,将来会在整合了GPT-4.5和o3后推出GPT-5。这样,他们的预训练模型和推理模型已经趋于统一,其他大模型开发者也都会走这条路径。
当AI模型既具备预训练能力,又拥有强化学习能力后,就会走向“测试时推理模型(test-time reasoning model)”。也就是说,AI模型不再只是“快思维”(快速提取知识),它现在也具备“慢思维”(理性推理)的能力。“慢思维”能力的增强是AI解决更复杂问题的关键。换句话说,如今的AI模型已经不再是静态的,不再只是一个知识库,也不再是静态的网络。以前我们说,如果今天没有给模型训练新知识,那模型就没有长进。但现在,模型自身具备了持续学习的能力,它可以根据我们提供的数据,从网络中不断学习。我们已经开始看到计算机科学和AI奠基人Alan Turing所设想的那种能够从经验中学习的机器。
过去在预训练时,训练模型的主要方式是人类提供数据给它学习,例如AlphaGo 就是从人类下棋的经验数据中学习的。目前训练基础模型——尤其是训练推理模型——的主流方法已经变为强化学习。在强化学习阶段,我们并不直接提供数据,而是提供规则和目标,并教模型如何从数据中学习。这不仅是“授人以鱼”,而是“授人以渔”。
接下来,我们不仅要教模型怎么钓鱼,还将赋予它“饥饿感”,让它自己明白鱼是好吃的,然后让它自己感到饿,这样模型就会主动去找鱼吃。(所谓“饥饿感”,就是要为模型设置更高层次的目标函数,让它不仅满足于完成单一任务,而是持续自我优化、避免“饿死”。只有目标驱动、持续迭代,模型才能真正突破。)也就是说,模型要自己学会如何钓鱼,而不再需要人类去教;它将不仅会使用数据,还知道去哪里获取数据,甚至如何自己构建数据集。这就是我们目前所处的阶段,我们正在迈入一个全新的AI智能体时代。
人们经常谈论强化学习、预训练和推理之间的关系。过去我们谈论了很多预训练(比如GPT),但现在我们进入了后训练、强化学习和推理阶段。强化学习曾经只是整个模型训练中的一小部分。但从OpenAI的o3模型开始,强化学习变成了很重要的一部分,并且在未来会进一步扩大比重。可以说,强化学习和推理在过去就像蛋糕上的樱桃,在未来则将成为模型性能的主要驱动因素,也将成为计算资源消耗的主要部分。
今天我们已经拥有能够长时间思考的模型,就像围棋大师一样,它迈出一步的时间更长,解决一个复杂问题甚至需要非常聪明的人花很长时间。你可能会问,时间更长就一定更好吗?我的观点是,当一个推理模型花更多时间思考时,它实际上是在问自己更多的问题,它在思考中提出更多假设,搜索更多路径,甚至在这个过程中构建自己的工具。未来我们将看到一个模型就像科学家一样,可以花上数天、数月时间思考一个特定问题并找到解决方案。
4、AI智能体与智能体经济
现在大家都在谈论“智能体(agent)”。如果我们借用Sam Altman关于人工智能五个阶段的划分,我们现在正处于第二和第三阶段之间,但很快将进入第三阶段,也就是所谓的智能体阶段。在这个阶段,AI系统能够采取行动,能够自我学习。
从这个角度看,人类与工具的关系正在发生变化。以前我们把计算机、AI 视为人的工具。现在我们已经把 AI 看作助手或副驾驶(copilot)。而在不久的将来,人类与工具将会进入一个新的共生阶段:人和机器网络的共生。那时会有更多的自主AI智能体,并将受人类控制——但愿我们成为控制者,否则就可能变成它的奴隶,或者被它们同化。
举例而言,OpenAI 的一个前沿项目Deep Research,它是在推理模型基础上构建的智能体。你给它一个任务,它会首先分析这个任务,然后意识到需要一些数据,它会自己去搜索。接着它意识到需要一些分析工具,它会去寻找这些工具。它可能还意识到有些工具根本不存在,于是它自己编程开发这个工具,然后再使用这些工具完成任务。所以你可以看到,它既可以使用现有工具,也可以自己构建工具来完成任务。
今天我们已经开始有智能体能够执行任务,并在复杂的工作流中工作。未来,每一个任务、每一个工作流程都有可能由智能体来完成。这些智能体将组成一个系统,形成企业决策的完整闭环,运行整个操作流程。这一天很快就会到来。我们正在进入一个阶段,叫“智能体群(agent swarm)”时代,也就是数量庞大的智能体之间彼此交互、执行任务、交换数据、交换信息,甚至交换任务。而人类与这些智能体群的交互,将构成我们所谓的“智能体经济(agent economy)”。设想一下,现在的大模型是由海量的神经元构成的。未来,这些智能体会像今天神经网络中的单个神经元一样,而未来的社会和经济系统将由大量的智能体构成,就像今天的神经网络。那将是我们的未来。
我想说,未来是自主的(autonomous):自主的智能体、智能体群和智能体经济。如果仅看模型的智商测试结果,今天不少大语言模型的水平已经落在人类IQ 分布曲线的右侧,也就是说,它们的IQ测试分数已经高于人类平均水平。这意味着什么?我们还记得当年AlphaGo战胜人类围棋大师的那一刻,尤其是它的下棋方式是前所未见的,那时我们才突然意识到AlphaGo已经具备了所谓的“上帝视角(God’s angle)”:人类下了两千年围棋,其实只是站在一座小山上看风景,而 AlphaGo 看到的是整个地貌。
我们在大语言模型中看到的就是这种潜力。当我们谈到奇点是否到来,其实就是说两条曲线是否交汇:一条是人类的适应能力或学习能力,这条曲线几乎是平的;另一条是技术或机器的学习能力,这条曲线增长得非常快。当这两条曲线交汇时,就意味着机器已经比人类更聪明了。人类能做的一切,最终都可以由机器完成,而且机器学习得更快。这就可能意味着,虽然新技术总是会创造新工作岗位、淘汰旧工作岗位,但这些新工作可能不一定是给人类的,而是给智能体的。这就是令人担忧的部分。
因此,未来组织的核心资产将会完全不同。GPU,也就是算力,会成为核心资产。模型,也就是智能,也会成为资产。未来我们不断训练模型,而不是不断培训员工。今天我们要扩展业务,会去招聘新员工,建立新组织,建设新办公室。未来,我们只需要获取更多的算力,改进模型,获得更多的数据。这是一种巨大的结构性变革,前所未见,只在科幻小说中出现过。
最后讲一个我从网上看到的笑话。一家公司有三位C-level的高管。CFO关心钱:“如果我们花了很多钱培养员工,他们却离职了怎么办?” CEO说:“那如果我们不培养他们,他们却留下来呢?”然后CTO说:“机器人从来不会离职。” 这也许就是我们即将面对的场景,它要求我们必须制定应对计划和采取行动,去面对可能的结构性转型及其风险。
在论坛的圆桌讨论环节,张宏江博士进一步指出:
1. 过去一年中,中国大模型的研发进步值得肯定。但此前追赶阶段的优势在于“别人把路也给你指出来了”,而当距离缩短后,就需要自己选路线、比拼创新能力尤其重要,竞争仍会十分激烈。此外,大模型的能力上限高度依赖算力。集中化的算力经济是未来的关键,有100个1000张卡的算力中心,不等于有一个10万张卡的算力中心,尤其是在训练方面,能够管理和运营大规模算力的能力是非常重要的。虽然DeepSeek是一个了不起的突破,但如果我们只是抱着“多快好省”的思维,就会误判形势,最终在算力上也一定要赶上。模型发展的上限必然与算力成正比,这是不可回避的物理约束。在完全开放的市场里,泡沫和过度投资在所难免,但AI的发展还远远没到“泡沫顶点”,眼下大模型仍有大量待解问题,也需要大量的专利和投入。
2. 在经济层面,人与智能体的交互合作是非常重要的。随着智能体变得越来越强大,我们会看到智能体会替代企业或机构中许多流程和决策点,这将会提高生产率,但也会带来一些大的结构性变化。未来企业的规模,如果以人员的数量来衡量的话,会出现一些小规模的大企业,就像“单人独角兽”(one person unicorn)。这些企业的销售额和利润可能非常大,但员工人数却很少。可以想象,当智能体能够自动编程,甚至自动生成工具时,这个趋势是显而易见的。小公司会大量涌现,而大公司则裁员更多。所以,未来是人和一群智能体的合作。智能体会变得越来越主动,越来越自动化。我们不能指望未来机器永远只是人的助手。