源码先锋

源码先锋

扩展定律已死?通往 AGI 之路另有方向?Keras之父谈智能本质

admin 33 181

为什么万倍算力增长,模型从GPT-2升级到,在真正衡量流体智能的ARC基准上得分依然接近于0?

为什么说2024年是AI范式的转折点,从「预训练-扩展」转向了「测试时自适应」?

通往AGI的路上,我们真正缺失的是什么?

当整个AI领域都在为「扩展定律」(ScalingLaw)的魔力而痴狂,认为只要模型够大、数据够多,AGI就会「大力出奇迹」般涌现时,有人却在坚持提出反对声音。

这个人,就是FrançoisChollet。

最近,François在一次演讲中系统地剖析了当前AI模型的局限,指出了「大力出奇迹」的范式为何注定无法通往AGI,并首次详细阐述了他和他所创立的新研究实验室Ndea正在构建的下一代AI系统——一个能够走向真正发明的系统。

01.扩展定律的黄昏:五万倍算力增长,为何在「真智能」面前失效?

故事要从一张我们熟悉的图表说起。

「这张图是关于我们这个世界最重要的事实之一」,François开场便展示了计算成本的惊人下降曲线——自1940年以来,每十年下降两个数量级,并且丝毫没有停止的迹象。

正是这股强大的算力东风,在2010年代点燃了深度学习的引擎。GPU和海量数据让计算机视觉、自然语言处理等曾经棘手的难题被逐一攻克。特别是自监督文本模型的成功,让「扩展预训练LLM」成为了AI领域无可争议的霸主范式。

一个令人着迷的「扩展定律」出现了:使用完全相同的架构和训练过程,只要不断增加模型尺寸和训练数据量,模型在各大基准测试上的表现就会可预测地变好。

一时间,整个领域似乎找到了通往AGI的康庄大道。无数人相信,通用智能将通过把更多数据塞进更大模型中而「自发涌现」。

「但这里有一个问题」,François话锋一转,「我们混淆了这些基准测试的真正含义。」

他犀利地指出,我们必须区分两种能力:

记忆化的技能:静态的、针对特定任务的、预先加载的知识。

流体通用智能:在面对从未见过的新情况时,能够当场理解、推理并解决问题的能力。

为了凸显这一差异,早在2019年LLM浪潮兴起之前,François就发布了一个名为「抽象与推理语料库」(AbstractionandReasoningCorpus,ARC)的AI基准。

ARC的任务看起来像是给机器做的「IQ测试」,每个任务都是独一无二的,无法通过刷题来准备。它要求系统利用「核心知识先验」——比如物体、基本几何、计数等任何一个四岁小孩都掌握的概念——去解决一个全新的视觉谜题。

结果如何?

François揭示了一个惊人的事实:「从2019年ARC-1发布到现在,基础LLM的规模扩大了大约50000倍,比如我们现在有了像这样的模型。但我们在这个基准上的准确率,从0%提升到了大约10%。」

50000倍的规模提升,换来的仅仅是10%的准确率。

考虑到现场任何一位工程师都能轻松拿到95%以上的分数,这个10%几乎可以忽略不计。

这个结果如同一盆冷水,浇在了「扩展至上」的狂热之上。它证明:真正的流体智能,无法通过简单地扩展预训练模型和进行静态推理来获得。

ARC就像一面镜子,照出了当时AI范式的根本缺陷:它不是在测试一个系统理解新事物的能力,而是在测试一个「盒子」复述其记忆库中已有答案的能力。

02.范式转移:2024,测试时自适应的黎明

然而,就在去年,2024年,事情发生了变化。

François观察到,AI研究社区开始大规模地转向一个全新的、截然不同的模式:测试时自适应(Test-TimeAdaptation,TTA)。

这不再是简单地查询一个预先加载好知识的静态模型。TTA的核心思想是,模型有能力在推理时,根据遇到的新数据动态地改变自己的状态和行为。

这涵盖了一系列技术,比如测试时训练(test-timetraining)、程序合成(programsynthesis)、思维链合成(chain-of-thoughtsynthesis)等。本质上,模型在尝试为手头的任务「重编程」自己。

「突然之间,我们开始在ARC上看到显著的进展」,François说,「我们终于有了展现出真正流体智能迹象的AI。」

一个标志性事件是,2024年12月,OpenAI预览了其o3模型的一个特殊版本。这个版本专门针对ARC进行了微调,并首次在该基准上展现了人类水平的性能。

到了2025年的今天,François断言:「我们已经从预训练扩展范式中走出来,完全进入了测试时自适应的时代。如今,每一个在ARC上表现出色的方法,都在使用这些技术。」

那么,新的问题来了:

为什么预训练范式没能带我们走向AGI?

测试时自适应(TTA)这次能行吗?AGI是否已经到来了?

除了TTA,AI的下一步又会是什么?

要回答这些问题,必须先回到一个更根本的问题:到底什么是智能?

03.重新定义智能:是「静态路网」,还是「修路公司」?

「如果你回顾过去几十年,关于智能和AI的目标,一直有两条思想路线」,François解释道。

明斯基观点:AI是关于制造能够执行通常由人类完成的任务的机器。这与当前主流企业界对AGI的看法——「能够执行大多数有经济价值任务的AI」——不谋而合。

麦卡锡观点:AI是关于让机器处理它们没有被准备过的问题。核心是处理「新颖性」。

François明确表示,他的观点更接近麦卡锡。他提出了一个极为深刻的比喻:

将智能归因于一个预训练好的、固化的行为程序(即技能),是一种「范畴谬误」。你混淆了过程和它的产物。

基于此,François给出了他对智能的正式定义:

这个定义解释了为什么用人类的考试来衡量AI是一个坏主意。人类考试是为了衡量知识和特定技能,并且其设计前提(比如考生无法提前背下所有答案)对机器不成立。当AI可以轻易「作弊」时,这种基准就失去了意义。

这种现象在工程学中被称为「捷径傻瓜」(shortcutfool):当你只专注于一个衡量指标时,你可能会成功达成这个指标,但却以牺牲所有未被衡量的重要东西为代价。「你击中了目标,却错过了重点(Youhitthetarget,butyoumissthepoint)。」

AI历史上最经典的例子莫过于下棋。当年DeepBlue击败卡斯帕罗夫,确实达成了「让机器下棋战胜人类」的目标,但我们在这个过程中对人类智能本身几乎一无所知。

「几十年来,AI一直在追逐特定任务的技能,因为那就是我们对智能的定义」,François总结道,「但这一定义最终只会导向自动化(automation),也就是我们今天拥有的系统。但我们真正想要的,是能够进行自主发明(autonomousinvention)的AI。」

04.ARC三部曲:从「识别」到「推理」再到「智能体」

François及其团队设计的ARC系列基准,正是为了提供这样一个「指向正确方向的箭头」。

ARC-1(2019):流体智能的试金石ARC-1的历史使命已经完成。它成功地抵抗了预训练扩展范式,证明了TTA的必要性。但它也是一个二元测试,要么你完全没有流体智能(得分接近0),要么你拥有了基础的流体智能(得分迅速飙升)。它无法区分「优秀」和「卓越」,更无法与人类的顶尖智能进行比较。

ARC-2(2025.3):挑战组合推理的极限随着ARC-1被TTA系统攻克,更灵敏的工具——ARC-2登场了。它旨在挑战当今最前沿的TTA推理系统。ARC-2的任务格式与ARC-1相同,但更加复杂,极大地侧重于探测组合推理(compositionalreasoning)的能力。对于人类来说,这些任务仍然相当可行,但几乎每一题都需要经过一番深思熟虑,而不再是「看一眼就有答案」。为了确保任务对人类的可行性,团队在圣地亚哥招募了各行各业的普通人(Uber司机、学生、失业者等)进行测试。结果表明,一个由10个普通人组成的团队通过投票,可以在ARC-2上拿到100%的分数。那么AI的表现呢?

基础LLM(如,Llama4):得分0%。纯粹的记忆化方法彻底失效。

静态推理系统(如单次思维链生成):得分在1%-2%之间,仍在0的误差范围内。

顶尖TTA系统(如o3):虽然远超0%,但仍然远远低于人类水平。ARC-2提供了一个全新的、更宽广的评估范围,清晰地显示出:即使是最先进的TTA系统,在组合推理能力上与普通人之间仍存在巨大鸿沟。François的判断标准很明确:「只要我们还能轻易地想出那种『你们任何人都能做,但AI无论花多少算力都搞不定』的任务,我们就没有实现AGI。」

ARC-3(2026计划):迈向交互式智能体(InteractiveAgency)ARC的终点并非ARC-2。François透露,他们已经开始开发ARC-3,这将是一次重大的范式转变。ARC-3将不再是静态的输入-输出格式,而是评估智能体(agency):在一个全新的交互式环境中,自主探索、学习、设定目标并实现目标的能力。想象一下,一个AI被「扔」进一个全新的游戏中,它不知道控制键是什么,不知道游戏目标是什么,也不知道游戏机制是什么。它必须从零开始,动态地搞清楚一切。每个游戏都独一无二,且都只基于核心知识先验构建。更重要的是,效率将是ARC-3设计的核心。AI不仅要看能否解决任务,还要看解决得有多高效,其行动步数将被严格限制在与人类相当的水平。ARC-3的开发者预览版将于2025年7月发布,并计划在2026年初正式推出。

05.通往AGI的架构:两种抽象与「程序员」AI

要如何才能攻克ARC-2,乃至未来的ARC-3、ARC-4,最终到达AGI?我们到底还缺少什么?

François提出了他的核心理论框架。

万花筒假说:我们的世界看似充满了无尽的新颖性和复杂性,但构成这一切的「意义原子」其实数量非常少。宇宙万物,从树木到神经元,从电磁学到引力,都充满了同构性(isomorphisms)。它们都是这些基本原子的不同重组。智能,就是挖掘经验、识别这些可在不同情境中复用的「意义原子」——即抽象(abstractions)——的能力。

实现智能有两个关键部分:

抽象获取(Abstractionacquisition):高效地从经验中提取可复用的抽象。

即时重组(On-the-flyrecombination):高效地选择和重组这些抽象,以构建适应当前新情况的模型。

这解释了为什么单纯扩大模型和数据没用。过去的模型虽然在训练时获取了大量抽象,但在测试时却是静态的,只能调用预先写好的模板。TTA解决了「即时重组」的问题,这是迈向AGI的巨大一步。

但TTA并非全部答案。另一个关键问题是效率。梯度下降需要比人类多出三到四个数量级的数据才能提炼出简单的抽象;而顶尖的TTA系统解决ARC-1仍需数千美元的算力。

根本问题在于,深度学习模型缺失了一种能力:组合泛化。而这正是ARC-2试图衡量的。

为了理解这一点,François引入了他理论中至关重要的一个概念:抽象的两种类型。

类型1:以价值为中心的抽象

在连续域上操作。

通过连续的距离函数来比较事物,通过插值来泛化。

这是感知、模式识别、直觉的基础,也是现代机器学习(尤其是Transformer)的强项。

可以类比为「右脑」思维。

类型2:以程序为中心的抽象

在离散域上操作。

通过寻找精确的结构匹配(同构)来比较离散的程序。

这是人类逻辑推理、规划、严谨思维的基础,也是软件工程师进行代码重构时所做的事情。

可以类比为「左脑」思维。

「Transformer在类型1抽象上非常出色」,François解释说,「但在类型2上却不适合。这就是为什么你很难训练一个模型去完成像『对一个数字序列进行排序』或『对两个大数进行加法』这样简单的类型2任务。」

机器学习和程序合成就像一枚硬币的两面:

机器学习:模型是连续曲线,学习引擎是梯度下降(计算高效),但需要海量数据(数据饥渴)。

真正的智能,并非偏废其一,而是将两者完美融合。

06.Ndea的蓝图:构建一个会编程的元学习器

这种融合,正是FrançoisChollet和他的新研究实验室Ndea正在构建的系统。

Ndea的使命非常明确:构建能够实现独立发明和发现的AI,从而极大地加速科学进步。

François首次详细披露了他们正在构建的系统架构,一个「程序员」式的元学习器:

核心是一个元学习器:当面对新任务时,它会当场合成一个适应性程序/模型来解决它。

混合式程序:这个合成出的程序将无缝融合用于处理类型1问题(如感知)的深度学习子模块,和用于处理类型2问题的算法模块。

这个系统的最终目标是:当一个AI面对完全陌生的新情况时,它能利用其丰富的抽象库,迅速组装出一个有效的解决方案,就像一个经验丰富的软件工程师利用现有工具和库来快速解决新问题一样。

Ndea的短期目标,就是用这个系统,在对ARC-2一无所知的前提下,从零开始解决它。而终极目标,则是将这个系统应用于科学,赋能人类研究者,加速科学发现的进程。

结语

从批判扩展定律的局限,到重新定义智能的核心;从设计ARC系列基准来指引方向,到提出融合两种抽象的全新AI架构。FrançoisChollet的这场分享,为我们描绘了一条迥异于「大力出奇迹」的AGI之路。

这条路更加艰难,也更加深刻。它不再满足于让AI成为一个博闻强识的「自动化工具」,而是要将其锻造成一个能够理解、推理和创造的「发明引擎」。

或许,AGI的到来,并不取决于我们能把模型做得多大,而取决于我们是否能构建出像Ndea设想的那样,能够像程序员一样思考和工作的下一代AI系统。

你觉得Scalelaw还能走多远?AGI的正确道路会在何方?

FrançoisChollet:TheARCPrizeHowWeGettoAGI|