直觉:为什么 AGI 连定义都吵不清
“通用人工智能”(AGI) 这个词的麻烦在于:它是一个否定式定义——指代"不像今天这种只会做单一任务的窄 AI"。但凡是靠否定来定义的概念,边界都很模糊。一个能写代码、能下棋、能聊天、能控制机械臂的系统,算不算"通用"?如果它在所有任务上都不如对应领域的专家,但在任意任务上都不算太差,它是 AGI 吗?
工程师习惯于把目标写成可优化的 loss 或可测量的 metric。AGI 的尴尬恰恰是:我们没有一个被广泛接受的、可计算的目标函数。这导致"我们是否已经接近 AGI"这种讨论往往沦为定义之争,而非数据之争。
机制:几种主流定义范式及其内在矛盾
把流传的 AGI 定义抽象一下,大致有四类,它们各自隐含不同的可测量代理(proxy):
1. 任务覆盖式。定义为"能完成人类能完成的绝大多数经济/认知任务"。代理指标是任务通过率在一个足够宽的任务分布上的覆盖。问题:任务分布 怎么采样?人类的任务空间是长尾的,尾部任务(罕见、需要具身经验)几乎无法枚举。
2. 能力门槛式。定义为"在某个能力基准集合上超过人类中位数/专家"。代理指标是 benchmark 分数。问题是 Goodhart 定律:一旦某指标被当作目标,它就不再是好指标。模型可以通过数据污染、针对性微调把 benchmark 刷到饱和,却不具备对应的泛化能力。
3. 样本效率式。强调学新东西的能力而非已会的能力。一个常被引用的思路(参见以抽象推理为核心的 ARC 类基准)是把智能定义成"技能获取的效率",即在给定先验和经验下,对从未见过的任务的泛化能力。可以粗略写成:
直觉是:背了海量数据后在测试集上得高分不值钱;用很少先验和很少样本就能掌握新任务才值钱。这个范式对"靠规模堆出来的能力"是天然警惕的。
4. 自主性/经济式。绕开"智能本质",直接问:"系统能否在最小人类监督下,端到端完成有经济价值的长程任务?“代理指标是任务的时间跨度(能自主连续工作多久而不脱轨)和经济替代率。这个定义对工业界最友好,因为它可测、可计费,但它把"通用"偷换成了"有用且自主”。
四类定义会给出互相冲突的结论:同一个系统按定义 2 可能"已超人类",按定义 3 可能"远未达标"。这就是争论无法收敛的根源——大家在测不同的东西。
公式/代码:为什么"单一分数"必然失真
假设我们有任务分布 ,每个任务 有难度权重 和模型得分 。一个朴素的"通用性分数"是加权平均:
1 | def generality_score(scores, weights): |
这个聚合有三个致命问题,正好对应 AGI 衡量的核心难题:
-
分布选择即结论。换一组
weights(比如多采点数学题、少采点常识题),排名就变。没有"中立"的任务分布——任何分布都隐含了对"什么算智能"的价值判断。 -
平均掩盖脆性。AGI 的关键诉求之一是鲁棒泛化,但算术平均允许"在 90% 任务上满分、在 10% 任务上灾难性失败"得到高分。一个更接近 AGI 直觉的聚合应该惩罚最差表现,例如用某个分位数或最小值的软化版本:
当 退化为均值, 越大越接近最小值(强调短板)。 取多少?又是一个价值判断。
- 静态集合会饱和。任何固定 benchmark 都会被"做穿"。所以严肃的评测正在转向持续生成新题、私有测试集、动态难度——这本质上是在和数据污染打军备竞赛。
工程权衡:能力 vs 对齐、覆盖 vs 污染、通用 vs 可验证
从工程角度,衡量 AGI 至少有几组无法同时满足的权衡:
- 覆盖广度 vs 评测可信度。测试集越大越广,越能反映"通用",但也越难保证未被训练数据污染。私有 holdout 可信但样本量小、统计噪声大。
- 能力 vs 安全/对齐。AGI 讨论里常把"能力"和"能否被安全使用"混在一起。一个能力极强但不可控的系统,按任务覆盖式定义是 AGI,按"可部署的通用助手"标准则不是。评测必须把 capability 和 alignment 分开打分,否则会用一个维度掩盖另一个维度的缺陷。
- 结果导向 vs 过程导向。只看最终答案对错,无法区分"真推理"和"恰好背过类似题"。引入过程评测(要求展示中间步骤、可复现的工具调用轨迹)能缓解,但过程也能被模仿,且评判过程本身需要更强的裁判。
- 谁来当裁判。用人类评分昂贵且不一致;用强模型当裁判(LLM-as-judge)便宜但有系统性偏好(偏好长答案、偏好自己风格、易被对抗样本攻破)。裁判能力上界往往就是被测系统的能力上界,循环论证。
边界与常见误区
- 误区一:把 benchmark SOTA 等同于接近 AGI。分数饱和往往先于能力饱和到来,因为题被刷穿了。看到"超过人类"先问:测试集是否公开、是否可能在训练语料里、人类基线是怎么测的。
- 误区二:以为存在一个 AGI 的"开关时刻"。更可能是能力沿不同维度参差推进的连续过程——某些维度早已超人(检索、并行、记忆容量),某些维度长期落后(长程一致性、对自身错误的校准、真正的样本高效学习)。
- 误区三:忽略具身与因果。纯文本/多模态预测器可以在很多"纸面任务"上表现惊人,但"通用"在很多定义里隐含了与物理世界交互、做干预、验证因果的能力,而这些在纯观测数据上难以习得。
小结
AGI 之所以"测不清",不是因为我们缺一个更大的 benchmark,而是因为"通用智能"目前没有公认的、可计算的目标函数。不同定义(任务覆盖、能力门槛、样本效率、自主经济价值)各自对应不同的代理指标,并给出互相冲突的结论。任何把它压缩成单一分数的尝试,都会在分布选择、聚合方式、数据污染、裁判可信度上引入价值判断与可被钻空子的漏洞。务实的做法是:放弃"是不是 AGI"这种二元判断,转而沿鲁棒泛化、样本效率、长程自主、可对齐等多个正交维度,用动态、私有、过程可验证的评测持续追踪——把争论从"定义"拉回"测量"。