直觉:为什么 AGI 连定义都吵不清

“通用人工智能”(AGI) 这个词的麻烦在于:它是一个否定式定义——指代"不像今天这种只会做单一任务的窄 AI"。但凡是靠否定来定义的概念,边界都很模糊。一个能写代码、能下棋、能聊天、能控制机械臂的系统,算不算"通用"?如果它在所有任务上都不如对应领域的专家,但在任意任务上都不算太差,它是 AGI 吗?

工程师习惯于把目标写成可优化的 loss 或可测量的 metric。AGI 的尴尬恰恰是:我们没有一个被广泛接受的、可计算的目标函数。这导致"我们是否已经接近 AGI"这种讨论往往沦为定义之争,而非数据之争。

机制:几种主流定义范式及其内在矛盾

把流传的 AGI 定义抽象一下,大致有四类,它们各自隐含不同的可测量代理(proxy):

1. 任务覆盖式。定义为"能完成人类能完成的绝大多数经济/认知任务"。代理指标是任务通过率在一个足够宽的任务分布上的覆盖。问题:任务分布 T\mathcal{T} 怎么采样?人类的任务空间是长尾的,尾部任务(罕见、需要具身经验)几乎无法枚举。

2. 能力门槛式。定义为"在某个能力基准集合上超过人类中位数/专家"。代理指标是 benchmark 分数。问题是 Goodhart 定律:一旦某指标被当作目标,它就不再是好指标。模型可以通过数据污染、针对性微调把 benchmark 刷到饱和,却不具备对应的泛化能力。

3. 样本效率式。强调学新东西的能力而非已会的能力。一个常被引用的思路(参见以抽象推理为核心的 ARC 类基准)是把智能定义成"技能获取的效率",即在给定先验和经验下,对从未见过的任务的泛化能力。可以粗略写成:

IntelligenceSkill on novel tasksPrior+Experience\text{Intelligence} \propto \frac{\text{Skill on novel tasks}}{\text{Prior} + \text{Experience}}

直觉是:背了海量数据后在测试集上得高分不值钱;用很少先验和很少样本就能掌握新任务才值钱。这个范式对"靠规模堆出来的能力"是天然警惕的。

4. 自主性/经济式。绕开"智能本质",直接问:"系统能否在最小人类监督下,端到端完成有经济价值的长程任务?“代理指标是任务的时间跨度(能自主连续工作多久而不脱轨)和经济替代率。这个定义对工业界最友好,因为它可测、可计费,但它把"通用"偷换成了"有用且自主”。

四类定义会给出互相冲突的结论:同一个系统按定义 2 可能"已超人类",按定义 3 可能"远未达标"。这就是争论无法收敛的根源——大家在测不同的东西。

公式/代码:为什么"单一分数"必然失真

假设我们有任务分布 T\mathcal{T},每个任务 tt 有难度权重 wtw_t 和模型得分 st[0,1]s_t \in [0,1]。一个朴素的"通用性分数"是加权平均:

1
2
3
4
def generality_score(scores, weights):
# scores[t], weights[t] over a task distribution T
total_w = sum(weights.values())
return sum(scores[t] * weights[t] for t in scores) / total_w

这个聚合有三个致命问题,正好对应 AGI 衡量的核心难题:

  1. 分布选择即结论。换一组 weights(比如多采点数学题、少采点常识题),排名就变。没有"中立"的任务分布——任何分布都隐含了对"什么算智能"的价值判断。

  2. 平均掩盖脆性。AGI 的关键诉求之一是鲁棒泛化,但算术平均允许"在 90% 任务上满分、在 10% 任务上灾难性失败"得到高分。一个更接近 AGI 直觉的聚合应该惩罚最差表现,例如用某个分位数或最小值的软化版本:

Robustα=1αlogEt[eαst]\text{Robust}_\alpha = -\frac{1}{\alpha}\log \mathbb{E}_{t}\big[e^{-\alpha s_t}\big]

α0\alpha \to 0 退化为均值,α\alpha 越大越接近最小值(强调短板)。α\alpha 取多少?又是一个价值判断。

  1. 静态集合会饱和。任何固定 benchmark 都会被"做穿"。所以严肃的评测正在转向持续生成新题、私有测试集、动态难度——这本质上是在和数据污染打军备竞赛。

工程权衡:能力 vs 对齐、覆盖 vs 污染、通用 vs 可验证

从工程角度,衡量 AGI 至少有几组无法同时满足的权衡:

  • 覆盖广度 vs 评测可信度。测试集越大越广,越能反映"通用",但也越难保证未被训练数据污染。私有 holdout 可信但样本量小、统计噪声大。
  • 能力 vs 安全/对齐。AGI 讨论里常把"能力"和"能否被安全使用"混在一起。一个能力极强但不可控的系统,按任务覆盖式定义是 AGI,按"可部署的通用助手"标准则不是。评测必须把 capability 和 alignment 分开打分,否则会用一个维度掩盖另一个维度的缺陷。
  • 结果导向 vs 过程导向。只看最终答案对错,无法区分"真推理"和"恰好背过类似题"。引入过程评测(要求展示中间步骤、可复现的工具调用轨迹)能缓解,但过程也能被模仿,且评判过程本身需要更强的裁判。
  • 谁来当裁判。用人类评分昂贵且不一致;用强模型当裁判(LLM-as-judge)便宜但有系统性偏好(偏好长答案、偏好自己风格、易被对抗样本攻破)。裁判能力上界往往就是被测系统的能力上界,循环论证。

边界与常见误区

  • 误区一:把 benchmark SOTA 等同于接近 AGI。分数饱和往往先于能力饱和到来,因为题被刷穿了。看到"超过人类"先问:测试集是否公开、是否可能在训练语料里、人类基线是怎么测的。
  • 误区二:以为存在一个 AGI 的"开关时刻"。更可能是能力沿不同维度参差推进的连续过程——某些维度早已超人(检索、并行、记忆容量),某些维度长期落后(长程一致性、对自身错误的校准、真正的样本高效学习)。
  • 误区三:忽略具身与因果。纯文本/多模态预测器可以在很多"纸面任务"上表现惊人,但"通用"在很多定义里隐含了与物理世界交互、做干预、验证因果的能力,而这些在纯观测数据上难以习得。

小结

AGI 之所以"测不清",不是因为我们缺一个更大的 benchmark,而是因为"通用智能"目前没有公认的、可计算的目标函数。不同定义(任务覆盖、能力门槛、样本效率、自主经济价值)各自对应不同的代理指标,并给出互相冲突的结论。任何把它压缩成单一分数的尝试,都会在分布选择、聚合方式、数据污染、裁判可信度上引入价值判断与可被钻空子的漏洞。务实的做法是:放弃"是不是 AGI"这种二元判断,转而沿鲁棒泛化、样本效率、长程自主、可对齐等多个正交维度,用动态、私有、过程可验证的评测持续追踪——把争论从"定义"拉回"测量"。