AGI 的定义之争与衡量难题

直觉：为什么 AGI 连定义都吵不清

“通用人工智能”(AGI) 这个词的麻烦在于：它是一个否定式定义——指代"不像今天这种只会做单一任务的窄 AI"。但凡是靠否定来定义的概念，边界都很模糊。一个能写代码、能下棋、能聊天、能控制机械臂的系统，算不算"通用"？如果它在所有任务上都不如对应领域的专家，但在任意任务上都不算太差，它是 AGI 吗？

工程师习惯于把目标写成可优化的 loss 或可测量的 metric。AGI 的尴尬恰恰是：我们没有一个被广泛接受的、可计算的目标函数。这导致"我们是否已经接近 AGI"这种讨论往往沦为定义之争，而非数据之争。

机制：几种主流定义范式及其内在矛盾

把流传的 AGI 定义抽象一下，大致有四类，它们各自隐含不同的可测量代理(proxy)：

1. 任务覆盖式。定义为"能完成人类能完成的绝大多数经济/认知任务"。代理指标是任务通过率在一个足够宽的任务分布上的覆盖。问题：任务分布 $\mathcal{T}$ 怎么采样？人类的任务空间是长尾的，尾部任务（罕见、需要具身经验）几乎无法枚举。

2. 能力门槛式。定义为"在某个能力基准集合上超过人类中位数/专家"。代理指标是 benchmark 分数。问题是 Goodhart 定律：一旦某指标被当作目标，它就不再是好指标。模型可以通过数据污染、针对性微调把 benchmark 刷到饱和，却不具备对应的泛化能力。

3. 样本效率式。强调学新东西的能力而非已会的能力。一个常被引用的思路（参见以抽象推理为核心的 ARC 类基准）是把智能定义成"技能获取的效率"，即在给定先验和经验下，对从未见过的任务的泛化能力。可以粗略写成：

$\text{Intelligence} \propto \frac{\text{Skill on novel tasks}}{\text{Prior} + \text{Experience}}$

直觉是：背了海量数据后在测试集上得高分不值钱；用很少先验和很少样本就能掌握新任务才值钱。这个范式对"靠规模堆出来的能力"是天然警惕的。

4. 自主性/经济式。绕开"智能本质"，直接问："系统能否在最小人类监督下，端到端完成有经济价值的长程任务？“代理指标是任务的时间跨度（能自主连续工作多久而不脱轨）和经济替代率。这个定义对工业界最友好，因为它可测、可计费，但它把"通用"偷换成了"有用且自主”。

四类定义会给出互相冲突的结论：同一个系统按定义 2 可能"已超人类"，按定义 3 可能"远未达标"。这就是争论无法收敛的根源——大家在测不同的东西。

公式/代码：为什么"单一分数"必然失真

假设我们有任务分布 $\mathcal{T}$ ，每个任务 $t$ 有难度权重 $w_t$ 和模型得分 $s_t \in [0,1]$ 。一个朴素的"通用性分数"是加权平均：

def generality_score(scores, weights):
    # scores[t], weights[t] over a task distribution T
    total_w = sum(weights.values())
    return sum(scores[t] * weights[t] for t in scores) / total_w

这个聚合有三个致命问题，正好对应 AGI 衡量的核心难题：

分布选择即结论。换一组 weights（比如多采点数学题、少采点常识题），排名就变。没有"中立"的任务分布——任何分布都隐含了对"什么算智能"的价值判断。
平均掩盖脆性。AGI 的关键诉求之一是鲁棒泛化，但算术平均允许"在 90% 任务上满分、在 10% 任务上灾难性失败"得到高分。一个更接近 AGI 直觉的聚合应该惩罚最差表现，例如用某个分位数或最小值的软化版本：

$\text{Robust}_\alpha = -\frac{1}{\alpha}\log \mathbb{E}_{t}\big[e^{-\alpha s_t}\big]$

当 $\alpha \to 0$ 退化为均值， $\alpha$ 越大越接近最小值（强调短板）。 $\alpha$ 取多少？又是一个价值判断。

静态集合会饱和。任何固定 benchmark 都会被"做穿"。所以严肃的评测正在转向持续生成新题、私有测试集、动态难度——这本质上是在和数据污染打军备竞赛。

工程权衡：能力 vs 对齐、覆盖 vs 污染、通用 vs 可验证

从工程角度，衡量 AGI 至少有几组无法同时满足的权衡：

覆盖广度 vs 评测可信度。测试集越大越广，越能反映"通用"，但也越难保证未被训练数据污染。私有 holdout 可信但样本量小、统计噪声大。
能力 vs 安全/对齐。AGI 讨论里常把"能力"和"能否被安全使用"混在一起。一个能力极强但不可控的系统，按任务覆盖式定义是 AGI，按"可部署的通用助手"标准则不是。评测必须把 capability 和 alignment 分开打分，否则会用一个维度掩盖另一个维度的缺陷。
结果导向 vs 过程导向。只看最终答案对错，无法区分"真推理"和"恰好背过类似题"。引入过程评测（要求展示中间步骤、可复现的工具调用轨迹）能缓解，但过程也能被模仿，且评判过程本身需要更强的裁判。
谁来当裁判。用人类评分昂贵且不一致；用强模型当裁判(LLM-as-judge)便宜但有系统性偏好（偏好长答案、偏好自己风格、易被对抗样本攻破）。裁判能力上界往往就是被测系统的能力上界，循环论证。

边界与常见误区

误区一：把 benchmark SOTA 等同于接近 AGI。分数饱和往往先于能力饱和到来，因为题被刷穿了。看到"超过人类"先问：测试集是否公开、是否可能在训练语料里、人类基线是怎么测的。
误区二：以为存在一个 AGI 的"开关时刻"。更可能是能力沿不同维度参差推进的连续过程——某些维度早已超人（检索、并行、记忆容量），某些维度长期落后（长程一致性、对自身错误的校准、真正的样本高效学习）。
误区三：忽略具身与因果。纯文本/多模态预测器可以在很多"纸面任务"上表现惊人，但"通用"在很多定义里隐含了与物理世界交互、做干预、验证因果的能力，而这些在纯观测数据上难以习得。

小结

AGI 之所以"测不清"，不是因为我们缺一个更大的 benchmark，而是因为"通用智能"目前没有公认的、可计算的目标函数。不同定义（任务覆盖、能力门槛、样本效率、自主经济价值）各自对应不同的代理指标，并给出互相冲突的结论。任何把它压缩成单一分数的尝试，都会在分布选择、聚合方式、数据污染、裁判可信度上引入价值判断与可被钻空子的漏洞。务实的做法是：放弃"是不是 AGI"这种二元判断，转而沿鲁棒泛化、样本效率、长程自主、可对齐等多个正交维度，用动态、私有、过程可验证的评测持续追踪——把争论从"定义"拉回"测量"。