直觉:从"量变"到"质变"

工程师对"线性投入换线性收益"有天然的直觉:参数翻倍、数据翻倍,loss 应该平滑下降。大语言模型在很多任务上确实如此——困惑度(perplexity)随规模呈现非常规整的幂律下降。但在某些任务(如多位数加法、符号推理、特定 few-shot 任务)上,人们观察到一种现象:小模型几乎完全做不对,准确率长期贴近随机基线;当规模跨过某个阈值后,准确率突然跃升。这种"在小模型上不存在、大模型上才出现"的能力,被称为涌现能力(emergent abilities)

但这个故事后来有了重要反转:涌现到底是模型真实的相变,还是我们度量方式制造的幻觉?这是本文的核心。

机制:缩放定律给了什么、没给什么

缩放定律(scaling laws)描述的是测试损失与三个量的关系:参数量 NN、数据量 DD、计算量 CC。经验上,在很宽的范围内损失近似服从幂律:

L(N)L+(NcN)αNL(N) \approx L_\infty + \left(\frac{N_c}{N}\right)^{\alpha_N}

其中 LL_\infty 是不可约损失(数据本身的熵下界),αN\alpha_N 是缩放指数(典型量级在 0.05–0.1 数量级,意味着指数很小、收益缓慢但可预测)。联合考虑 NNDD 时,存在一个计算最优分配:给定算力预算 C6NDC \approx 6ND(Transformer 前向+反向每 token 每参数约 6 FLOPs 的经验估计),应该如何切分 NNDD 才能最小化损失。后续研究修正了早期"参数优先"的结论,指出在固定算力下,参数和数据应当按相近比例同步增长——很多更早的大模型其实是"训练不足"的。

关键点在于:缩放定律描述的是 loss,不是下游任务的准确率。 loss 平滑下降,不代表你关心的指标(exact match、BLEU、pass@1)也平滑变化。涌现争议正出在这条缝隙里。

公式:度量如何"制造"涌现

考虑一个需要连续答对 kk 个 token 才算正确的任务(如多位数算术,最终用 exact-match 评分)。假设模型每个 token 的正确概率随规模平滑提升,记为 p(N)p(N),且各 token 近似独立。那么 exact-match 准确率是:

Acc(N)=p(N)k\text{Acc}(N) = p(N)^k

即便 p(N)p(N)NN 线性平滑上升,pkp^kkk 较大时会表现为一条长期贴近 0、然后陡峭抬升的曲线——这正是"涌现"的视觉特征。换言之,非线性、阈值化的度量(exact match、top-1 准确率)会把底层平滑的改进折叠成一个突变

用一段最小代码直观感受:

1
2
3
4
5
6
7
8
9
import numpy as np

N = np.logspace(7, 11, 200) # 参数量从 1e7 到 1e11
p = np.clip(0.1 * np.log10(N) - 0.6, 0, 1) # 单 token 正确率:平滑上升

for k in [1, 5, 20]:
acc = p ** k # exact-match 风格指标
# k=1 时近似平滑;k 越大,曲线越像"突然涌现"
print(k, acc[::40].round(3))

如果换成连续、线性度量(如 token-level 准确率、对数似然、edit distance),同样的底层 p(N)p(N) 会画出一条平滑曲线,涌现就"消失"了。这就是度量争议的实证核心:所谓涌现,在很多案例里是不连续指标 + 对数横轴的产物,而非模型内部突然发生了相变。

工程权衡:你该如何对待"涌现"

这场争议对实际工程有几条可操作的结论:

  • 选连续指标做监控。 训练/评估时优先用 log-likelihood、token 准确率、Brier score 这类平滑指标来追踪进展。它们能更早、更可预测地反映改进,让你在小规模实验上就外推出趋势,而不是等到大模型才"突然亮灯"。最终汇报可以再用 exact-match,但别用它来做早期决策。

  • 警惕"阈值"叙事带来的资源误判。 如果你相信"必须跨过 N 参数才有能力",可能会盲目堆规模。但很多任务的瓶颈其实是数据质量、指令微调、提示工程(few-shot 示例数、chain-of-thought)。CoT 之类的提示技巧能让"涌现"提前出现,说明能力部分是被解锁而非被创造

  • 小模型外推要小心 floor 效应。 当多个小模型都贴着随机基线,你拿不到有效梯度信息去外推。这时"看不到提升"不等于"没有提升",只是被指标的地板截断了。改用 per-token loss 往往能看到下方仍在缓慢下降的信号。

  • 算力预算分配。C6NDC\approx 6ND 做粗估,结合缩放定律的计算最优点决定 NNDD 的比例。一个常见踩坑是参数堆得过大而 token 喂得不够,导致欠训练、单位算力的 loss 收益反而下降。

边界与常见误区

  • 误区一:涌现 = 不可预测。 部分能力确实在连续指标上是可外推的;不可预测性很大程度来自度量选择,而非物理规律。
  • 误区二:所有涌现都是幻觉。 也不能走到另一个极端。少数任务即便换成连续指标,仍呈现明显的非平滑跃迁,是否存在真正的"相变"目前仍是开放问题,结论取决于任务、指标和测量精度。
  • 误区三:把缩放定律当成保证。 幂律在观测范围内拟合得好,但外推到极端规模时可能偏离;数据耗尽、数据重复、分布漂移都会破坏幂律假设。

小结

缩放定律给了我们一把可预测的尺子:loss 随规模平滑、可外推地下降。涌现能力的"突变感",相当一部分来自我们用阈值化、不连续的指标去观测一个底层平滑的过程——当单题需要连续答对多步时,平滑的 p(N)p(N) 会被 pkp^k 放大成看似突变的曲线。工程上的正确姿势是:用连续指标做早期决策与外推,把 exact-match 留给最终汇报;用 C6NDC\approx 6ND 和计算最优比例分配算力;同时保留对"少数任务可能存在真实相变"的谦逊。规模重要,但度量你怎么看规模,同样重要。