直觉:从"量变"到"质变"
工程师对"线性投入换线性收益"有天然的直觉:参数翻倍、数据翻倍,loss 应该平滑下降。大语言模型在很多任务上确实如此——困惑度(perplexity)随规模呈现非常规整的幂律下降。但在某些任务(如多位数加法、符号推理、特定 few-shot 任务)上,人们观察到一种现象:小模型几乎完全做不对,准确率长期贴近随机基线;当规模跨过某个阈值后,准确率突然跃升。这种"在小模型上不存在、大模型上才出现"的能力,被称为涌现能力(emergent abilities)。
但这个故事后来有了重要反转:涌现到底是模型真实的相变,还是我们度量方式制造的幻觉?这是本文的核心。
机制:缩放定律给了什么、没给什么
缩放定律(scaling laws)描述的是测试损失与三个量的关系:参数量 、数据量 、计算量 。经验上,在很宽的范围内损失近似服从幂律:
其中 是不可约损失(数据本身的熵下界), 是缩放指数(典型量级在 0.05–0.1 数量级,意味着指数很小、收益缓慢但可预测)。联合考虑 和 时,存在一个计算最优分配:给定算力预算 (Transformer 前向+反向每 token 每参数约 6 FLOPs 的经验估计),应该如何切分 和 才能最小化损失。后续研究修正了早期"参数优先"的结论,指出在固定算力下,参数和数据应当按相近比例同步增长——很多更早的大模型其实是"训练不足"的。
关键点在于:缩放定律描述的是 loss,不是下游任务的准确率。 loss 平滑下降,不代表你关心的指标(exact match、BLEU、pass@1)也平滑变化。涌现争议正出在这条缝隙里。
公式:度量如何"制造"涌现
考虑一个需要连续答对 个 token 才算正确的任务(如多位数算术,最终用 exact-match 评分)。假设模型每个 token 的正确概率随规模平滑提升,记为 ,且各 token 近似独立。那么 exact-match 准确率是:
即便 随 线性平滑上升, 在 较大时会表现为一条长期贴近 0、然后陡峭抬升的曲线——这正是"涌现"的视觉特征。换言之,非线性、阈值化的度量(exact match、top-1 准确率)会把底层平滑的改进折叠成一个突变。
用一段最小代码直观感受:
1 | import numpy as np |
如果换成连续、线性度量(如 token-level 准确率、对数似然、edit distance),同样的底层 会画出一条平滑曲线,涌现就"消失"了。这就是度量争议的实证核心:所谓涌现,在很多案例里是不连续指标 + 对数横轴的产物,而非模型内部突然发生了相变。
工程权衡:你该如何对待"涌现"
这场争议对实际工程有几条可操作的结论:
-
选连续指标做监控。 训练/评估时优先用 log-likelihood、token 准确率、Brier score 这类平滑指标来追踪进展。它们能更早、更可预测地反映改进,让你在小规模实验上就外推出趋势,而不是等到大模型才"突然亮灯"。最终汇报可以再用 exact-match,但别用它来做早期决策。
-
警惕"阈值"叙事带来的资源误判。 如果你相信"必须跨过 N 参数才有能力",可能会盲目堆规模。但很多任务的瓶颈其实是数据质量、指令微调、提示工程(few-shot 示例数、chain-of-thought)。CoT 之类的提示技巧能让"涌现"提前出现,说明能力部分是被解锁而非被创造。
-
小模型外推要小心 floor 效应。 当多个小模型都贴着随机基线,你拿不到有效梯度信息去外推。这时"看不到提升"不等于"没有提升",只是被指标的地板截断了。改用 per-token loss 往往能看到下方仍在缓慢下降的信号。
-
算力预算分配。 用 做粗估,结合缩放定律的计算最优点决定 与 的比例。一个常见踩坑是参数堆得过大而 token 喂得不够,导致欠训练、单位算力的 loss 收益反而下降。
边界与常见误区
- 误区一:涌现 = 不可预测。 部分能力确实在连续指标上是可外推的;不可预测性很大程度来自度量选择,而非物理规律。
- 误区二:所有涌现都是幻觉。 也不能走到另一个极端。少数任务即便换成连续指标,仍呈现明显的非平滑跃迁,是否存在真正的"相变"目前仍是开放问题,结论取决于任务、指标和测量精度。
- 误区三:把缩放定律当成保证。 幂律在观测范围内拟合得好,但外推到极端规模时可能偏离;数据耗尽、数据重复、分布漂移都会破坏幂律假设。
小结
缩放定律给了我们一把可预测的尺子:loss 随规模平滑、可外推地下降。涌现能力的"突变感",相当一部分来自我们用阈值化、不连续的指标去观测一个底层平滑的过程——当单题需要连续答对多步时,平滑的 会被 放大成看似突变的曲线。工程上的正确姿势是:用连续指标做早期决策与外推,把 exact-match 留给最终汇报;用 和计算最优比例分配算力;同时保留对"少数任务可能存在真实相变"的谦逊。规模重要,但度量你怎么看规模,同样重要。