涌现能力：规模、缩放定律与度量争议

直觉：从"量变"到"质变"

工程师对"线性投入换线性收益"有天然的直觉：参数翻倍、数据翻倍，loss 应该平滑下降。大语言模型在很多任务上确实如此——困惑度（perplexity）随规模呈现非常规整的幂律下降。但在某些任务（如多位数加法、符号推理、特定 few-shot 任务）上，人们观察到一种现象：小模型几乎完全做不对，准确率长期贴近随机基线；当规模跨过某个阈值后，准确率突然跃升。这种"在小模型上不存在、大模型上才出现"的能力，被称为涌现能力（emergent abilities）。

但这个故事后来有了重要反转：涌现到底是模型真实的相变，还是我们度量方式制造的幻觉？这是本文的核心。

机制：缩放定律给了什么、没给什么

缩放定律（scaling laws）描述的是测试损失与三个量的关系：参数量 $N$ 、数据量 $D$ 、计算量 $C$ 。经验上，在很宽的范围内损失近似服从幂律：

$L(N) \approx L_\infty + \left(\frac{N_c}{N}\right)^{\alpha_N}$

其中 $L_\infty$ 是不可约损失（数据本身的熵下界）， $\alpha_N$ 是缩放指数（典型量级在 0.05–0.1 数量级，意味着指数很小、收益缓慢但可预测）。联合考虑 $N$ 和 $D$ 时，存在一个计算最优分配：给定算力预算 $C \approx 6ND$ （Transformer 前向+反向每 token 每参数约 6 FLOPs 的经验估计），应该如何切分 $N$ 和 $D$ 才能最小化损失。后续研究修正了早期"参数优先"的结论，指出在固定算力下，参数和数据应当按相近比例同步增长——很多更早的大模型其实是"训练不足"的。

关键点在于：缩放定律描述的是 loss，不是下游任务的准确率。 loss 平滑下降，不代表你关心的指标（exact match、BLEU、pass@1）也平滑变化。涌现争议正出在这条缝隙里。

公式：度量如何"制造"涌现

考虑一个需要连续答对 $k$ 个 token 才算正确的任务（如多位数算术，最终用 exact-match 评分）。假设模型每个 token 的正确概率随规模平滑提升，记为 $p(N)$ ，且各 token 近似独立。那么 exact-match 准确率是：

$\text{Acc}(N) = p(N)^k$

即便 $p(N)$ 随 $N$ 线性平滑上升， $p^k$ 在 $k$ 较大时会表现为一条长期贴近 0、然后陡峭抬升的曲线——这正是"涌现"的视觉特征。换言之，非线性、阈值化的度量（exact match、top-1 准确率）会把底层平滑的改进折叠成一个突变。

用一段最小代码直观感受：

import numpy as np

N = np.logspace(7, 11, 200)           # 参数量从 1e7 到 1e11
p = np.clip(0.1 * np.log10(N) - 0.6, 0, 1)  # 单 token 正确率：平滑上升

for k in [1, 5, 20]:
    acc = p ** k                       # exact-match 风格指标
    # k=1 时近似平滑；k 越大，曲线越像"突然涌现"
    print(k, acc[::40].round(3))

如果换成连续、线性度量（如 token-level 准确率、对数似然、edit distance），同样的底层 $p(N)$ 会画出一条平滑曲线，涌现就"消失"了。这就是度量争议的实证核心：所谓涌现，在很多案例里是不连续指标 + 对数横轴的产物，而非模型内部突然发生了相变。

工程权衡：你该如何对待"涌现"

这场争议对实际工程有几条可操作的结论：

选连续指标做监控。 训练/评估时优先用 log-likelihood、token 准确率、Brier score 这类平滑指标来追踪进展。它们能更早、更可预测地反映改进，让你在小规模实验上就外推出趋势，而不是等到大模型才"突然亮灯"。最终汇报可以再用 exact-match，但别用它来做早期决策。
警惕"阈值"叙事带来的资源误判。 如果你相信"必须跨过 N 参数才有能力"，可能会盲目堆规模。但很多任务的瓶颈其实是数据质量、指令微调、提示工程（few-shot 示例数、chain-of-thought）。CoT 之类的提示技巧能让"涌现"提前出现，说明能力部分是被解锁而非被创造。
小模型外推要小心 floor 效应。 当多个小模型都贴着随机基线，你拿不到有效梯度信息去外推。这时"看不到提升"不等于"没有提升",只是被指标的地板截断了。改用 per-token loss 往往能看到下方仍在缓慢下降的信号。
算力预算分配。 用 $C\approx 6ND$ 做粗估，结合缩放定律的计算最优点决定 $N$ 与 $D$ 的比例。一个常见踩坑是参数堆得过大而 token 喂得不够，导致欠训练、单位算力的 loss 收益反而下降。

边界与常见误区

误区一：涌现 = 不可预测。 部分能力确实在连续指标上是可外推的；不可预测性很大程度来自度量选择，而非物理规律。
误区二：所有涌现都是幻觉。 也不能走到另一个极端。少数任务即便换成连续指标，仍呈现明显的非平滑跃迁，是否存在真正的"相变"目前仍是开放问题，结论取决于任务、指标和测量精度。
误区三：把缩放定律当成保证。 幂律在观测范围内拟合得好，但外推到极端规模时可能偏离；数据耗尽、数据重复、分布漂移都会破坏幂律假设。

小结

缩放定律给了我们一把可预测的尺子：loss 随规模平滑、可外推地下降。涌现能力的"突变感"，相当一部分来自我们用阈值化、不连续的指标去观测一个底层平滑的过程——当单题需要连续答对多步时，平滑的 $p(N)$ 会被 $p^k$ 放大成看似突变的曲线。工程上的正确姿势是：用连续指标做早期决策与外推，把 exact-match 留给最终汇报；用 $C\approx 6ND$ 和计算最优比例分配算力；同时保留对"少数任务可能存在真实相变"的谦逊。规模重要，但度量你怎么看规模，同样重要。