直觉:三波浪潮,三种"把知识塞进机器"的方式
AI 的历史不是一条直线,而是三种知识表示范式的更替:知识是被人手写成规则(符号),还是从数据里统计估计出来(统计),还是被编码进可微参数(神经网络)。每一波都在解决上一波的瓶颈,又会撞上自己的天花板(所谓"AI 寒冬")。理解这条主线,比记住年份重要得多——因为今天大模型遇到的很多问题,本质上是老问题的新版本。
第一波:符号主义(Symbolic / GOFAI)
核心信念:智能 = 对符号的逻辑操作。知识被显式写成事实和规则,推理就是在符号上做搜索与演绎。
典型形态是专家系统:一堆 IF...THEN 规则加一个推理引擎(前向/后向链)。它的数据流是清晰可解释的:
1 | 事实库: has_fever, has_cough |
符号方法的数学骨架是逻辑与搜索。比如经典的状态空间搜索 A*,用启发式 在指数级状态空间里找路径。它的优点是可解释、可验证、零样本(不需要数据,写好规则就能用)。
瓶颈(撞墙点):
- 知识获取瓶颈:规则得人手写,专家知识难以穷举,规则一多就互相冲突、难以维护。
- 组合爆炸:搜索空间随问题规模指数增长。
- 脆性:对规则没覆盖到的情况完全无能为力,无法优雅降级;处理不了感知层的噪声与不确定性(图像、语音里没有干净的"符号")。
这些瓶颈直接催生了第一次 AI 寒冬,也逼出了下一波:与其手写知识,不如从数据里学。
第二波:统计学习(Statistical ML)
核心信念:智能 = 从数据中估计概率分布 / 决策边界。不再手写规则,而是手写特征(feature),再让算法从带标签数据里拟合一个映射 。
这一波的数学核心是经验风险最小化(ERM):
其中 是损失, 是正则项(控制复杂度、防过拟合)。代表方法各有清晰的理论:
- SVM:在特征空间最大化间隔,靠核技巧 处理非线性,而无需显式计算高维 。
- 决策树 / 随机森林 / 梯度提升:用信息增益等准则递归切分,集成多棵弱树降方差。
- 概率图模型(HMM、CRF):在语音、序列标注里用条件概率建模时序依赖。
统计学习真正落地了:垃圾邮件过滤、搜索排序、语音识别的声学模型,背后大多是这一波的方法。它的优势是有泛化理论支撑、对不确定性建模、能从噪声数据里学。
瓶颈(撞墙点):特征工程成了新的"知识获取瓶颈"。在图像、语音、自然语言上,"什么是好特征"本身就是个难题——SIFT、HOG、MFCC、n-gram,全靠人手设计。模型的天花板被特征的表达力卡死。于是问题变成:能不能让机器自己学特征?
第三波:神经网络与表示学习(Deep Learning)
核心信念:智能 = 学习分层的表示。神经网络用多层非线性变换,把原始输入逐层映射成越来越抽象的特征,最后一层做决策。关键是这些"特征"不再人手设计,而是由反向传播自动学出来。
数据流的最小骨架:
1 | # 一个 MLP 前向 + 反向的最小直觉 |
反向传播本质就是对计算图自动求导的链式法则。规模化所需的三个条件在这一波同时凑齐:算力(GPU 把矩阵乘法并行化)、数据(大规模标注/网络语料)、算法(更好的初始化、ReLU、归一化、残差连接缓解梯度消失)。
随后的演进可以看成"针对不同数据结构设计归纳偏置":
- CNN:用卷积的局部连接 + 权重共享编码"平移不变性",统治了视觉。
- RNN/LSTM:用循环结构和门控处理序列,但受限于串行计算和长程依赖。
- Transformer:用自注意力替代循环。注意力的核心公式
让序列中任意两个位置直接交互,且整条序列可并行计算——这正是它能吃满 GPU、规模化到大模型的关键。注意 这个缩放:没有它,点积方差随维度增长,softmax 会饱和到梯度近零。
再往后是预训练范式:先在海量无标注数据上做自监督(语言建模、掩码预测)学通用表示,再迁移到下游任务。这其实是对第二波"特征工程"的彻底反转——特征、甚至任务知识,都从数据里自监督地学出来。
工程权衡:三波不是替代,而是各占生态位
把三波放在一起对比,能看清它们的取舍:
| 维度 | 符号 | 统计 | 神经网络 |
|---|---|---|---|
| 知识来源 | 人手写规则 | 人手写特征 | 自动学表示 |
| 数据需求 | 几乎不需要 | 中等 | 巨大 |
| 可解释性 | 高 | 中 | 低 |
| 处理感知/噪声 | 差 | 中 | 强 |
| 算力需求 | 低 | 低-中 | 高(训练尤甚) |
务实系统往往是混合的:神经网络做感知和表示,符号/规则做可验证的约束与推理,统计方法做校准与不确定性估计。今天热门的"工具调用 + 检索 + 大模型"架构,本质就是把符号式的确定性组件接回神经网络——因为纯参数化模型在精确计算、可验证逻辑、可更新知识上仍是短板,而这恰恰是符号方法的长处。
边界与常见误区
- 误区:新范式完全淘汰旧范式。实际上每一波都把上一波内化成组件。梯度提升树在表格数据上至今常打败深度网络;逻辑约束在需要保证正确性的场景不可替代。
- 误区:把"寒冬"归咎于技术失败。寒冬更多是期望与能力的错配——过度承诺撞上瓶颈,资金撤离。技术本身往往在低谷期默默积累,等算力/数据补齐再爆发(反向传播、神经网络在第二波时已存在,只是没条件规模化)。
- 误区:以为大模型摆脱了归纳偏置。Transformer 看似"通用",但其架构、tokenization、注意力都是强先验。所谓"规模即一切"也只是在特定数据-算力配比下成立的经验规律,并非物理定律。
小结
AI 三波浪潮回答的是同一个问题——“知识怎么进入机器”——的三种答案:手写规则、手写特征、自动学表示。每一波都解决了前一波的知识获取瓶颈,又制造了新的瓶颈,并在期望落空时陷入寒冬。今天的大模型站在第三波的顶点,但它在精确推理、可验证性、知识更新上的短板,正把前两波的思想以"工具调用、检索、约束求解"的形式重新请回来。看懂这条主线,你就不会把每一次进展都当成"这次不一样",也不会把每一次撞墙都当成"AI 又要凉了"。