近两年,“大模型”几乎成了所有技术讨论的核心。但在实际工程中,很多人 会用,却并不真正理解它。
本文尝试从 原理 → 训练 → 推理 → 工程落地 四个层面,系统性地介绍什么是大语言模型(LLM)。
一、什么是大语言模型(LLM)
大语言模型(Large Language Model),本质是一个:
在海量文本上训练的概率模型
它做的事情只有一件:
给定上文,预测下一个最可能出现的 token
例如:
今天天气很
模型并不“理解天气”,
它只是根据统计和参数计算,认为:
好 / 热 / 不错
的概率最高。
二、LLM 的核心技术基础
1️⃣ Transformer 架构
几乎所有现代大模型,都基于 Transformer。
核心思想:
- 不再使用 RNN
- 使用 Self-Attention 关注上下文关系
- 天然支持并行计算
Transformer 带来的最大变化是:
模型可以“同时看完整句话”
2️⃣ Token 与向量空间
模型并不理解“字”和“词”,而是:
文本 → Token → 向量
- Token:子词或符号
- 向量:高维数值表示(如 4096 维)
在模型眼里:
世界是一个高维向量空间
3️⃣ 参数规模为什么重要
参数量越大:
- 表达能力越强
- 可拟合的分布越复杂
- 涌现能力(Emergent Ability)越明显
但代价是:
- 显存占用大
- 推理成本高
- 工程复杂度急剧上升
三、大模型是如何训练出来的
1️⃣ 预训练(Pre-training)
使用海量通用数据:
- 网页
- 书籍
- 代码
- 论文
训练目标非常简单:
预测下一个 token
这是一个 纯自监督学习过程。
2️⃣ 指令微调(Instruction Tuning)
让模型学会“听人话”:
1 | { |
这一步决定了模型是否“好用”。
3️⃣ 对齐训练(RLHF / DPO)
核心目标:
更安全
更符合人类价值
更少胡说八道
引入:
人类反馈
偏好数据
奖励模型
四、大模型真的“懂”吗?
这是一个非常关键的问题。
结论是:
模型并不理解世界,它只理解模式
但当模型足够大时,会出现:
推理能力
代码能力
跨领域迁移能力
这被称为:
涌现能力
从工程角度看:
是否“真的懂”并不重要,是否“稳定可用”才重要
五、大模型推理阶段发生了什么
1️⃣ 推理 ≠ 训练
推理阶段只做三件事:
1、Tokenize 输入
2、前向计算
3、按策略采样输出
常见参数:
1 | temperature |
2️⃣ 推理性能瓶颈
工程上真正卡的是:
显存 KV、 Cache、 并发请求、首 token 延迟
所以才会有:
vLLM、TensorRT-LLM、Triton Inference Server
六、大模型的工程化挑战
1️⃣ 模型 ≠ 服务
模型要变成产品,必须解决:
并发控制 超时 限流 熔断 灰度发布
2️⃣ 常见工程架构
[ 前端 / 业务系统 ]
↓
[ LLM Gateway ]
↓
[ 推理服务(Python / C++) ]
↓
[ GPU / 推理引擎 ]
业务系统通常 不会直接调用模型进程。
3️⃣ 为什么常见是 Java + Python
Java:业务稳定性、并发能力
Python:模型生态、开发效率
这是目前最现实的工程组合。
七、大模型的能力边界
必须清醒认识:
❌ 不可靠的事实
❌ 容易幻觉
❌ 长链路推理仍不稳定
工程解决方案包括:
RAG(检索增强)、工具调用、规则兜底、人类校验
八、大模型的未来趋势(工程视角)
模型会更大,也会更小
推理成本持续下降
私有化部署需求上升
Agent 会成为重要形态
但可以确定的是:
AI 的价值,最终取决于工程落地能力
九、总结
大模型不是魔法,而是:
数学、数据、算力、工程的综合产物。
对工程师来说,真正重要的不是“会不会用模型”,
而是:
如何把不完美的模型,变成稳定可靠的系统