近两年,“大模型”几乎成了所有技术讨论的核心。但在实际工程中,很多人 会用,却并不真正理解它

本文尝试从 原理 → 训练 → 推理 → 工程落地 四个层面,系统性地介绍什么是大语言模型(LLM)。


一、什么是大语言模型(LLM)

大语言模型(Large Language Model),本质是一个:

在海量文本上训练的概率模型

它做的事情只有一件:

给定上文,预测下一个最可能出现的 token

例如:

今天天气很

模型并不“理解天气”,
它只是根据统计和参数计算,认为:

好 / 热 / 不错

的概率最高。


二、LLM 的核心技术基础

1️⃣ Transformer 架构

几乎所有现代大模型,都基于 Transformer

核心思想:

  • 不再使用 RNN
  • 使用 Self-Attention 关注上下文关系
  • 天然支持并行计算

Transformer 带来的最大变化是:

模型可以“同时看完整句话”


2️⃣ Token 与向量空间

模型并不理解“字”和“词”,而是:

文本 → Token → 向量

  • Token:子词或符号
  • 向量:高维数值表示(如 4096 维)

在模型眼里:

世界是一个高维向量空间


3️⃣ 参数规模为什么重要

参数量越大:

  • 表达能力越强
  • 可拟合的分布越复杂
  • 涌现能力(Emergent Ability)越明显

但代价是:

  • 显存占用大
  • 推理成本高
  • 工程复杂度急剧上升

三、大模型是如何训练出来的

1️⃣ 预训练(Pre-training)

使用海量通用数据:

  • 网页
  • 书籍
  • 代码
  • 论文

训练目标非常简单:

预测下一个 token

这是一个 纯自监督学习过程


2️⃣ 指令微调(Instruction Tuning)

让模型学会“听人话”:

1
2
3
4
{
"instruction": "解释什么是 TCP",
"output": "TCP 是一种面向连接的传输协议..."
}

这一步决定了模型是否“好用”。

3️⃣ 对齐训练(RLHF / DPO)
核心目标:

更安全

更符合人类价值

更少胡说八道

引入:

人类反馈

偏好数据

奖励模型

四、大模型真的“懂”吗?
这是一个非常关键的问题。

结论是:

模型并不理解世界,它只理解模式

但当模型足够大时,会出现:

推理能力

代码能力

跨领域迁移能力

这被称为:

涌现能力

从工程角度看:

是否“真的懂”并不重要,是否“稳定可用”才重要

五、大模型推理阶段发生了什么
1️⃣ 推理 ≠ 训练
推理阶段只做三件事:

1、Tokenize 输入

2、前向计算

3、按策略采样输出

常见参数:

1
2
3
4
5
temperature

top-k

top-p

2️⃣ 推理性能瓶颈
工程上真正卡的是:

显存 KV、 Cache、 并发请求、首 token 延迟

所以才会有:
vLLM、TensorRT-LLM、Triton Inference Server

六、大模型的工程化挑战
1️⃣ 模型 ≠ 服务
模型要变成产品,必须解决:

并发控制 超时 限流 熔断 灰度发布

2️⃣ 常见工程架构
[ 前端 / 业务系统 ]

[ LLM Gateway ]

[ 推理服务(Python / C++) ]

[ GPU / 推理引擎 ]

业务系统通常 不会直接调用模型进程。

3️⃣ 为什么常见是 Java + Python
Java:业务稳定性、并发能力

Python:模型生态、开发效率

这是目前最现实的工程组合。

七、大模型的能力边界
必须清醒认识:

❌ 不可靠的事实

❌ 容易幻觉

❌ 长链路推理仍不稳定

工程解决方案包括:

RAG(检索增强)、工具调用、规则兜底、人类校验

八、大模型的未来趋势(工程视角)
模型会更大,也会更小

推理成本持续下降

私有化部署需求上升

Agent 会成为重要形态

但可以确定的是:

AI 的价值,最终取决于工程落地能力

九、总结
大模型不是魔法,而是:
数学、数据、算力、工程的综合产物。

对工程师来说,真正重要的不是“会不会用模型”,
而是:

如何把不完美的模型,变成稳定可靠的系统