很多企业选择 DeepSeek、Qwen、GLM 这类开源权重模型,核心诉求往往不是"省 API 费用",而是数据不出域。金融、医疗、政务、制造等行业的数据有强监管约束,把业务数据发给外部 API 在合规上走不通,私有化部署就成了刚需。但私有化部署不是"把权重下载下来跑起来"这么简单,它牵涉硬件规划、推理优化、安全加固和合规审查。本文从工程视角梳理这些要点。涉及具体模型的许可证细节,本文只做一般性描述,实际请以官方 LICENSE 为准。
第一步:搞清楚自己要的是哪种"私有化"
私有化部署不是一个二元概念,至少有三个档位,对应不同的成本和合规强度:
- 公有云上的专属实例:在云厂商提供的 GPU 实例上自己部署模型。数据在传输和计算层面受云环境约束,适合对数据出域要求中等的场景。
- 混合部署:敏感数据和模型在本地 IDC,非敏感的弹性算力借助云。
- 完全离线(air-gapped)私有化:模型部署在企业内网,物理隔离,不连公网。这是合规要求最高的形态,金融核心、涉密政务常走这条路。
档位决定了后续所有工程决策。比如完全离线意味着你连模型权重、依赖包、镜像都得想办法离线导入,CI/CD 也要重新设计。先把这个定下来,再谈技术选型。
硬件与显存规划
私有化第一个绕不开的问题是:买多少卡、什么卡。这里需要对显存做容量规划,而不是拍脑袋。基本估算:
权重部分按精度估算(FP16 约 2 字节/参数,INT4 约 0.5 字节/参数)。但真正容易被低估的是 KV Cache,它随并发数和上下文长度线性增长:
也就是说,同一个模型,单用户 demo 能跑,不代表 50 并发、每个 32K 上下文也能跑。规划时务必按目标并发 × 目标上下文长度来算 KV Cache,再留 10~20% 余量给框架开销和碎片。
实践建议:先确定 SLA(首 token 延迟、吞吐 QPS、最大上下文),再反推所需显存和卡数,最后选模型尺寸,而不是反过来。
推理框架与优化
私有化场景下推理效率直接关系到硬件采购成本,优化空间很大。常见手段:
1. 选对推理引擎。 vLLM、SGLang、TensorRT-LLM 等针对吞吐和显存做了大量优化,PagedAttention、Continuous Batching 这些能力对生产环境几乎是必需的。以 vLLM 启动一个 OpenAI 兼容服务为例:
1 | vllm serve /data/models/your-model \ |
2. 量化降本。 在精度可接受的前提下,用 AWQ / GPTQ 把权重压到 INT4/INT8,可显著降低显存占用和卡数需求。务必在自己的业务评测集上验证量化后的掉点幅度,不要直接信通用基准。
3. 多副本 + 负载均衡。 单实例之上用网关做横向扩展和限流,同时统一鉴权入口。一个典型的内网部署拓扑:
1 | 内网用户 → API 网关(鉴权/限流/审计) → 负载均衡 → [vLLM 副本 × N] → GPU 集群 |
网关层是合规审计的关键卡点,下面展开。
安全加固清单
私有化不等于自动安全。模型服务暴露在企业内网,同样面临攻击面,需要系统加固:
- 鉴权与最小权限:推理服务绝不裸奔,所有调用经网关鉴权(API Key / OIDC),按部门或应用做配额隔离。
- 传输与存储加密:内网也启用 TLS;模型权重、向量库、日志按需加密存储。
- 输入输出审计:在网关层记录请求与响应(按合规要求脱敏后留存),既满足审计,也方便事后追溯滥用。
- 提示注入与越权防护:尤其是接了 RAG 或工具调用的场景,要对检索内容和工具权限做边界控制,防止 prompt injection 导致越权操作或数据泄露。
- 输出过滤:对生成内容做敏感信息与合规过滤,避免模型把训练或检索到的敏感数据原样吐出。
合规要点
合规是私有化部署里最容易被工程团队忽视、却最可能踩雷的部分。几条核心:
-
许可证审查前置。开源模型的许可条款差异很大,对商用、二次分发、蒸馏、署名等可能有不同约束。上线前请法务逐字审查官方 LICENSE,以官方文件为准,不要凭社区印象判断商用是否合规。
-
数据安全与出境。私有化的核心价值就是数据不出域,所以要确保整条链路(推理、日志、向量库、备份)都在合规边界内。涉及个人信息的,要符合数据分类分级、最小必要、留存期限等要求;涉及跨境的,按数据出境相关规定单独评估。
-
可追溯与可审计。监管通常要求 AI 系统的输入输出、模型版本、决策依据可追溯。建议从一开始就把请求 ID、模型版本、Prompt 模板版本写进审计日志。
-
模型与依赖的供应链安全。离线环境下,模型权重、Python 依赖、容器镜像都要走可信来源并做完整性校验(如校验权重文件 hash),避免引入被污染的产物。
-
生成内容的责任边界。明确模型输出在业务流程中的定位(辅助 vs 自动决策),高风险场景保留人工复核,并在产品上做好告知。
小结
国产大模型私有化部署的真正难点不在"跑起来",而在于把硬件规划、推理优化、安全加固和合规审查当成一个系统工程统筹推进——先定清楚部署档位和 SLA,再反推架构,最后让法务和安全在上线前就介入,许可证一律以官方 LICENSE 为准,才能既吃到开源红利又不在合规上栽跟头。