国产大模型私有化部署与合规要点

很多企业选择 DeepSeek、Qwen、GLM 这类开源权重模型，核心诉求往往不是"省 API 费用"，而是数据不出域。金融、医疗、政务、制造等行业的数据有强监管约束，把业务数据发给外部 API 在合规上走不通，私有化部署就成了刚需。但私有化部署不是"把权重下载下来跑起来"这么简单，它牵涉硬件规划、推理优化、安全加固和合规审查。本文从工程视角梳理这些要点。涉及具体模型的许可证细节，本文只做一般性描述，实际请以官方 LICENSE 为准。

第一步：搞清楚自己要的是哪种"私有化"

私有化部署不是一个二元概念，至少有三个档位，对应不同的成本和合规强度：

公有云上的专属实例：在云厂商提供的 GPU 实例上自己部署模型。数据在传输和计算层面受云环境约束，适合对数据出域要求中等的场景。
混合部署：敏感数据和模型在本地 IDC，非敏感的弹性算力借助云。
完全离线（air-gapped）私有化：模型部署在企业内网，物理隔离，不连公网。这是合规要求最高的形态，金融核心、涉密政务常走这条路。

档位决定了后续所有工程决策。比如完全离线意味着你连模型权重、依赖包、镜像都得想办法离线导入，CI/CD 也要重新设计。先把这个定下来，再谈技术选型。

硬件与显存规划

私有化第一个绕不开的问题是：买多少卡、什么卡。这里需要对显存做容量规划，而不是拍脑袋。基本估算：

$M_{\text{total}} \approx M_{\text{weights}} + M_{\text{kv}} + M_{\text{overhead}}$

权重部分按精度估算（FP16 约 2 字节/参数，INT4 约 0.5 字节/参数）。但真正容易被低估的是 KV Cache，它随并发数和上下文长度线性增长：

$M_{\text{kv}} \approx 2 \times L_{\text{seq}} \times n_{\text{layers}} \times d_{\text{model}} \times B_{\text{bytes}} \times \text{concurrency}$

也就是说，同一个模型，单用户 demo 能跑，不代表 50 并发、每个 32K 上下文也能跑。规划时务必按目标并发 × 目标上下文长度来算 KV Cache，再留 10~20% 余量给框架开销和碎片。

实践建议：先确定 SLA（首 token 延迟、吞吐 QPS、最大上下文），再反推所需显存和卡数，最后选模型尺寸，而不是反过来。

推理框架与优化

私有化场景下推理效率直接关系到硬件采购成本，优化空间很大。常见手段：

1. 选对推理引擎。 vLLM、SGLang、TensorRT-LLM 等针对吞吐和显存做了大量优化，PagedAttention、Continuous Batching 这些能力对生产环境几乎是必需的。以 vLLM 启动一个 OpenAI 兼容服务为例：

vllm serve /data/models/your-model \
  --tensor-parallel-size 2 \
  --max-model-len 32768 \
  --max-num-seqs 64 \
  --gpu-memory-utilization 0.92 \
  --served-model-name internal-llm \
  --api-key "$INTERNAL_API_KEY"

2. 量化降本。 在精度可接受的前提下，用 AWQ / GPTQ 把权重压到 INT4/INT8，可显著降低显存占用和卡数需求。务必在自己的业务评测集上验证量化后的掉点幅度，不要直接信通用基准。

3. 多副本 + 负载均衡。 单实例之上用网关做横向扩展和限流，同时统一鉴权入口。一个典型的内网部署拓扑：

1	内网用户 → API 网关(鉴权/限流/审计) → 负载均衡 → [vLLM 副本 × N] → GPU 集群

网关层是合规审计的关键卡点，下面展开。

安全加固清单

私有化不等于自动安全。模型服务暴露在企业内网，同样面临攻击面，需要系统加固：

鉴权与最小权限：推理服务绝不裸奔，所有调用经网关鉴权（API Key / OIDC），按部门或应用做配额隔离。
传输与存储加密：内网也启用 TLS；模型权重、向量库、日志按需加密存储。
输入输出审计：在网关层记录请求与响应（按合规要求脱敏后留存），既满足审计，也方便事后追溯滥用。
提示注入与越权防护：尤其是接了 RAG 或工具调用的场景，要对检索内容和工具权限做边界控制，防止 prompt injection 导致越权操作或数据泄露。
输出过滤：对生成内容做敏感信息与合规过滤，避免模型把训练或检索到的敏感数据原样吐出。

合规要点

合规是私有化部署里最容易被工程团队忽视、却最可能踩雷的部分。几条核心：

许可证审查前置。开源模型的许可条款差异很大，对商用、二次分发、蒸馏、署名等可能有不同约束。上线前请法务逐字审查官方 LICENSE，以官方文件为准，不要凭社区印象判断商用是否合规。
数据安全与出境。私有化的核心价值就是数据不出域，所以要确保整条链路（推理、日志、向量库、备份）都在合规边界内。涉及个人信息的，要符合数据分类分级、最小必要、留存期限等要求；涉及跨境的，按数据出境相关规定单独评估。
可追溯与可审计。监管通常要求 AI 系统的输入输出、模型版本、决策依据可追溯。建议从一开始就把请求 ID、模型版本、Prompt 模板版本写进审计日志。
模型与依赖的供应链安全。离线环境下，模型权重、Python 依赖、容器镜像都要走可信来源并做完整性校验（如校验权重文件 hash），避免引入被污染的产物。
生成内容的责任边界。明确模型输出在业务流程中的定位（辅助 vs 自动决策），高风险场景保留人工复核，并在产品上做好告知。

小结

国产大模型私有化部署的真正难点不在"跑起来"，而在于把硬件规划、推理优化、安全加固和合规审查当成一个系统工程统筹推进——先定清楚部署档位和 SLA，再反推架构，最后让法务和安全在上线前就介入，许可证一律以官方 LICENSE 为准，才能既吃到开源红利又不在合规上栽跟头。