DeepSeek-V4 系列的预览版本包括两个混合专家(MoE)语言模型,两者都支持最长 100 万 token 的上下文长度:
DeepSeek-V4-Pro:总参数量 1.6 万亿(激活参数 490 亿)
DeepSeek-V4-Flash:总参数量 2840 亿(激活参数 130 亿)
DeepSeek-V4 系列在架构与优化方面进行了多项关键升级。
混合注意力架构:
结合了压缩稀疏注意力(Compressed Sparse Attention, CSA)与重度压缩注意力(Heavily Compressed Attention, HCA),以提升长上下文场景下的效率。
流形约束超连接:
Manifold-Constrained Hyper-Connections(mHC)对传统残差连接进行了增强。
Muon 优化器:
带来了更快的收敛速度以及更强的训练稳定性。
在 100 万 token 上下文设置下,DeepSeek-V4-Pro 相比 DeepSeek-V3.2:
单 token 推理 FLOPs 仅需其 27%
KV Cache 仅需其 10%