DeekSeek分享了V3的insights!他们如何通过软硬件协同设计来应对sacling挑战,如何在内存效率、成本效益和推理速度方面取得平衡。
我先概括几个重点,原文精华更多!
1、内存效率
DeepSeek-V3面临的首要问题是内存墙 — 模型内存需求每年增长1000%,而高速HBM内存容量增长不到50%。主要用了两个方法应对:
- MLA:DeepSeek-V3每个token只需70KB,而LLaMA-3.1 405B需要516KB,节省了86%。
- FP8混合精度训练:把原来的BF16精度降为FP8,直接减少一半内存消耗。不过他们发现当前Hopper GPU的FP8累加精度有限制,建议未来硬件提供可配置的累加精度。
2、MoE架构
- DeepSeek-V3总共有671B参数,但每个token只激活37B参数。DeepSeek-V3每token只需250 GFLOPS,而405B的Dense模型需要2448 GFLOPS。
- 这意味着配备AI芯片的普通PC也能达到约20 tokens/秒的速度,足够个人使用。
3、提高推理速度的创新
- 计算与通信重叠:将MLA和MoE计算分成不同阶段,一个微批次在计算时,另一个在通信,实现了通信延迟和计算的完美重叠。
- Multi-Token Prediction:类似speculative decoding,让模型一次预测多个token并并行验证,实测可提升1.8倍生成速度。这对推理性能至关重要,特别是对于需要长推理序列的reasoning模型。
4、在集群网络方面,他们也有独到见解:
- 多平面双层胖树网络:相比传统三层胖树,这种结构能支持更多节点,同时降低延迟和成本。实测表明,该设计在维持性能的同时大幅降低了网络成本。
- 节点限制路由:考虑到节点内(NVLink,约160GB/s)和节点间(InfiniBand,约40GB/s)带宽差异,他们调整了专家选择算法,确保每个token最多路由到4个节点,减轻了节点间通信瓶颈。
论文还讨论了未来硬件发展的几个方向:比如scale-up和scale-out网络的融合、内存语义通信的优化等。
呼唤一下,我们想要R2[微笑R]
#AI工作流 #WWDC23 #AI工作流