假期终于有时间整理deepseek让人敬佩的技术演进之路了,一通看下来,三个深刻的体会:
1. 一切皆因美国卡脖子而起;
2. 每一项进展都是既有传承,又有创新;
3. Deepseek走出了一条研究型企业的技术之路: 那就是团队自发的激励机制会超过高校,商业价值会超过大厂。
感谢
@张小珺 ,访谈录兼备商业价值与技术价值,连续几篇的论文解读每篇至少听过三次,酣畅淋漓。
最后再来几个谨小慎微的参考:
1. NSA 是time scaling law的体现,且已经在小规模27B模型上跑通,极有可能是V4的关键技术。
2. 如果NSA在25倍于实验小模型(27B模型)上训练成功,那么我们有望看到模型的推理能力(COT)会再上一个台阶。
3. 如果1&2成立, Reasoning 模型可能很快会被基座模型吞掉。
4. NSA可以让预训练速度提升,目前在实验小模型上比普通的加速提升6-9倍,意味着基座模型的迭代速度可能会加快。
5. 结合online GRPO,模型的迭代速度绝对会与应用侧的需求迭代速度相匹配。