DeepSeek刚刚在自己的公众号发了篇文章去阐述昨晚新发布的R1-0528版本的一些特性。
最主要的几个信息如下:
1、这次训练用的基座模型不是V3-0324模型,也不是V4或任何新模型,而是和R1用的完全相同的12月底的V3模型,但是跑分却大幅度提升,这说明DeepSeek在后训练上还有很多了不得的新认知,想象一下如果给DeepSeek一个类似Grok3的大尺寸基座模型会怎么样?所以未来还完全可期
2、按现在的节奏,我们真正该期待的下一个模型是V4,而不是R2,毕竟这个基座模型已经过去接近半年,该到更新时刻了;
3、模型的推理能力大幅提升,这主要得益于模型进行了更长token的深度思考,这倒是没什么颠覆认知的东西;
4、模型的幻觉下降50%,写作能力大幅度改善,用DeepSeek开始自媒体内容创作,或者出海电商、SEO内容撰写等方面有更多机会了;
5、工具调用能力大幅度提升,但是比Claude4有差距,那说明现在最好的结合IDE的编程模型还会是Claude4;
6、官方的网站、app和api最长上下文token是64k(我估计是为了成本考虑,但确实太短了,没法用来复杂项目编程),开源模型第三方部署后支持的上下文长度是128k,属于正常但不那么够用的长度,希望下个阶段能改善。
感谢DeepSeek的这一波端午大礼,期待他们的下一次发布。