DeepSeek这一段时间,在海内外名声大噪,在海外英伟达因为他市值暴跌,美国总统川普特意强调他的厉害,Openai的sam谈论他时,可能因为星际之门要破产,从而眼神出现了没落,Claude直接发文称要美国封禁芯片产业,以防止中国的AI超过美国。
而在国内上到老人,下到孩童,不管你是在一线城市,还是乡镇之中,在春节之间都在讨论的一个话题就是:DeepSeek!
当我们在感慨Deepseek写的文章为什么如此丝滑,惊艳,并且在不断的繁忙中感叹时,一个问题映入了我的眼帘:国内大模型这么多,为什么是一个不到200人的DeepSeek站了出来?而不是那些大厂?Deepseek到底比其他模型的优势在哪?
被诅咒的大厂
早在2022年底的时候,Chatgpt的出现让人世界上所有人都为之一惊,与以往的人工智障不同,他仿佛就像一个人一般拥有高情商的回复,高智商的表现,一波又一波的发酵,即使openai针对国内ip进行封锁,也挡不住人们的热情,那时候人们仿佛看到“贾维斯”般的的魔力,相信科幻世界中的那个智能时代即将降临,就在openai发布没多久的时候,国内大厂这个时候也是一脸懵逼,这个东西为什么这么厉害,可惜的是openai放出的信息并不多,仅有一篇InstructGPT指出了路,但并没有更多的细节放出。
这里简单总结下大模型的训练基本可以分为三个阶段:
预训练,微调,对齐。
预训练:
可以想像模型就像是一个小孩子,啥都不会,我们把很多的知识内容灌输给他,让他学习内容。
微调:
可以想像成模型现在要读某个方面的博士,强化他这个方面的能力,可以是医学,文学,计算机等。
强化对齐:
可以想像模型现在学了很多知识,但他人品不能不行啊,需要学习各种礼仪道德,要符合我们社会指定的规则(比如不能说脏话,要有礼貌等)
既然路放出来了,大厂们有资源有人那岂不是分分钟就能赶上?于是乎这一阶段,很多公司都宣布自己的模型马上就要出来,诚然有资源,有人确实能砸出来一个相似的模型,但内部之间的党派之争,较多高层的尸位素餐,以及无休止的赛马与数不清的okr,导致更多的人只能选择较为稳健与成熟的路线,而少了很多的创新,但这样跟在别人后边,真的能成吗???
年轻的天才
从Deepseek发布的一系列文章看起,如果让用两个词来形容的话,那就是:年轻,原创。
首先可以看到他们的文章在不断的解决行业的很多痛点。
比如MLA大大减少了推理阶段的效率和资源消耗
比如GRPO,改进了PPO训练效率低下的问题,
比如改进的MoE通过动态路由机制,只激活与输入相关的专家模型,减少计算资源的浪费。
从这里可以看出他们解决问题的方式:从事物的本质出发,从根本解决问题,而不是跟在别人的屁股后边x去雕花。
其次在看他们文章的时候,还会发现这些人是多么的年轻,各种应届毕业生,甚至还有在读没有毕业的学生,这不由的让我想到,年轻人的创造力真的是无穷的。
也正是由这些年轻人不断的创新,创造,才出现了整个春节都令人振奋的事情,Deepseek-R1-Zero,那么R1-Zero到底比其他模型强在哪里?这里主要有两点。
算力节省
Deepseek一己之力干碎了英伟达的股价,因为他的架构大大的减少了算力,利用少量的算力达到了好的效果。
强化学习
这里就是deepseek要优于其他模型的核心,既在把模型进行预训练过后,直接进行强化学习,不需要微调,让他学习专精领域知识,也不需要告诉我们所制定的“规则”,完全让他像当年的alphazero,只告诉他结果,让他左右手互搏即可,这一点是让我非常惊艳的一部分,难道我们人类所制定的规则,所学到的知识与方向就一定是对的吗?最终果然出现了那个Aha Moment,
用户:使用数字[19,36,55,7]创建一个等于65的方程。
助手:让我一步一步地解决这个问题。
<think> 我们需要找到使用数字19,36,55和7恰好一次,并使用基本的算术运算,等于65的方程。一种可能的组合是55 + 36 - 19 + 7。
等一下,等一下,让我们重新评估一下:55 + 36 = 91,91 - 19 = 72,72 + 7 = 79。
然而,这不等于65。另一种组合是55 + 36 + 7 - 19。稍等一下,我们在重新进行评估:55 + 36 = 91,91 + 7 = 98,98 - 19 = 79。
这也不等于65。如果我们尝试55 + 36 - 7 - 19,我们得到55 + 36 = 91,91 - 7 = 84,84 - 19 = 65。这等于65。</think>
<answer> 55 + 36 - 7 - 19 </answer>
模型开始真正的像一个人去思考,去对刚刚自己做的内容对错去进行复盘,反思,而不是机械的记忆输出。
宏大的愿景
从不拘一格的相信年轻人的创造力,到不急于求成的商业变现,始终保持着AGI的初心,Deepseek一切串起来的灵魂人物:梁文锋,这一段时间对这个大名鼎鼎的人物,已经有不少的报道,而那句:
我的愿景不仅仅是推动AI技术的进步,更希望通过技术赋能,为人类创造更多价值。
真正伟大的从不是某个模型,而是千万普通人用它创造的善意涟漪。
更是让人感动不已。
我相信正式创始人这种不往初心的心态,才能把Deepseek推向这成功的一步。
犹记2024年,从黑神话的冯骥,到哪吒的饺子,再到deepseek的梁文峰,他们身上都有一个特点,那就是不忘初心,坚持不懈。
也许正应了那句话,他们的目标是:星辰大海。。。