即刻App年轻人的同好社区
下载
App内打开
请叫我小逸啊
1关注1被关注0夸夸
大厂算法工程师,正在脱离技术思维…
请叫我小逸啊
2月前
DeepSeek这一段时间,在海内外名声大噪,在海外英伟达因为他市值暴跌,美国总统川普特意强调他的厉害,Openai的sam谈论他时,可能因为星际之门要破产,从而眼神出现了没落,Claude直接发文称要美国封禁芯片产业,以防止中国的AI超过美国。
而在国内上到老人,下到孩童,不管你是在一线城市,还是乡镇之中,在春节之间都在讨论的一个话题就是:DeepSeek!
当我们在感慨Deepseek写的文章为什么如此丝滑,惊艳,并且在不断的繁忙中感叹时,一个问题映入了我的眼帘:国内大模型这么多,为什么是一个不到200人的DeepSeek站了出来?而不是那些大厂?Deepseek到底比其他模型的优势在哪?
被诅咒的大厂
早在2022年底的时候,Chatgpt的出现让人世界上所有人都为之一惊,与以往的人工智障不同,他仿佛就像一个人一般拥有高情商的回复,高智商的表现,一波又一波的发酵,即使openai针对国内ip进行封锁,也挡不住人们的热情,那时候人们仿佛看到“贾维斯”般的的魔力,相信科幻世界中的那个智能时代即将降临,就在openai发布没多久的时候,国内大厂这个时候也是一脸懵逼,这个东西为什么这么厉害,可惜的是openai放出的信息并不多,仅有一篇InstructGPT指出了路,但并没有更多的细节放出。
这里简单总结下大模型的训练基本可以分为三个阶段:
预训练,微调,对齐。
预训练:
可以想像模型就像是一个小孩子,啥都不会,我们把很多的知识内容灌输给他,让他学习内容。
微调:
可以想像成模型现在要读某个方面的博士,强化他这个方面的能力,可以是医学,文学,计算机等。
强化对齐:
可以想像模型现在学了很多知识,但他人品不能不行啊,需要学习各种礼仪道德,要符合我们社会指定的规则(比如不能说脏话,要有礼貌等)
既然路放出来了,大厂们有资源有人那岂不是分分钟就能赶上?于是乎这一阶段,很多公司都宣布自己的模型马上就要出来,诚然有资源,有人确实能砸出来一个相似的模型,但内部之间的党派之争,较多高层的尸位素餐,以及无休止的赛马与数不清的okr,导致更多的人只能选择较为稳健与成熟的路线,而少了很多的创新,但这样跟在别人后边,真的能成吗???
年轻的天才
从Deepseek发布的一系列文章看起,如果让用两个词来形容的话,那就是:年轻,原创。
首先可以看到他们的文章在不断的解决行业的很多痛点。
比如MLA大大减少了推理阶段的效率和资源消耗
比如GRPO,改进了PPO训练效率低下的问题,
比如改进的MoE通过动态路由机制,只激活与输入相关的专家模型,减少计算资源的浪费。
从这里可以看出他们解决问题的方式:从事物的本质出发,从根本解决问题,而不是跟在别人的屁股后边x去雕花。
其次在看他们文章的时候,还会发现这些人是多么的年轻,各种应届毕业生,甚至还有在读没有毕业的学生,这不由的让我想到,年轻人的创造力真的是无穷的。
也正是由这些年轻人不断的创新,创造,才出现了整个春节都令人振奋的事情,Deepseek-R1-Zero,那么R1-Zero到底比其他模型强在哪里?这里主要有两点。
算力节省
Deepseek一己之力干碎了英伟达的股价,因为他的架构大大的减少了算力,利用少量的算力达到了好的效果。
强化学习
这里就是deepseek要优于其他模型的核心,既在把模型进行预训练过后,直接进行强化学习,不需要微调,让他学习专精领域知识,也不需要告诉我们所制定的“规则”,完全让他像当年的alphazero,只告诉他结果,让他左右手互搏即可,这一点是让我非常惊艳的一部分,难道我们人类所制定的规则,所学到的知识与方向就一定是对的吗?最终果然出现了那个Aha Moment,

用户:使用数字[19,36,55,7]创建一个等于65的方程。

助手:让我一步一步地解决这个问题。

<think> 我们需要找到使用数字19,36,55和7恰好一次,并使用基本的算术运算,等于65的方程。一种可能的组合是55 + 36 - 19 + 7。
等一下,等一下,让我们重新评估一下:55 + 36 = 91,91 - 19 = 72,72 + 7 = 79。
然而,这不等于65。另一种组合是55 + 36 + 7 - 19。稍等一下,我们在重新进行评估:55 + 36 = 91,91 + 7 = 98,98 - 19 = 79。
这也不等于65。如果我们尝试55 + 36 - 7 - 19,我们得到55 + 36 = 91,91 - 7 = 84,84 - 19 = 65。这等于65。</think>
<answer> 55 + 36 - 7 - 19 </answer>

模型开始真正的像一个人去思考,去对刚刚自己做的内容对错去进行复盘,反思,而不是机械的记忆输出。
宏大的愿景
从不拘一格的相信年轻人的创造力,到不急于求成的商业变现,始终保持着AGI的初心,Deepseek一切串起来的灵魂人物:梁文锋,这一段时间对这个大名鼎鼎的人物,已经有不少的报道,而那句:
我的愿景不仅仅是推动AI技术的进步,更希望通过技术赋能,为人类创造更多价值。

真正伟大的从不是某个模型,而是千万普通人用它创造的善意涟漪。
更是让人感动不已。
我相信正式创始人这种不往初心的心态,才能把Deepseek推向这成功的一步。
犹记2024年,从黑神话的冯骥,到哪吒的饺子,再到deepseek的梁文峰,他们身上都有一个特点,那就是不忘初心,坚持不懈。
也许正应了那句话,他们的目标是:星辰大海。。。
00
请叫我小逸啊
5月前
笑死,真的是被我昨天一语命中,果然是在搞营销…最后结果发布了完整版的o1,然后你需要花200刀来开个o1 pro来使用,他真的比Claude好多少??敢这样?这就像在职场中一个天天吹比画大饼,一个真材实料的干,结果天天画大饼的升职加薪,凭什么?忽然血压上来了,这波在给Claude续个费…
00
请叫我小逸啊
5月前
今天看到消息说苹果对文心的能力表示怀疑,不知真假,说实话发展了了这么久了,依然赶不上oai,更不用说Claude了…要我说苹果你还是自研吧,可以看出来苹果很着急,等着Ai拉销量呢…
00
请叫我小逸啊
5月前
现在oai的效果是越来越比不上Claude了,用户不断的流失,不知道这12天会带来啥惊喜,还是说再一次的营销……
00
请叫我小逸啊
6月前
今天就是总决赛全华班 BLG vs SKT了,印象当中那句口头禅:“我跟Faker五五开”,“我经常单杀他”,的采访还历历在目,距离上次全华班进入决赛已经过了11年,我也从那个烫着锡纸烫,跟几个兄弟在网吧,大喊大叫的少年,变成了一个满身班味的社畜,作为一个水平很低的玩家,想着是不是能用AI帮忙分析下T1的弱点,帮助全华班能翻越那座大山,打倒大魔王,夺下那真正属于我们的奖杯,我觉得那不仅仅是一座奖杯,更是承载了我的整个青春…

BLG VS SKT,这次我想用AI帮全华班赢一次

00
请叫我小逸啊
9月前
Deepseek,说实话是一个耐心做基础模型的公司,不像某些厂商天天打广告,这个0.1元的价格,真的是打爆其他国内任何模型,而且Deepseek在代码方面的性能,我认为是仅次于Claude3的模型,不骄不躁,耐心做技术的公司,不多见了…
00
请叫我小逸啊
9月前
前一段看到海螺的Ai悬浮窗确实不错,但是在IPhone上的体验一言难尽,个人觉得手机上使用的理想态可能是,操作起来丝滑,顺畅无比,就像内置系统的apple intelegence一样,才是一个终极状态,下面通过一个实现一个简单的日历助手,来表达我个人认为的理想态(这里没有进行语音,其实中间替换一下功能即可)在apple watch上也能操作设定,试想一下,当我需要安排日程的时候,我只需要抬起手腕,让Siri通通帮我解决。
01:14
00
请叫我小逸啊
10月前
WWDC,这次最大的更新莫过于Siri的更新了,让Ai融入生活,而不是特意的打开工具才是一个真正的理想态,不过鉴于目前就算升级了IOS18也没有Siri的更新,我就先让我的Siri接入Ai,体验一下智能的Siri。#WWDC24 #苹果春季发布会 #iOS版本更新

苹果WWDC过后,我的Siri接入了AI。

00
请叫我小逸啊
11月前
搞了个快捷指令,gpt4o接入iphone,套用了朋友的相亲/面相prompt,后续可以接拍照翻译,siri,也在尝试通过gpt4直接订外卖,为ios18预热一下。

利用IPhone快捷指令接入GPT4o,让Ai真正实用起来。

00
请叫我小逸啊
1年前
一觉醒了,Claude3,发布了,不过大多数都是自媒体在狂欢,而且要花20刀,还老是封号,好贵…
00