即刻App年轻人的同好社区
下载
App内打开
misc
1k关注17被关注0夸夸
misc
26天前
世贸组织还活着?

少即是多:

00
misc
3月前
00
misc
3月前
感觉这两个还会是趋势 继续attention加速、让模型有记忆能力(你说的边推边学包含这个吧) //@罗X: test time training

罗X: 今年的趋势 1、端侧模型,替代云端token 2、边推边学,替代纯推理 3、保密

00
misc
3月前
李飞飞 团队论文进一步验证,SFT精挑细选1千条样本就能让效果不错,不用那么多,说明从个人提升角度,绝大多数事情都是无意义,只有极少数才能从中获得提升

徐文浩: 其实 R1 的训练过程和人的学习成长特别像。SFT Memorize,RL Generalize。所以打工别打太长时间,学会了基本格式就尽量去真实世界RL就好了。 模型需要非常好的 Pre-Train,并且数据质量要高。对人来说,就是要好的通识角度,博览群书,啥科目都要看看,而且要多看教科书,少看低质量短视频和网络帖子。 然后 SFT 帮助你能够强化记忆和能力,基本上大家专门学习特定的专业,以及去大厂打工都是这个逻辑。在某一个领域还是需要监督学习,做题也好,在公司里收到立刻短时过程反馈。 但是 SFT 有个缺点,就是 Overfit,一旦遇到分布外的数据表现急剧下降。所以如果一门心思在大厂打工,习惯了短时的公司内反馈,一旦遇到现在这种行业大变化,离开大厂就会非常痛苦,实际解决真实世界问题的能力并没有那么好。 但是 RL 有很强的泛化能力,所谓人教人不会,事儿教人一教就会。融资创业也好,做个小生意也好,被“稀疏奖励”的现实世界抽两个大嘴巴子立刻就成长了。 但是完全从 RL 学习又很难,所以 RL-Zero 那种一毕业就创业还是很难的。最好是先简单 SFT 一下,拿一点“格式奖励”,学会做事情的基本套路,再跑出来让现实世界对自己打脸。不过千万别长期SFT下去。 Pre-Train => 简单SFT => 然后依赖RL 可以获得最好的泛化能力。

00
misc
4月前
"我有一个暴论:良好的合作不需要靠私人关系来维系。" 需要找到一个好组织

鲁彼特: 有的人,你合作过一两次就知道,这个人大概率不会有什么上升空间。 说的更直白点,职场上没有晋升机会,生意场上别人不会给合作机会。 但对方往往自己是不清楚的,还以为是不是厚黑学读的太少,是不是还不够精明,不够功利,关系没搞到位啊。 其实原因很简单,如果把人比作一个产品,这个人给别人的用户体验很差。 完全没有受人之托,忠人之事的感觉。把零和博弈嵌入了骨子里。 大概是预训练的时候吃了太多脏数据,也没经过监督微调,篡改奖励函数通过测试,就走上社会了。 但反正凑合着当个人力用吧,但往上就很难。 本质是不懂如何在共赢的框架下拿到结果。以为成功就是靠搞关系。 这是山脚下的人看山顶时的臆想。 我有一个暴论:良好的合作不需要靠私人关系来维系。 之所以发展私人关系,本质是因为契约不完备,信息不对称,道德风险很高。 但如果你足够聪明,又善于营造共赢机会,让别人自然而然披露私有信息,你不需要去搞关系,也能办成各种事情。 这样的人,在任何组织里都是宝贝。 这才叫领袖才能。能够让集体利益最大化,在这个前提下,实现自己的利益。 你看,就算是阐教里的反派无量仙翁,他也是在最大化阐教弟子的利益,不惜去干脏活,背骂名。他对人类和妖族是反派,但对他所在的组织,可谓是问心无愧。 绝不是干一点活就马上要回报,这只是追求个人利益最大化。结果就是牛马命(巴不得领计件工资),不是拿王子/大女主的剧本。 推荐去看《最强大脑第九季》,提出了人类最高级智慧 level k 的标准:不止自己足够聪明,能够完成任务,还要帮助集体完成任务。 而且这些选手大都是第一次见,没有什么私人关系。并不妨碍他们达成合作! 这才是向上走的终极之道。 算了,蠢可能没什么办法治。

00