即刻App年轻人的同好社区
下载
App内打开
MLOasis
74关注115被关注0夸夸
机器学习&数据科学
Talk is cheap, Do something.
博客:mloasisblog.com
公众号:MLOasis
MLOasis
2天前
懂与不懂,都看自己心情,压力大就多休息,毕竟,少量的知识令人愉快,大量的知识令人作呕。
00
MLOasis
5天前
00
MLOasis
15天前
DeepSeek 的这两篇论文很值得一读,我觉得意图很明显了:“无限上下文”。

这很可能是范式的一种转变,如果在小模型上的试验能 scale up 到更大的模型:

- 抛弃 tokenizer,转向 Pixel,模型不是在读,而是在看?
- 高效的压缩比,记忆的问题是不是就能大大迈进一步了?

无限上下文,又是 RAG 已死?
既然都是 vision token 了,那 Browser Use 能力自然也就更强了?

看问题的角度一换,长上下文、记忆和多模态 3 个问题都同时能在同一个新范式下得到解决的可能,Bravo!

github.com

github.com
00
MLOasis
18天前
Andrej Karpathy: 如果我构建不了,我就不理解。我相信这是费曼的名言 。我一直坚信这一点,因为所有这些细微的东西都没有得到妥善安排,而你实际上并没有掌握这些知识。你只是自以为拥有这些知识。所以,不要写博客文章,不要做幻灯片,什么都不要做。编写代码,安排好,让它运行起来。这才是唯一的出路。否则,你就是在缺失知识。

啊,太难了🥲
00
MLOasis
22天前
Transformer 通过位置编码(PE)解决自注意力机制的位置无关性。原始 PE 利用不同频率的 sin/cos 函数,提供序列长度可扩展性并隐式编码相对位置信息,但存在信息耦合和长序列泛化性差的局限。

旋转位置嵌入(RoPE)通过对 Query/Key 向量进行旋转,显式地将相对位置信息编码到注意力机制中,理论上具有无限外推能力。然而,在实际超长上下文应用中,RoPE 仍面临性能下降,原因是模型未在训练中见过极端长距离的高频旋转模式。

为解决此问题,主要有两种扩展方法:

线性插值(PI):通过统一缩放位置索引,将长序列“压缩”回训练范围,简单有效但可能牺牲短距离高频信息的精度。

非线性缩放(YaRN):在 PI 基础上改进,结合了 NTK-aware(调整频率基数保护高频)、NTK-by-parts(按频率分段插值)和动态缩放(根据当前长度调整缩放因子)及温度缩放(稳定注意力分数),旨在更精细地平衡长短距离信息,实现更稳定、高效的超长上下文扩展。

Transformer 的提出已经约 8 年了,但在这期间,Transformer 的改进从未停止过,正如其位置编码的不断迭代一样。尽管人们不断呼吁下一个超越 Transformer 模型架构,也有很多学者尝试提出替代性的架构,例如基于 Mamba 等思路的模型,试图在长序列建模、计算效率或记忆机制上取得突破。

但是 Transformer 依然凭借其通用性、可扩展性以及强大的表示能力,稳坐深度学习的头把交椅。如今,“如何取代 Transformer” “如何让 Transformer 更高效、更具归纳偏置” 已成为研究者们思考的两条并行路线。

https://mp.weixin.qq.com/s/JVn4IdQd13rvxjXotDe10g

00
MLOasis
22天前
人在无语的时候确实想笑
00
MLOasis
23天前
00
MLOasis
1月前
如果说,睡眠是身体放松的最高形式,那么深度无聊则是精神放松的终极状态。一味的忙碌不会产生新事物。它只会重复或加速业已存在的事物。
00
MLOasis
1月前
9 月看得多一点
00
MLOasis
1月前
一篇涉猎范围超级广的模型介绍,模型推理综述以及模型训练综述,信息量巨大。
对该领域的从业人员都有很大的阅读价值(可以直接跳过第一部分的语言模型介绍

https://mp.weixin.qq.com/s/zUz5Y0DOFa2XL5AI_j34FA

00