MLOasis的个人主页

即刻App年轻人的同好社区

下载

App内打开

MLOasis

74关注121被关注0夸夸

机器学习&数据科学
Talk is cheap, Do something.
博客：mloasisblog.com
公众号：MLOasis

MLOasis

3天前

0 00

MLOasis

8天前

分享下近期阅读的各种内容

https://mp.weixin.qq.com/s/E958sbW8ONxMwEJ_8wbdVg

0 00

MLOasis

12天前

Moonshot（kimi）的曲线斜率过于亮眼了😂几乎追平 OpenAI 了

1 11

MLOasis

20天前

珍惜 SOTA 模型的上下文窗口，让模型对输入输出做复制粘贴的工作实在是不可接受😂

0 00

MLOasis

24天前

懂与不懂，都看自己心情，压力大就多休息，毕竟，少量的知识令人愉快，大量的知识令人作呕。

0 00

MLOasis

27天前

0 00

MLOasis

1月前

DeepSeek 的这两篇论文很值得一读，我觉得意图很明显了：“无限上下文”。

这很可能是范式的一种转变，如果在小模型上的试验能 scale up 到更大的模型：

- 抛弃 tokenizer，转向 Pixel，模型不是在读，而是在看？
- 高效的压缩比，记忆的问题是不是就能大大迈进一步了？

无限上下文，又是 RAG 已死？
既然都是 vision token 了，那 Browser Use 能力自然也就更强了？

看问题的角度一换，长上下文、记忆和多模态 3 个问题都同时能在同一个新范式下得到解决的可能，Bravo！

github.com

github.com

4 00

MLOasis

1月前

Andrej Karpathy：如果我构建不了，我就不理解。我相信这是费曼的名言。我一直坚信这一点，因为所有这些细微的东西都没有得到妥善安排，而你实际上并没有掌握这些知识。你只是自以为拥有这些知识。所以，不要写博客文章，不要做幻灯片，什么都不要做。编写代码，安排好，让它运行起来。这才是唯一的出路。否则，你就是在缺失知识。

啊，太难了🥲

1 00

MLOasis

1月前

Transformer 通过位置编码（PE）解决自注意力机制的位置无关性。原始 PE 利用不同频率的 sin/cos 函数，提供序列长度可扩展性并隐式编码相对位置信息，但存在信息耦合和长序列泛化性差的局限。

旋转位置嵌入（RoPE）通过对 Query/Key 向量进行旋转，显式地将相对位置信息编码到注意力机制中，理论上具有无限外推能力。然而，在实际超长上下文应用中，RoPE 仍面临性能下降，原因是模型未在训练中见过极端长距离的高频旋转模式。

为解决此问题，主要有两种扩展方法：

线性插值(PI)：通过统一缩放位置索引，将长序列“压缩”回训练范围，简单有效但可能牺牲短距离高频信息的精度。

非线性缩放(YaRN)：在 PI 基础上改进，结合了 NTK-aware（调整频率基数保护高频）、NTK-by-parts（按频率分段插值）和动态缩放（根据当前长度调整缩放因子）及温度缩放（稳定注意力分数），旨在更精细地平衡长短距离信息，实现更稳定、高效的超长上下文扩展。

自 Transformer 的提出已经约 8 年了，但在这期间，Transformer 的改进从未停止过，正如其位置编码的不断迭代一样。尽管人们不断呼吁下一个超越 Transformer 模型架构，也有很多学者尝试提出替代性的架构，例如基于 Mamba 等思路的模型，试图在长序列建模、计算效率或记忆机制上取得突破。

但是 Transformer 依然凭借其通用性、可扩展性以及强大的表示能力，稳坐深度学习的头把交椅。如今，“如何取代 Transformer” 与 “如何让 Transformer 更高效、更具归纳偏置” 已成为研究者们思考的两条并行路线。

https://mp.weixin.qq.com/s/JVn4IdQd13rvxjXotDe10g

1 00

MLOasis

1月前

人在无语的时候确实想笑

0 00