Cursor 最近发了一篇技术博客《Cursor Tab 的在线强化学习》。用过 Cursor 的同学应该很熟悉 Tab 功能,它会自动预测你的下一步操作,而不是等你手动输入。为了让 Tab 更准,Cursor 用了用户的在线数据做 RL,并且频繁给用户推新模型,实践结果是新 Tab 模型的采纳率提高了 28%。
这可能意味着大模型可以像推荐引擎一样,依赖用户反馈数据自我迭代,形成数据飞轮数据飞轮的壁垒,虽然实践起来没那么容易,但给了很好的方向。
原文地址
cursor.com双语版本
ybzavo65ti.feishu.cn核心内容:
1. 在线数据驱动:Tab 每天处理超 4 亿次请求,并在 1.5-2 小时内回传数据做训练更新。核心是快速的数据流和模型部署能力,几乎是“准实时”的在线学习。
2. 采纳即奖励:用策略梯度优化 Tab,奖励用户接受的建议,惩罚拒绝的建议。如果建议被接受概率低于 25%,模型就不显示。
3. 真正的个性化:不是靠 context hack,而是直接基于参数更新,把用户的采纳/满意度转化为 reward signal。
4. 持续学习闭环:不像常规几周/月一次大版本迭代,而是频繁上线新模型+实时优化,形成真正的“持续进化”。
对在探索开放场景下如何做 RL的同学可能有些参考价值,尤其是如何把产品里的“用户满意度”变成 reward,再配合高频模型迭代。