即刻App年轻人的同好社区
下载
App内打开
钟二信
902关注2k被关注3夸夸
🪄 现 豆包电脑版产品经理
🗂️ 前 Teambition、飞书智能伙伴设计师
🧩 ChatGPT 插件 Pluginpedia 作者
置顶
钟二信
2年前
❤️‍🔥 第二个插件 Plugin-pedia 上架插件商店,我自己太喜欢这个插件了,它能根据你的问题为你推荐其他插件,非常建议它长期留在你的Chat中。然后它也是一个让 OpenAI 审核团队开了一次特例的插件(在描述中出现了 plugin 词),可以说是检验 OpenAI 是否Open 的一道金线了。 笑死,还帮 Webpilot 作者加了他插件的优先推荐。
416
钟二信
21天前
27 Anthropic 发布了那篇 Tracing the thoughts of a large language model 文章,同时还有一条 Youtube 视频,两篇论文。

我感觉点进那篇文章链接的人都会看完那条 Youtube 的视频,然后不少人也会完整看完那篇文章,然后再有更少更少的人会去看完那两篇论文。

我今晚才看完那篇文章,试图点进去看看第一篇论文 Circuit Tracing: Revealing Computational Graphs in Language Models 前几页的公式立刻让我点击了保存书签,然后关闭了页签,告诉自己还不是读这篇论文的时候。

23 年到现在大家对 AI 的认知在不断发生变化,每次模型一有明显进步,模型应用层的我们产品范式就会跟着发生一次巨大的改变,最可怕的是这些变化有时完全是自己提前不知道或者当时不关心的地方。

这个领域有没有什么不变的东西? 刚才仓促关掉论文时瞥到一眼 JumpReLU ReLU 激活函数最早在 2000年用于解释人类神经元的模拟电路过程就被提出来了。

想在有限的时间里,学点不会变的东西。
30
钟二信
1月前
要失业了,哭哭... 🥹
54
钟二信
1月前
任豚乐园,贴得还是有点缺乏合理性 🤔
00
钟二信
1月前
钟二信
2月前
Grok 除了免费的 DeepSearch 外,最让人惊喜的就是 App 的完成度细节非常高。
82
钟二信
2月前
Grok 3 DeepSearch 回答什么是 Test Time Training

https://grok.com/share/bGVnYWN5_aa095da3-099d-4f42-a2fc-e0d8dc46540a

00
钟二信
2月前
其实和桌面悬浮助手一起上线在灰度,想了解下大家平时一般什么场景想在电脑上用语音输入呢。

PlayerKang: 今天豆包新上了个「语音输入法」的功能,还挺好用的,一边说话一边编程,一边聊天,一边记笔记

90
钟二信
3月前
新玩具到了英伟达的 AI 玩具开发板,不过话说这个升级过程虽然超级麻烦,但是英伟达这个文档居然把这个过程事无巨细的写完了,把你在运行过程中可能遇到的问题和分支路线都写的清清楚楚,也是非常神奇...
40
钟二信
3月前
读完 DeepSeek R1 的论文

- 先找到了一个别人整理的总览图,最后读完发现和论文也是一致的

- 读到一半又去先再了解了下强化学习相关的知识点:www.bilibili.com ,强化学习的策略 GRPO 讲的也比较简单,需要再搭配阅读之前的 DeepSeek Math 的论文来一起学习:arxiv.org

- R1 Zero 是一个完全没有 SFT ,纯粹靠强化学习收敛后的一个模型,证明了在预训练后,可以完全不靠数据只靠能验证的规则、代码运行结果等手段就可以显著提高模型的推理能力。甚至在某个中间态的 R1 Zero Checkpoint 的思考链输出中还出现了一次像人类一样的「Aha Moment」时刻

- Huggingface 社区在组织 OpenR1 项目来还原 R1,感觉可以是一种可以了解更多训练细节甚至可能部分亲自跑跑代码的方式,值得关注:github.com

- 畅想:读完论文,对 R1 Zero 这个版本开始更感兴趣,强化学习这种模式感觉更像现实中智能生命体的进化过程。有没有可能未来一个模型,在经过一次标准的大规模语料的预训练后,我们能把它放到由整个互联网改造成的强化学习环境中,模型的 Agent 就像搜索引擎爬虫一样可以从这个网站爬到下一个网站,每个网站都能在一个统一的框架内对这些模型 Agent 的行为进行状态反馈和奖励,预训练后的模型就像一个婴儿一样开始在这个由互联网组成的强化学习环境中开始不断学习。只是很难想象出来这个在互联网里的强化学习环境的策略、奖励、状态反馈具体应该怎么去统一设计(不然在有限的参数下,这种环境应该很难达到模型收敛的状态),这像是一个真正的硅基生命造物者的工作了。
610