即刻App年轻人的同好社区
下载
App内打开
芝芝萌萌
426关注2k被关注5夸夸
Like we are gonna die young
主队是法拉利和切尔西
芝芝萌萌
26天前
自从飞过一次南美,其他航线甚至会觉得不够睡

芝芝萌萌: 连飞30个小时🥱

00
芝芝萌萌
1月前
为了啤酒都值得去一趟日本。就是觉得人肉背回来的更好喝一些
50
芝芝萌萌
2月前
先截图再说
00
芝芝萌萌
2月前
早早买了花火大会的票,后知后觉才发现那个周末是领证一周年。

订了风景很好的餐厅,五点半开始吃饭看京都日落,这一天的京都一会下雨一会太阳,坐在窗前看着人群熙熙攘攘,五颜六色的伞挤在一起;吃完发现才刚刚八点,坐公交慢悠悠去wine bar,这家bar真的太专业+酒库深,盲选的奶酪也很好吃。出来快要11点了,但还是觉得意犹未尽,又走到了一家居酒屋,吃烧鸟。下过雨的京都各位安静,不自觉哼起了“你知道就算大雨让这座城市倾倒”。坐下大口喝完几杯啤酒,用一杯烧酒收尾回酒店睡觉。

人怎么可以幸福成这样,希望自己记住这美好的一天。
10
芝芝萌萌
3月前

Roxane: 一些个人认为适合非技术背景同学入门RL的材料不完全整理: 1️⃣青铜级 (都是播客) 《一堂「强化学习」大师课》——42章经 《与马毅聊智能史:“DNA 是最早的大模型”,智能的本质是减熵》——晚点聊LateTalk 《我是这样用 RL + LLM 做 Agent 的|对谈 Pokee AI 创始人朱哲清 Bill》——42章经 《走向强化学习:Agent 还是应用公司的机会吗?对话 Pokee.ai 创始人》——硅基觉醒 《Agent 开发的上半场:环境、Tools 和 Context 如何决定 Agent》——42章经 《强化学习的前世今生》——科技慢半拍 (以下是一些发布时间较早,但是我认为仍有价值所以保留推荐的⬇️) 《AGI 范式大转移:和广密预言草莓、OpenAI o1 和 self-play RL》——张小珺Jùn|商业访谈录 《逐句讲解 DeepSeek-R1、Kimi K1.5、OpenAI o1 技术报告 ——“最优美的算法最干净”》——张小珺Jùn|商业访谈录 《对话 Google Deepmind 研究员:OpenAI o1 及LLM+RL 新范式》——OnBoard! 2️⃣白银 Andrej Karpathy《Deep Dive into LLMs like ChatGPT》(视频)(不是专门讲RL的,但是建议先看,系统了解) Sam Lehman《The World's RL Gym》 Sutton与Deepmind《Welcome to the Era of Experience》 《Richard Sutton on Pursuing AGI Through Reinforcement Learning》(视频) 3️⃣黄金 OpenAI o1 技术报告《Learning to reason with LLMs》 Deepseek官方论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》 Sebastian Raschka《The State of Reinforcement Learning for LLM Reasoning》 4️⃣翡翠 《Transformer原作、斯坦福、清华交大三篇论文共识:基座模型边界锁死RL能力上限》(一篇公众号的概述,建议阅读原文) 《OpenAI's o3: Over-optimization is back and weirder than ever》 5️⃣钻石 Sutton and Barto《Reinforcement Learning: An Introduction》 (坦白说还没学到这个层次,欢迎大佬们补充...) 其实还有很多优质的资料,但我还没读的就不冒昧推荐了,欢迎在评论区安利🥹 🎊扩展阅读 《A biref history of intelligence》

00
芝芝萌萌
4月前
20
芝芝萌萌
6月前
摆拍与真实
00
芝芝萌萌
7月前
大家的酒搭子
20
芝芝萌萌
7月前
米其林三星焖子,值得单独前往。
00
芝芝萌萌
9月前
Rio oh Rio
00