即刻App年轻人的同好社区
下载
App内打开
flash
64关注543被关注1夸夸
🏢 美团 AI 产品+技术
⚡ 负责 NoCode、CatPaw 干世界级产品
☕ wx: hi_the_flash
📚 学习 RL 中
置顶
flash
3月前
2023.5 ~ 2025.4 学过的还不错的大模型原理严选清单,不难,放心学习。

一、图书系列,历史,第一性原理
1.《深度学习革命》 item.jd.com
2.《ChatGPT:人类新纪元》 item.jd.com
3.《深度学习入门:基于 python 的理论与实现》 item.jd.com
4.《深度学习中的数学》 item.jd.com
5.《深入浅出神经网络与深度学习》 item.jd.com
6.《深度学习进阶 自然语言处理》 item.jd.com
7.《这就是 ChatGPT》 item.jd.com

二、视频系列
2.1)零基础提认知,快速入门
1. Deep Dive into LLMs like ChatGPT www.youtube.com
2. Andrej Karpathy Let's build GPT: from scratch, in code, spelled out. www.youtube.com
3. Andrej Karpathy The spelled-out intro to neural networks and backpropagation: building micrograd www.youtube.com
4. Sebastian Raschka Building LLMs from the Ground Up: A 3-hour Coding Workshop www.youtube.com
5. 最好的致敬是学习:DeepSeek-R1 赏析 mp.weixin.qq.com
6. 深度学习之模型优化—理论实践篇 www.bilibili.com

2.2)系统性学习,需要花大量时间
1. coursera 吴恩达机器学习 专项课程 www.coursera.org
2. coursera 吴恩达深度学习 专项课程【5门】 www.coursera.org
3. coursera 无监督学习、推荐器、强化学习 www.coursera.org
4. 李宏毅 bilibili 系列视频 www.bilibili.com
220
flash
8天前
RL 的本质是冗余经验压缩与回放
00
flash
11天前
买书还是要坚定相信豆瓣,这本书强烈推荐大家别买,翻译得太烂了,举几个例子: “致命三要素,资格迹,分幕式半梯度控制”,这翻译的都是啥玩意,不太好翻译的直接用原文不好吗?哎,还是去看英文版吧
10
flash
12天前
强化学习这门学科,经常一个理论看起来极其枯燥乏味,但是最后落地到代码非常简洁优雅,甚至有些不可思议
00
flash
1月前
Dyna-Q = one step Q-Learning/Direct-RL(Model Free) + N step Q-Planning(Model Based)
00
flash
1月前
Q-Learning 的年龄居然和我一样大🤣
00
flash
1月前
combine DP with MC => TD
DP:Iterate
MC:learn from experience
00
flash
1月前
强化学习的数学理论复杂度和编译原理有的一拼,但目前看来,还是编译原理更复杂一些
00
flash
2月前
微信搜索 NoCode 小程序,构建一个属于你自己的工资计算器,看看你的时薪是多少 🎉🎉🎉
00:43
10
flash
2月前
AI 的世界里,但凡有个复杂问题解决不了,就给你来个 N 层网络,定义好输入、输出、loss,然后梯度下降疯狂计算,逼近训练集。
pre train 对应的输入是序列 token,称为训练语料,输出是下一 token 的概率,产出 base model。
rl 策略梯度训练对应的输入是一堆状态,动作,奖励,称为行动经验,对应的输出是下一个动作概率,产出策略模型。
10