flash的个人主页

即刻App年轻人的同好社区

下载

App内打开

flash

64关注543被关注1夸夸

🏢 美团 AI 产品+技术
⚡ 负责 NoCode、CatPaw 干世界级产品
☕ wx: hi_the_flash
📚 学习 RL 中

置顶

flash

3月前

2023.5 ~ 2025.4 学过的还不错的大模型原理严选清单，不难，放心学习。

一、图书系列，历史，第一性原理
1.《深度学习革命》 item.jd.com
2.《ChatGPT：人类新纪元》 item.jd.com
3.《深度学习入门：基于 python 的理论与实现》 item.jd.com
4.《深度学习中的数学》 item.jd.com
5.《深入浅出神经网络与深度学习》 item.jd.com
6.《深度学习进阶自然语言处理》 item.jd.com
7.《这就是 ChatGPT》 item.jd.com

二、视频系列
2.1）零基础提认知，快速入门
1. Deep Dive into LLMs like ChatGPT www.youtube.com
2. Andrej Karpathy Let's build GPT: from scratch, in code, spelled out. www.youtube.com
3. Andrej Karpathy The spelled-out intro to neural networks and backpropagation: building micrograd www.youtube.com
4. Sebastian Raschka Building LLMs from the Ground Up: A 3-hour Coding Workshop www.youtube.com
5. 最好的致敬是学习：DeepSeek-R1 赏析 mp.weixin.qq.com
6. 深度学习之模型优化—理论实践篇 www.bilibili.com

2.2）系统性学习，需要花大量时间
1. coursera 吴恩达机器学习专项课程 www.coursera.org
2. coursera 吴恩达深度学习专项课程【5门】 www.coursera.org
3. coursera 无监督学习、推荐器、强化学习 www.coursera.org
4. 李宏毅 bilibili 系列视频 www.bilibili.com

24 220

flash

8天前

RL 的本质是冗余经验压缩与回放

6 00

flash

11天前

买书还是要坚定相信豆瓣，这本书强烈推荐大家别买，翻译得太烂了，举几个例子： “致命三要素，资格迹，分幕式半梯度控制”，这翻译的都是啥玩意，不太好翻译的直接用原文不好吗？哎，还是去看英文版吧

1 10

flash

12天前

强化学习这门学科，经常一个理论看起来极其枯燥乏味，但是最后落地到代码非常简洁优雅，甚至有些不可思议

4 00

flash

1月前

Dyna-Q = one step Q-Learning/Direct-RL(Model Free) + N step Q-Planning（Model Based）

1 00

flash

1月前

Q-Learning 的年龄居然和我一样大🤣

2 00

flash

1月前

combine DP with MC => TD
DP：Iterate
MC：learn from experience

1 00

flash

1月前

强化学习的数学理论复杂度和编译原理有的一拼，但目前看来，还是编译原理更复杂一些

4 00

flash

2月前

微信搜索 NoCode 小程序，构建一个属于你自己的工资计算器，看看你的时薪是多少 🎉🎉🎉

00:43

9 10

flash

2月前

在 AI 的世界里，但凡有个复杂问题解决不了，就给你来个 N 层网络，定义好输入、输出、loss，然后梯度下降疯狂计算，逼近训练集。
pre train 对应的输入是序列 token，称为训练语料，输出是下一 token 的概率，产出 base model。
rl 策略梯度训练对应的输入是一堆状态，动作，奖励，称为行动经验，对应的输出是下一个动作概率，产出策略模型。

7 10