二、视频系列 2.1)零基础提认知,快速入门 1. Deep Dive into LLMs like ChatGPT www.youtube.com 2. Andrej Karpathy Let's build GPT: from scratch, in code, spelled out. www.youtube.com 3. Andrej Karpathy The spelled-out intro to neural networks and backpropagation: building micrograd www.youtube.com 4. Sebastian Raschka Building LLMs from the Ground Up: A 3-hour Coding Workshop www.youtube.com 5. 最好的致敬是学习:DeepSeek-R1 赏析 mp.weixin.qq.com 6. 深度学习之模型优化—理论实践篇 www.bilibili.com
Dyna-Q = one step Q-Learning/Direct-RL(Model Free) + N step Q-Planning(Model Based)
1 00
flash
1月前
Q-Learning 的年龄居然和我一样大🤣
2 00
flash
1月前
combine DP with MC => TD DP:Iterate MC:learn from experience
1 00
flash
1月前
强化学习的数学理论复杂度和编译原理有的一拼,但目前看来,还是编译原理更复杂一些
4 00
flash
2月前
微信搜索 NoCode 小程序,构建一个属于你自己的工资计算器,看看你的时薪是多少 🎉🎉🎉
00:43
9 10
flash
2月前
在 AI 的世界里,但凡有个复杂问题解决不了,就给你来个 N 层网络,定义好输入、输出、loss,然后梯度下降疯狂计算,逼近训练集。 pre train 对应的输入是序列 token,称为训练语料,输出是下一 token 的概率,产出 base model。 rl 策略梯度训练对应的输入是一堆状态,动作,奖励,称为行动经验,对应的输出是下一个动作概率,产出策略模型。