昨晚看了纪录片《The Thinking Game》,主要讲述Demis Hassabis带领Deepmind团队围绕AGI的探索,最后定格在AlphaFold的成功,并没有围绕Gemini的故事。相比于去年看的《AlphaGo》,前者要平淡许多,还是《AlphaGo》拍的比较激动人心。我对于所谓天才的称呼是比较挑剔的,但Demis Hassabis绝对算一个。
在新的纪录片中,看到了Deepmind早期用DQN算法玩Atari游戏Pong的画面,勾起了我写个程序验证一下的兴趣。去年有训练过AlphaGo和AlphaZero,但由于计算条件问题,其实做不出个像样的AI。但这种小游戏不一样,我觉得很容易就能跑出来。于是让Cursor使用Gemini 3 Pro写了一个,所使用的模型是个简单的多层神经网络,输入是游戏画面状态,输出是动作。边玩边训练,差不多半个小时就能正常的打了,失误稍微多一些。昨晚开了电脑让它跑了一晚上,本来以为会神级水平,发现也没有,只是显得聪明了一点。我的录屏里后面加载的就是训练后的模型效果。
最近用Cursor生成代码,感觉Gemini 3 Pro、Sonnet 4.5、ChatGPT 5.1这几个模型差别并不大了。去年9月o1刚出来时给我的惊艳感觉已经没有了。也许AI Coding能力,几家会形成一个齐头并进的局面。