沉寂了一年多的曹越,一上来就干了个大的。在AI视频领域,我认为他是最有魅力的,连夜体验之后,几个感受:
1 官网逻辑很有意思,跟大多数文生视频的网站从风格到流程上都不一样
2 主打图生视频,一致性较强,实测效果还不错,但是很卡,可能是算力不够
3 读了论文,里面改进非常多,关键的改进是自回归,而不是双向去噪的扩散模型,所以更有逻辑性
4 自回归vs双向去噪的又一个例子,上一个是 4o 的图像生成
5 团队工作很深,从 attention 到 swiglue 到 infra 各种细节都做了工作,可以看得出非常有思考,论文也非常完整
今年过年时间就和几个做comfyui的朋友讨论,扩散很难完成精确控制,未来可能是自回归的。没想到,未来来得比我们想象的更快。