2025 Q1 展望
- Transformer 架构的 AI 似乎已经达到瓶颈,OpenAI 开始引领 Agent / MutliAgent 路线,但这只仅仅工程上的妥协,有价值,但不多,更重要的事情在于 AI 基础能力的提升。量化技术能够加速,但是肯定对 AI 的生成质量有所损害,dLLM 似乎是一个可能路径,但是我认为没有免费的午餐,可能还存在我尚未发现的缺陷。但是 dLLM 的生成速度非常有价值,极有可能会成为 AI 族群的重要组成部分。
- 多模态 AI 还在持续迭代,ChatGPT 4o 的出圈即为一例,2025 Q1 结束之时,多模态 AI 在图片理解和生成上有了足够大的进步,进一步应该是音频理解和生成,然后是视频理解和生成。视频理解和生成部分限于算力问题可能不太容易,但是对于 AI 理解现实世界肯定是跨越式的进步。且看今年年底之前能否完成这一步跨越。
- 到2026年,应该进入具身智能的时代,将触觉(也许对物理世界的具身体验更合适)融合入视觉和听觉是另一个巨大的跨越。另一个容易被忽略的是嗅觉和味觉,这是对分子级别的感知。至此 AI 应能从硬件上全面感知人之所感。
- 另一个让人难以忍受的瓶颈是 AI 的在线学习能力,如果 AI 只能使用外挂知识库的方式来解决问题,那叫开卷考试,不叫真正的学习。最近看到的一些论文似乎想要解决这个问题。窃以为人类大脑的[三重脑假说](
zh.wikipedia.org)是有借鉴意义的,关键在于如何将旧脑和新脑分开训练,旧脑负责完成对这个世界的基础学习,新脑则负责在线学习,推理时结合新旧脑一起推理,完成真正的在线学习。这部分期待明年有新的突破。