最近看到 Andrew Ng 的一句话让我印象深刻:“While some things in AI are overhyped, voice applications seem underhyped right now.”(尽管 AI 中有些领域被过度炒作,语音应用却似乎被低估了)。的确,在大模型、大生成的热潮中,Voice Agent 这一领域相比之下略显低调,但背后的技术变革与落地潜力正在悄然加速。
上周末,Research AI+ 作为小红书邀请的开发者代表,我和
@Xinran.Z 参加了Founder Park 在北京的 AGI 大会,进而有机会结识了RTE社区
@傅丰元 ——一个关注 Voice Agent 和实时互动新范式的开发者社区。后续我们又参加了RTE 社区组织的几场关于 Voice Agent 的技术讨论,讨论内容深入到了唤醒词检测(Wake Word Detection)、语音活动检测(VAD)、说话结束检测(Turn Detection)、全双工交互 (Full-Duplex)等话题。这让我重新意识到,Voice Agent 不再只是简单的 ASR(语音识别)+ TTS(文本转语音),而是一个融合了多模态、多任务学习与实时交互的复杂系统。
于是我想借此机会梳理关于Voice Agent 发展脉络,希望对关注多模态与 Agent 的小伙伴有所帮助。