🔥MiniMax Speech技术报告发布啦!
五一期间我们Speech 02刚上Artificial Arena的TTS音频榜单Top 1的时候,有朋友问我“你们音频好厉害,超过 OpenAI 和 11labs,你们比他们强在哪里呀?”我当时脑袋一愣直接噎住,忽然发现确实音频的亮点不如视频能直观表达。
所以这次,我们音频模型的小伙伴们肝了好几天tech report,准备了很多对比demo,就是为了让大家知道我们MiniMax Speech比OpenAI、11labs更牛在这些地方!
minimax-ai.github.io我们有:
- 超级拟人,自然度、准确度贴近甚至超越真人
- 多语言、跨语言表现超好,同一段话英语+普通话、粤语夹着日语等等,效果都很棒,不会出现英语说的好但普通话就变差的情况!
- 控制情绪,可以生成带伤心、快乐、害怕、惊讶、生气、反感六种情绪的音频!
- 音色克隆高拟真,非常像!你试试就知道!
每个人都有自己心中的哈姆雷特,音频也是,音色、自然度、停顿、语调等等都有主观感受的影响。我们说好不算好,你听了觉得效果好才是真的好,所以欢迎直接去我们的技术报告demo展示页,去听听看,我们用心给大家准备的demo ❤️
另外非常开心我们今天刚发,HuggingFace的AK和Tiezhen就在X分享了我们的Tech Report,感觉有被看到我们的努力😆