即刻App年轻人的同好社区
下载
App内打开
佳心
261关注887被关注0夸夸
💻 现 MiniMax 开源开发者社区负责人|前语雀开发、猿辅导开发
☕️ AGI 路上|喜欢旅行|三只猫仔
wx:cjr467493188
佳心
11天前
🚀 我们新发布了 One RL to See Them All 视觉三重统一强化学习!
👀 首次展示了一个 RL 框架统一视觉推理和感知任务两类任务(4 个推理 + 4 个感知);
💪 训练后,模型( range7B to 32B)实现了显著的性能提升:在comprehensive MEGA-Bench Core 上成绩增幅高达+14%;
🔎 证明了我们这一方法的有效性和可扩展性

欢迎大家阅读:
- GitHub: github.com
- paper: arxiv.org
- HuggingFace: huggingface.co
00
佳心
18天前
笑死,我差点以为你真的在给nocode带货😆。我测完好几个case以后真的吐血,ui生成的拉垮,按钮点不动、逻辑没实现,而且抄lovable很多但精髓都没抄到,我被lovable疯狂种草是因为生成的ui吗?那我为啥不用cursor、v0?是lovable对github(代码项目管理)、supabase(数据库可视化操作)等生态的无缝支持啊,lovable给的是完整的全套解决方案,而nocode给的是啥?让我觉得就像是okr产物

julian.: 好了,邀请码停止发放了。 我搞 void ai 那种产品,说实话分分钟搞出来。不用一星期,三个小时。void ai 好搞,太好搞了。为什么我不搞了?爷们儿要脸。

11
佳心
23天前
感谢藏师傅推荐~欢迎大家去我们MiniMax语音上试试😄 www.minimaxi.com

歸藏: 发现 Minimax 更新了 Speech-02 音频模型 试了一下现在咋这么强! 训的我自己的语音模型我已经分不出来了 你现在拿一段我的音频问我是不是我说的,我都迷糊 👇下面是详细的测试内容:https://mp.weixin.qq.com/s/mwl0NiqFaf-j2k9yliTOiw Speech-02 在Artificial Analysis 的 ELO 评价榜单上吊打 Open AI 和 ElevenLabs 一众海外音频模型。 基本上霸榜了。Hugging Face上,不出意外,也是第一名的成绩。 Speech-02 依旧延续了 01 的传统优势,有丰富的预设音色选择,同时每个音色还有丰富的情感选项,基本上这些已有的音色+情感+其他选项调节能够搞出大部分需要的人设和音色。 我这里整了个小活,找了一个小说中的对话,做了一个类似游戏的小场景,可以看到还是调整出来的还是非常符合人设的,比如 17 岁来应聘男公关的声音和 KTV 故作深沉准备压价的面试官。 之后是 Speech-02 最基本的准确率问题 大家听过 AI 语音的都知道,生僻字读音和多音字读音是非常难得事情,有的时候 AI 读错了真的很出戏。 我这次直接给了一个终极难题,搞了一段连贯的,但是包含非常多生僻字和多音字的内容,真的里面很多字我都得查拼音。 没想到 Speech-02 这次居然一个字都没错,太强了,你可以跟着下面的音频听一下。 这代模型语言多样性也变强了 支持30多个语种;单语种的情绪、音色多样性表现在 01 版本的时候已经很强了,这里整个高难度的多语言混合文案。 里面主体是中文,包含了英语、西班牙语、日语、法语、俄语、德语,文案让 o3 生成的,非常离谱。 没想到 Speech-02 居然生成的还不错,虽然偶尔一两个读音不够特别标准,但已经强的没边了,让人在没准备的情况下读估计能搞定的没几个。 Speech-02 的老牌强势能力 声音参考 我这里上传了我自己的一段语音做了个自己的声音模型,然后找了一段自己之前的其他录音,转成文字之后让 Speech-02 生成了一下,做了个对比。 我找我周围的同事听了一遍,他们没有一个可以听出这是生成的声音,他甚至学到了我的说话停顿节奏和口癖,还有语气词,非常邪门。 下面是两段话的对比,你随便拿出生成的来问我,我要是不记得的话,自己都够呛能分清是不是我说的。 前面看技术报告的时候发现,现在 Speech-02 声音和语言是解耦的,也就是说可以用经过声音参考后的模型去生成别的语种的音频。 这里我随便找了一段英文推特文案让自己的模型读了一下,哈哈,真的有我自己读英语的那个味道,停顿节奏、语气也都能对上,这下是不是录视频的时候可以用字幕转英文视频内容了。 上面就是这次测试的全部内容了,期待那个通过提示词自定义音色的功能早日全量上线,感觉应用场景非常广泛。 音频内容生成一直是AI领域中较被低估的一环,但实际上它的重要性不可忽视。在日常生活中,我们有相当多的时间只能通过听觉来获取信息;而在视频创作中,高质量的音频同样是决定内容质量的关键因素。 MiniMax敏锐地抓住了这一市场需求,通过持续迭代已经在技术表现上超越了ElevenLabs和OpenAI等国际平台。

11
佳心
24天前
🔥MiniMax Speech技术报告发布啦!

五一期间我们Speech 02刚上Artificial Arena的TTS音频榜单Top 1的时候,有朋友问我“你们音频好厉害,超过 OpenAI 和 11labs,你们比他们强在哪里呀?”我当时脑袋一愣直接噎住,忽然发现确实音频的亮点不如视频能直观表达。

所以这次,我们音频模型的小伙伴们肝了好几天tech report,准备了很多对比demo,就是为了让大家知道我们MiniMax Speech比OpenAI、11labs更牛在这些地方!
minimax-ai.github.io
我们有:
- 超级拟人,自然度、准确度贴近甚至超越真人
- 多语言、跨语言表现超好,同一段话英语+普通话、粤语夹着日语等等,效果都很棒,不会出现英语说的好但普通话就变差的情况!
- 控制情绪,可以生成带伤心、快乐、害怕、惊讶、生气、反感六种情绪的音频!
- 音色克隆高拟真,非常像!你试试就知道!

每个人都有自己心中的哈姆雷特,音频也是,音色、自然度、停顿、语调等等都有主观感受的影响。我们说好不算好,你听了觉得效果好才是真的好,所以欢迎直接去我们的技术报告demo展示页,去听听看,我们用心给大家准备的demo ❤️

另外非常开心我们今天刚发,HuggingFace的AK和Tiezhen就在X分享了我们的Tech Report,感觉有被看到我们的努力😆
55
佳心
28天前
第一次来参加@启师傅 的Demo Day活动,惊叹良渚的AI创业/独立开发者的氛围太好了,别墅的小院子里一群人围坐,听演讲人们分享自己的创业和产品故事,见到了好久不见的@玉伯 老师、@SUKIII @志鹏hustlzp 等老朋友们,还遇到了很多新朋友@康纳利-Shawn @EveWang王大天 @海玮 ,很多项目也让人印象深刻,尤其是Neko的Project-AIRI,只有两个人,为了做一个游戏陪玩直播角色,做了记忆层、实时语音、游戏画面视觉理解、游戏交互,真的热爱才能做到这些吧。希望之后还能在线下参加更多有趣的活动,遇见更多鲜活精彩的人们😄
102
佳心
1月前
🎉我们新发的TTS模型 Speech-02 登顶 TTS Arena啦!
英文超过OpenAI和11labs,中文就更不用说了,欢迎大家可以自己玩玩看~能力比几个月前的Speech-01大幅提升,还有七种可控情绪可以选择,情感更加丰富、音色更像,标点符号和停顿处理的更自然~

🎧免费试玩:www.minimax.io

🥇TTS Arena:artificialanalysis.ai

#MiniMax #MiniMax-Speech-02 #TTS #音频模型
99
佳心
1月前
羡慕所有在现场近距离接触的我司同学们😻
00
佳心
1月前
我来招人啦~(给我自己招个实习生😄

MiniMax 大模型开发者生态研发实习生
(请忽略我取名困难🫣,这个title我确实想很久没想出来合适的,主要看jd内容就行~base 上海

需要会py、js任一语言编程(两门加分),会使用git,需要对GitHub、HuggingFace、ModelScope等开源社区很了解,很有热情参与开源社区的互动沟通、对AI相关前沿技术(模型、框架、AI软件等等)了解比较多,平时也会高强度冲浪海外和国内高质量的AI社区等~

这份实习工作你可以体验:
🔥 和很多知名开源社区、热门开源框架的成员接触和沟通
🎫 参与 MiniMax 模型在开源社区的活动
👨‍💻 开发和发布模型相关开源工具
🔭 体验各种最新的ai工具、框架
等等(暂时想到这些,有新的再补充~

简历可以直接扫码投递,也欢迎私聊我~

MiniMax校招内推码: ENH1DTK
投递链接: vrfi1sk8a0.jobs.feishu.cn
01
佳心
2月前
🔥 MiniMax MCP Server JS 版本也上线啦!

🚀 可直接用 npm、pnpm、uv 等安装 MiniMax MCP Server,简单快捷!

🎬 只需简单文本输入,即可调用视频生成、图像生成、语音生成和声音克隆等多项能力

🌎 同时支持 stdio、sse 两种传输方式(JS 版还支持 rest),支持本地使用和平台托管

📔 提供本地路径、远程url两种处理图片音视频等资源输入输出的方式

💻 兼容 Claude Desktop,Cursor,Windsurf,OpenAI Agents等 MCP 客户端

🔗 MCP Server 代码开源在 Github:
- JS版本:github.com
- Python版本:github.com

🔑 api key申请入口:
- 国内开放平台:platform.minimaxi.com
- 海外开放平台:www.minimax.io

欢迎大家来玩呀~
00
佳心
3月前
Talkie Web 终于进Top 50 AI Web Products了
callback去年8月这条即刻,终于圆梦了🥳
从去年3月到今年3月,整个产品的增长算是给我一整年的努力一个很好的交代。这一年从出海小白到对整个产品的海外发展思路非常清晰,学到了很多产品、增长、运营、商业化等等方面的新东西。做出海产品真的蛮好玩的,这段小部分挫折和大部分正反馈的旅途真的很精彩,虽然经常自己卷自己赶上线很累,但当看到自己的判断是正确的有收益的那刻真的很开心☺️
今年我也有了新的领域可以继续探索,期待和更多小伙伴在模型开源和开发者社区互动交流,可以合作玩更多更有趣的事情😄

Talkie App 也从22进到11,Hailuo Web更是惊喜的冲到12了,期待我们的小伙伴们今年出海继续冲呀~
00