即刻App年轻人的同好社区
下载
App内打开
搞设计的花生仁
13关注202被关注0夸夸
✨分享 AI绘画、AI文本、AI 语音、AI视频、AI 3D 等工具和 AI 资讯
✨优设 120w+ 人气,AIGC 专栏作者
搞设计的花生仁
3天前
这个 IndexTTS 2 模型听起来效果不错,马上就要开源了,模型权重和推理代码统统开放。

可以做到把一句音频丢进去,它能把声音、语速、味儿都克隆得跟本人一样,还能随意切换“低语、尖叫、发疯”等情绪。
而且还可以给它一段带情绪的音频,要么直接打字告诉它想要啥感觉。
增加了时长控制,手动设定秒数或放飞自我都行。

感觉效果比本地最强的 MaskGCT、F5-TTS 还稳,中文英文都支持,字准、音似、情感到位。

项目介绍:index-tts.github.io
00:40
00
搞设计的花生仁
16天前
Qwen 发布最新的 Qwen-TTS,可通过 API 调用,会根据输入文本自动调整韵律、节奏和情绪变化。

目前,支持 3 种中国方言:北京、上海、四川,7种中英双语音色:Cherry、Ethan、Chelsie、Serena、Dylan(北京话)、Jada(上海话) 和 Sunny(四川话)。更多语言和风格选项即将在近期推出。

官方博客:qwenlm.github.io
API:help.aliyun.com
00:18
01
搞设计的花生仁
16天前
百度一次性发布了文心 4.5 系列共 10 款模型,参量规模从 0.3 B 覆盖到 424 B。

采用 Mixture-of-Experts(MoE)架构:活跃参数分别为 47 B 与 3 B;另含 0.3 B 稠密模型。

异构多模态 MoE 结构可在多模态间共享参数,并为每个模态保留专属专家,既强化视觉-语言理解,又不削弱文字任务表现。

全系在 PaddlePaddle 上训练与部署,最大语言模型预训练 MFU 达 47 %,推理同样高效。

在指令遵循、知识记忆、视觉理解及跨模态推理等多项公开基准中达到或刷新 SOTA。

旗舰款 ERNIE-4.5-300B-A47B-Base 在 28 项公开基准中有 22 项成绩领先 DeepSeek-V3-671B-A37B-Base。

轻量级 ERNIE-4.5-21B-A3B-Base 也在 BBH、CMATH 等多项数学与推理测试中优于 Qwen3-30B-A3B-Base。

Github:github.com
模型地址:huggingface.co
00
搞设计的花生仁
29天前
MiniMax 发布并开源了混合框架推理模型 M1,结合了 MoE 和 Lightning Attention 技术。

它的亮点在于:
① 模型参数达到 4560 亿,单个 token 的激活参数为 45.9 亿。
② 支持超长的上下文输入,可以处理高达 100 万 token 的上下文。
③ 提供了两个推理模型,分别是 40K 和 80K 的思维预算。
④ 训练成本仅为 53.5 万美元,表现比 Qwen3 和 DeepSeek-R1 更强,接近顶级的闭源模型。

技术方面:MiniMax M1 引入了 Lightning Attention 机制,处理 10 万 tokens 时,计算量只有 DeepSeek R1 的 25%。此外,采用了新的 CISPO 算法,这种算法通过裁剪采样权重,而不是 token 梯度,减少了训练的波动,提高了稳定性,并加快了训练速度,效率比 Qwen2.5 快了两倍。

这个模型的特色就是支持最大 1M token 输入和 80K token 输出,是目前最长的上下文窗口。此外,它还具备开源模型中最强的代理能力,让推理更加智能高效。

和一些大厂模型比如 OpenAI O3、Gemini 2.5 Pro、Claude 4 Opus、DeepSeek R1 0528 相比,MiniMax M1 在开源领域已经算是领先者,特别是在长上下文推理和计算效率上,表现十分突出。

总的来说,MiniMax M1 是目前开源领域里性能最强、效率最高的长上下文推理模型之一,且性价比非常高。

目前已经可以在 MiniMax Chat (chat.minimaxi.com)中使用
Hugging Face:huggingface.co
Github:github.com
技术报告:github.com/blob/main/MiniMax_M1_tech_report.pdf
00
搞设计的花生仁
1月前
midjourney 风格参考功能更新

能够更聪明地理解图像的风格,即使提示与风格有很大不同,也更有可能起作用
图像中出现不想要的“主体泄漏”的可能性更小
有一个新的--sref random!新的风格应该比以前更广泛
如果您想使用旧的 sref 代码,您可以使用 V6,或者您需要指定--sv 4回退到旧模型
00
搞设计的花生仁
1月前
Mistral AI 开源了他们的推理模型 Magistral

有两个版本:
Magistral Small(24B 参数开源版本)和 Magistral Medium(企业版)

下载地址:huggingface.co
试用地址:chat.mistral.ai
00
搞设计的花生仁
1月前
GPT o3 价格降低 80%,并且发布了更强的 OpenAI o3-pro,现已在 ChatGPT API 中向所有 Pro 用户推出。

o3-pro 面向复杂推理与长时任务的高端版本。

能力提升:
数学、科学与编程类学术评测显著超越 o3。
在内部 “Intelligence Index” 中与 Google Gemini 2.5 Pro 持平,推理得分高于 Claude 4 Sonnet Thinking;回答风格更精炼、少赘述。
原生接入 ChatGPT 高级工具套件:联网检索、文件/图像分析、Python code interpreter、个性化记忆等。
200 K token 上下文窗口,长对话更稳定。

官方建议:遇到需要数分钟才能完成的请求,可切换到 Background Mode 异步运行以避免超时。

定价(API):
输入 $20/100 tokens
输出 $80/100 tokens
与降价后的 o3 相比,单 token 成本约高 10 倍,但依旧低于历史 o1-pro 价格。
00
搞设计的花生仁
2月前
Flux 发布图像编辑模型 —— FLUX.1 Kontext,可以通过简单文本指令修改图像,实现灵活且即时的图像编辑。比如:换衣服、换发色、生成场景、换风格等。

核心功能:
角色一致性:在多个场景和环境之间保持图像的元素不变,例如图片中的参考角色或对象。
局部编辑:在不影响其他部分的情况下,对图像中的特定元素进行有针对性的修改。
风格参考:根据参考图像的独特风格,通过文本提示生成新颖的场景。
交互速度:图像生成和编辑的延迟极小。

包含三种型号:
FLUX.1 Kontext [pro]:更高质量、中等速度和中等成本
FLUX.1 Kontext [max]:最佳性能
FLUX.1 Kontext [dev](即将推出)– 轻量级模型,世界上最快、最具成本效益的 Kontext 系列版本

Flux 还推出了图片生成平台 —— FLUX Playground,playground.bfl.ai
01
搞设计的花生仁
2月前
腾讯混元开源语音数字人模型——HunyuanPortrait
支持单人驱动、多人驱动、全身驱动、多风格驱动

Github:github.com
模型地址:huggingface.co
项目介绍:kkakkkka.github.io
试用地址:hunyuan.tencent.com
00:24
00
搞设计的花生仁
2月前
谷歌发布新的视频生成模型 Veo 3,这次升级,画质和真实感再上台阶,更惊艳的是对物理规律的理解:重力、光照、材质表现,都高度贴合现实。更绝的是它首次加入音频生成——环境声、背景音,甚至角色对话和口型都能精准同步。
01:50
00