搞设计的花生仁的个人主页

即刻App年轻人的同好社区

下载

搞设计的花生仁

13关注202被关注0夸夸

✨分享 AI绘画、AI文本、AI 语音、AI视频、AI 3D 等工具和 AI 资讯
✨优设 120w+ 人气，AIGC 专栏作者

搞设计的花生仁

3天前

这个 IndexTTS 2 模型听起来效果不错，马上就要开源了，模型权重和推理代码统统开放。

可以做到把一句音频丢进去，它能把声音、语速、味儿都克隆得跟本人一样，还能随意切换“低语、尖叫、发疯”等情绪。
而且还可以给它一段带情绪的音频，要么直接打字告诉它想要啥感觉。
增加了时长控制，手动设定秒数或放飞自我都行。

感觉效果比本地最强的 MaskGCT、F5-TTS 还稳，中文英文都支持，字准、音似、情感到位。

项目介绍：index-tts.github.io

00:40

2 00

搞设计的花生仁

16天前

Qwen 发布最新的 Qwen-TTS，可通过 API 调用，会根据输入文本自动调整韵律、节奏和情绪变化。

目前，支持 3 种中国方言：北京、上海、四川，7种中英双语音色：Cherry、Ethan、Chelsie、Serena、Dylan（北京话）、Jada（上海话）和 Sunny（四川话）。更多语言和风格选项即将在近期推出。

官方博客：qwenlm.github.io
API：help.aliyun.com

00:18

3 01

搞设计的花生仁

16天前

百度一次性发布了文心 4.5 系列共 10 款模型，参量规模从 0.3 B 覆盖到 424 B。

采用 Mixture-of-Experts（MoE）架构：活跃参数分别为 47 B 与 3 B；另含 0.3 B 稠密模型。

异构多模态 MoE 结构可在多模态间共享参数，并为每个模态保留专属专家，既强化视觉-语言理解，又不削弱文字任务表现。

全系在 PaddlePaddle 上训练与部署，最大语言模型预训练 MFU 达 47 %，推理同样高效。

在指令遵循、知识记忆、视觉理解及跨模态推理等多项公开基准中达到或刷新 SOTA。

旗舰款 ERNIE-4.5-300B-A47B-Base 在 28 项公开基准中有 22 项成绩领先 DeepSeek-V3-671B-A37B-Base。

轻量级 ERNIE-4.5-21B-A3B-Base 也在 BBH、CMATH 等多项数学与推理测试中优于 Qwen3-30B-A3B-Base。

Github：github.com
模型地址：huggingface.co

1 00

搞设计的花生仁

29天前

MiniMax 发布并开源了混合框架推理模型 M1，结合了 MoE 和 Lightning Attention 技术。

它的亮点在于：
① 模型参数达到 4560 亿，单个 token 的激活参数为 45.9 亿。
② 支持超长的上下文输入，可以处理高达 100 万 token 的上下文。
③ 提供了两个推理模型，分别是 40K 和 80K 的思维预算。
④ 训练成本仅为 53.5 万美元，表现比 Qwen3 和 DeepSeek-R1 更强，接近顶级的闭源模型。

技术方面：MiniMax M1 引入了 Lightning Attention 机制，处理 10 万 tokens 时，计算量只有 DeepSeek R1 的 25%。此外，采用了新的 CISPO 算法，这种算法通过裁剪采样权重，而不是 token 梯度，减少了训练的波动，提高了稳定性，并加快了训练速度，效率比 Qwen2.5 快了两倍。

这个模型的特色就是支持最大 1M token 输入和 80K token 输出，是目前最长的上下文窗口。此外，它还具备开源模型中最强的代理能力，让推理更加智能高效。

和一些大厂模型比如 OpenAI O3、Gemini 2.5 Pro、Claude 4 Opus、DeepSeek R1 0528 相比，MiniMax M1 在开源领域已经算是领先者，特别是在长上下文推理和计算效率上，表现十分突出。

总的来说，MiniMax M1 是目前开源领域里性能最强、效率最高的长上下文推理模型之一，且性价比非常高。

目前已经可以在 MiniMax Chat （chat.minimaxi.com）中使用
Hugging Face：huggingface.co
Github：github.com
技术报告：github.com/blob/main/MiniMax_M1_tech_report.pdf

0 00

搞设计的花生仁

1月前

midjourney 风格参考功能更新

能够更聪明地理解图像的风格，即使提示与风格有很大不同，也更有可能起作用
图像中出现不想要的“主体泄漏”的可能性更小
有一个新的--sref random！新的风格应该比以前更广泛
如果您想使用旧的 sref 代码，您可以使用 V6，或者您需要指定--sv 4回退到旧模型

0 00

搞设计的花生仁

1月前

Mistral AI 开源了他们的推理模型 Magistral

有两个版本：
Magistral Small（24B 参数开源版本）和 Magistral Medium（企业版）

下载地址：huggingface.co
试用地址：chat.mistral.ai

0 00

搞设计的花生仁

1月前

GPT o3 价格降低 80%，并且发布了更强的 OpenAI o3-pro，现已在 ChatGPT 和 API 中向所有 Pro 用户推出。

o3-pro 面向复杂推理与长时任务的高端版本。

能力提升：
① 数学、科学与编程类学术评测显著超越 o3。
② 在内部 “Intelligence Index” 中与 Google Gemini 2.5 Pro 持平，推理得分高于 Claude 4 Sonnet Thinking；回答风格更精炼、少赘述。
③ 原生接入 ChatGPT 高级工具套件：联网检索、文件/图像分析、Python code interpreter、个性化记忆等。
④ 200 K token 上下文窗口，长对话更稳定。

官方建议：遇到需要数分钟才能完成的请求，可切换到 Background Mode 异步运行以避免超时。

定价（API）：
输入 $20／100 万 tokens
输出 $80／100 万 tokens
与降价后的 o3 相比，单 token 成本约高 10 倍，但依旧低于历史 o1-pro 价格。

0 00

搞设计的花生仁

2月前

Flux 发布图像编辑模型 —— FLUX.1 Kontext，可以通过简单文本指令修改图像，实现灵活且即时的图像编辑。比如：换衣服、换发色、生成场景、换风格等。

核心功能：
角色一致性：在多个场景和环境之间保持图像的元素不变，例如图片中的参考角色或对象。
局部编辑：在不影响其他部分的情况下，对图像中的特定元素进行有针对性的修改。
风格参考：根据参考图像的独特风格，通过文本提示生成新颖的场景。
交互速度：图像生成和编辑的延迟极小。

包含三种型号：
FLUX.1 Kontext [pro]：更高质量、中等速度和中等成本
FLUX.1 Kontext [max]：最佳性能
FLUX.1 Kontext [dev]（即将推出）– 轻量级模型，世界上最快、最具成本效益的 Kontext 系列版本

Flux 还推出了图片生成平台 —— FLUX Playground，playground.bfl.ai

2 01

搞设计的花生仁

2月前

腾讯混元开源语音数字人模型——HunyuanPortrait
支持单人驱动、多人驱动、全身驱动、多风格驱动

Github：github.com
模型地址：huggingface.co
项目介绍：kkakkkka.github.io
试用地址：hunyuan.tencent.com

00:24

0 00

搞设计的花生仁

2月前

谷歌发布新的视频生成模型 Veo 3，这次升级，画质和真实感再上台阶，更惊艳的是对物理规律的理解：重力、光照、材质表现，都高度贴合现实。更绝的是它首次加入音频生成——环境声、背景音，甚至角色对话和口型都能精准同步。

01:50

0 00