即刻App年轻人的同好社区
下载
App内打开
搞设计的花生仁
13关注198被关注0夸夸
✨分享 AI绘画、AI文本、AI 语音、AI视频、AI 3D 等工具和 AI 资讯
✨优设 120w+ 人气,AIGC 专栏作者
搞设计的花生仁
4天前
MiniMax 发布并开源了混合框架推理模型 M1,结合了 MoE 和 Lightning Attention 技术。

它的亮点在于:
① 模型参数达到 4560 亿,单个 token 的激活参数为 45.9 亿。
② 支持超长的上下文输入,可以处理高达 100 万 token 的上下文。
③ 提供了两个推理模型,分别是 40K 和 80K 的思维预算。
④ 训练成本仅为 53.5 万美元,表现比 Qwen3 和 DeepSeek-R1 更强,接近顶级的闭源模型。

技术方面:MiniMax M1 引入了 Lightning Attention 机制,处理 10 万 tokens 时,计算量只有 DeepSeek R1 的 25%。此外,采用了新的 CISPO 算法,这种算法通过裁剪采样权重,而不是 token 梯度,减少了训练的波动,提高了稳定性,并加快了训练速度,效率比 Qwen2.5 快了两倍。

这个模型的特色就是支持最大 1M token 输入和 80K token 输出,是目前最长的上下文窗口。此外,它还具备开源模型中最强的代理能力,让推理更加智能高效。

和一些大厂模型比如 OpenAI O3、Gemini 2.5 Pro、Claude 4 Opus、DeepSeek R1 0528 相比,MiniMax M1 在开源领域已经算是领先者,特别是在长上下文推理和计算效率上,表现十分突出。

总的来说,MiniMax M1 是目前开源领域里性能最强、效率最高的长上下文推理模型之一,且性价比非常高。

目前已经可以在 MiniMax Chat (chat.minimaxi.com)中使用
Hugging Face:huggingface.co
Github:github.com
技术报告:github.com/blob/main/MiniMax_M1_tech_report.pdf
00
搞设计的花生仁
4天前
midjourney 风格参考功能更新

能够更聪明地理解图像的风格,即使提示与风格有很大不同,也更有可能起作用
图像中出现不想要的“主体泄漏”的可能性更小
有一个新的--sref random!新的风格应该比以前更广泛
如果您想使用旧的 sref 代码,您可以使用 V6,或者您需要指定--sv 4回退到旧模型
00
搞设计的花生仁
11天前
Mistral AI 开源了他们的推理模型 Magistral

有两个版本:
Magistral Small(24B 参数开源版本)和 Magistral Medium(企业版)

下载地址:huggingface.co
试用地址:chat.mistral.ai
00
搞设计的花生仁
11天前
GPT o3 价格降低 80%,并且发布了更强的 OpenAI o3-pro,现已在 ChatGPT API 中向所有 Pro 用户推出。

o3-pro 面向复杂推理与长时任务的高端版本。

能力提升:
数学、科学与编程类学术评测显著超越 o3。
在内部 “Intelligence Index” 中与 Google Gemini 2.5 Pro 持平,推理得分高于 Claude 4 Sonnet Thinking;回答风格更精炼、少赘述。
原生接入 ChatGPT 高级工具套件:联网检索、文件/图像分析、Python code interpreter、个性化记忆等。
200 K token 上下文窗口,长对话更稳定。

官方建议:遇到需要数分钟才能完成的请求,可切换到 Background Mode 异步运行以避免超时。

定价(API):
输入 $20/100 tokens
输出 $80/100 tokens
与降价后的 o3 相比,单 token 成本约高 10 倍,但依旧低于历史 o1-pro 价格。
00
搞设计的花生仁
23天前
Flux 发布图像编辑模型 —— FLUX.1 Kontext,可以通过简单文本指令修改图像,实现灵活且即时的图像编辑。比如:换衣服、换发色、生成场景、换风格等。

核心功能:
角色一致性:在多个场景和环境之间保持图像的元素不变,例如图片中的参考角色或对象。
局部编辑:在不影响其他部分的情况下,对图像中的特定元素进行有针对性的修改。
风格参考:根据参考图像的独特风格,通过文本提示生成新颖的场景。
交互速度:图像生成和编辑的延迟极小。

包含三种型号:
FLUX.1 Kontext [pro]:更高质量、中等速度和中等成本
FLUX.1 Kontext [max]:最佳性能
FLUX.1 Kontext [dev](即将推出)– 轻量级模型,世界上最快、最具成本效益的 Kontext 系列版本

Flux 还推出了图片生成平台 —— FLUX Playground,playground.bfl.ai
01
搞设计的花生仁
25天前
腾讯混元开源语音数字人模型——HunyuanPortrait
支持单人驱动、多人驱动、全身驱动、多风格驱动

Github:github.com
模型地址:huggingface.co
项目介绍:kkakkkka.github.io
试用地址:hunyuan.tencent.com
00:24
00
搞设计的花生仁
1月前
谷歌发布新的视频生成模型 Veo 3,这次升级,画质和真实感再上台阶,更惊艳的是对物理规律的理解:重力、光照、材质表现,都高度贴合现实。更绝的是它首次加入音频生成——环境声、背景音,甚至角色对话和口型都能精准同步。
01:50
00
搞设计的花生仁
1月前
腾讯 Hunyuan 开源视频一致性模型——HunyuanCustom,具备四项能力

- 主体参考,可以在保持一致性的同时,保持元素一致
- 多主体参考,输入多个主题可以进行参考,可以对人、衣服、商品、动物进行多个参考
- 音频驱动,角色会在带有文字描述的场景中朗读相应的音频,从而实现更加灵活、可控的音频驱动人物动画。
- 视频编辑,给定一个视频,即可对视频中的元素进行替换和添加

目前只开源和上线了单主体参考模型,预计一月内全部开源。
项目地址:hunyuancustom.github.io
试用地址:hunyuan.tencent.com
00
搞设计的花生仁
2月前
ComfyUI 推出全新的界面和原生 API 节点,支持是 11 个在线视觉 AI 模型,包含 @bfl_ml Flux、@Hailuo_AI、@MiniMax__AI、@Kling_ai、@LumaLabsAI、@PixVerse_、@recraftai、@StabilityAI、@Google Veo2、@ideogram_ai、@OpenAI GPT image-1 @pika_labs!

🔹 一个平台,11 个模型,65 个节点,一次性全部提供
🔹 通过开放模型和工作流程串联 API
🔹 没有硬件限制!
🔹 不需要申请 API Key,只需要在 ComfyUI 上登录就行
01:26
00
搞设计的花生仁
2月前
阿里发布最新的 Qwen3 系列模型,在性能上超越Deepseek-R1、OpenAI-o1、Llama4等模型,
共 8 个型号:
- 6 款Dense模型:0.6B(可在手机端部署)、1.7B、4B、8B、14B、32B
- 2款MoE:Qwen3-30B-A3B、旗舰版 Qwen3-235B-A22B
每个尺寸的模型都是同尺寸中最强的。其中 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 相比,表现出极具竞争力的结果。

Qwen3 是国内首个混合推理模型,可在推理(复杂问题启动深度思考)和非推理(简单问题快速输出)两种模式中自动切换,大大节省算力;

针对 Qwen3 模型编码和代理能力进行优化,并加强了 MCP 支持;

支持119种语言和方言

目前已经可以在chat.qwen.aichat.qwen.ai)和 APP 中使用
博客:qwenlm.github.io
Github:github.com
HuggingFace:huggingface.co
ModelScope:modelscope.cn
01