Sparc3D: Sparse Representation and Construction for High-Resolution 3D Shapes Modeling 🧐一句话总结:Sparc3D 通过稀疏可变形 Marching Cubes(Sparcubes)和稀疏卷积 VAE(Sparconv-VAE)相结合,首创了可微、高保真、轻量的统一式高分辨率3D生成框架,解决了传统 VAE 表示效率低与重建损失大的痛点。 ➡️链接:lizhihao6.github.io ✨重点
阿里巴巴开源的一个专门生成/编辑带文字图片的模型~ {FLUX-Text: A Simple and Advanced Diffusion Transformer Baseline for Scene Text Editing} 🧐 FLUX-Text 是阿里巴巴高德团队提出的一个基于扩散+Transformer架构的场景文字编辑基线方法,简单高效、可靠高保真,支持多语言、任意文本、修补和编辑等丰富任务。 ➡️链接:amap-ml.github.io ✨重点
阿里开源的 Wan 2.2视频生成模型质量真的很好啊~! 16G显存能跑的5B模型的生成质量已经有大片质感了,我都有点像入4090-48G去测14B模型了🥹
《Wan2.2:开放且先进的大规模视频生成模型》
Wan2.2: Open and Advanced Large-Scale Video Generative Models 🧐一句话总结:Wan2.2 引入专家混合架构(MoE)、审美可控训练数据和高压缩VAE,显著提升视频生成质量与效率,是当前开源中效果最强、推理速度最快的720P视频生成模型之一。 ➡️代码链接:github.com ➡️中文使用指南:alidocs.dingtalk.com ➡️comfyui支持:docs.comfy.org ➡️官网试玩:wan.video ✨重点