即刻App年轻人的同好社区
下载
App内打开
Simon的白日梦
87关注2k被关注3夸夸
🧐AI/艺术/设计/建筑/生态跨领域佛系研究者
‍📚发量充足的建筑学在读博士
‍💼中国美院/伦敦大学学院客座教师
置顶
Simon的白日梦
2年前
✨大家好~ 我是Simon阿蒙,我现在的身份有:不知道啥时候能毕业的PhD / 佛系自媒体人 / 菜鸟独立开发者 / 断更艺术创作者 / 半个数字游民 / 初创公司打杂人员🐶
👉个人独立站:shengyu.me

✨想成为理解AI,但AI无法取代之人

📑我分享过的有用资源📑:

- 🌟科普教程:
- 我上 AI 顶会啦!CVPR AI Art Gallery 作品极简创作教程 (2024.06): mp.weixin.qq.com
- OpenAI Sora视频生成模型技术报告中英全文+总结+影响分析 (2024.02): mp.weixin.qq.com
- 送立体动态新年红包+最好用的SD客户端+开源视频生成模型 (2024.02): mp.weixin.qq.com
- AI时代抗焦虑指北 —— 被AI包围之后,人类“完蛋”了吗?(2023.12):mp.weixin.qq.com
- AI生成3D问题的简化和解决,以及随之而来的新问题(2023.11):mp.weixin.qq.com
- 如何制造大语言模型的意识幻觉?斯坦福AI小镇论文精读 (2023.09):mp.weixin.qq.com
- ChatGPT基本原理(告诉你为啥它啥都懂)(2023.04):mp.weixin.qq.com
- 从用手建模到用嘴建模:一文说透最新用文字生成三维模型的人工智能算法原理 (2022.10):mp.weixin.qq.com
- 5分钟上手人工智能设计:借AI之力用文字生成图片(无软硬件+前置知识要求,2021.08):mp.weixin.qq.com

- 🌟工具合集:
- 关于声音生成的一切(2024.01):mp.weixin.qq.com
- 关于4D 生成的一切(2024.01):mp.weixin.qq.com
- 关于 chatGPT 的一切(实用工具篇,2023.05):mp.weixin.qq.com
- 关于 ControlNet 的一切(2023.04):mp.weixin.qq.com
- 关于3D 内容人工智能 (AI) 生成的一切(2023.01):mp.weixin.qq.com
- 关于人工智能内容生成(AIGC)的一切(2022.10):mp.weixin.qq.com

😶‍🌫️
💽AIGC代表作💽:

- 🌟代码开发:
- 我攒了一扇 AI 平行时空传送门——3D gaussian 复杂大场景迁移(2024.04 已暂停):mp.weixin.qq.com
- 我,编程菜鸟,攒了一个用文字生成三维模型的AI工具(Dreamfields-3D,已开源,2022.09):mp.weixin.qq.com

- 🌟艺术商业案例:
- 我如何用AI为小米国际限量版手机做宣传片(2023.03):mp.weixin.qq.com
- AI创作的正确打开方式:雪佛兰×全屏本是×Simon的白日梦 | AIGC商业落地案例复盘 (2023.02):mp.weixin.qq.com
- 国家地理中文网:“守护海洋原住民”系列数字藏品创作(2022.05):mp.weixin.qq.com

- 🌟 AI视频作品:
- ✨微观宇宙:一木一浮生,一空一有无, 一念一无限 (2024.08): b23.tv
- 云端画意 —“古董”AI模型生成复古国风山水动画(2023.07):www.bilibili.com
- 硅基生物图鉴-硅藻云戏者(2023.06):www.bilibili.com
- 量子场-无AI生成艺术(2023.04):www.bilibili.com
- 微观世界极限深潜(2022.10):www.bilibili.com
- 幻时之砂(2021.12):www.bilibili.com
- 超级文明已经组队迁往二次元元宇宙了,而你还没有拿到船票?(2021.12):www.bilibili.com

🎖️AIGC经历🎖️:
- 做过课程或讲座的地方:英国伦敦大学学院 / 奥地利因斯布鲁克大学 / 中央美院 / 小米 / 深圳市插画协会 / 集智俱乐部 / 国际人机交互大会 / 艾厂 / 中国科普作家协会
- 合作过的厂商:小米 / 雪佛兰 / 现代 / 周大福 Tmark / 国家地理中文网
- 参展过的地方:上海设计周 / 上海喜马拉雅美术馆 / 威尼斯元宇宙艺术年展 / 北京Tong画廊 / 郑州海汇美术馆 / 北京-城市建筑双年展 / 伦敦 Zero to One Space / 奥地利-蒂罗尔建筑中心

📻我的社媒📻:
- 公众号 / 视频号 / B站 / 小红书 / 微博:Simon的白日梦
- 我的 AI 自动化创作替身 - CyberGenix:weibo.com
- 知识星球(核心社群):AI白日梦想家 (向我提问,72小时无条件退款,领券:t.zsxq.com

🥰写在最后🥰:
感谢你读到这里,其实我是一个佛系+拖延的人,能做那么多事情或许真的是因为一直以来大家给我的正反馈,所以我后续会一直在这里更新有用的资源(你可以收藏或者转发这个帖子)。如果你有问题或者希望找我合作,可以私信我也可以发到 📧simondaydream@163.com。如果我48小时后还没有回复,可以再提醒我一次。最后,希望世界和平,愿你身心自在🤗。
820
Simon的白日梦
1天前
我希望这次KK是对的🤔
22
Simon的白日梦
3天前
推荐一个开源(但是使用要调用API)的综合Agent类设计工具,可以一键生成用嘴改图、生成多个风格连续的表情包、生成多模型效果对比、直出分镜和虚拟偶像MV!🫨
{别卷Prompt了!这个多模态开源Agent,直接重构设计工作流!|鹿演Vol.001}
🧐 Jaaz 是一个全球首创的开源本地多模态创意 Agent,通过“魔法画布”等创新交互大幅降低AI创作门槛,实现无需写提示词即可高效生成图片、视频和创意作品。
➡️代码:github.com
➡️中文上手指南:mxnpt25l6k.feishu.cn
➡️中文介绍:mp.weixin.qq.com
✨重点

●🎨 魔法画布革新创作体验

用户只需在画布上随意涂写、拖拽元素、画箭头,Jaaz 就能理解意图并生成完整图片或场景,完全不需要写复杂的 Prompt。
●🚀 高效批量化 Agent

具备批量生成绘本、表情包、脚本分镜、背景、MV 等能力,通过一句话或简单操作即可快速输出大量内容,极大提升效率。
●🖥️ 本地+云端混合部署

既支持本地部署(Ollama、ComfyUI 等)以降低成本并保证数据安全,也可无缝连接云端调用最新顶级模型(如 GPT-4o、Veo 等),灵活高效。
●📺 视频生成与工作流集成

集成 Seedance、Veo3 等主流视频模型,支持动画、短视频、视觉 MV 等的批量创作,并能调用用户自定义的 ComfyUI 工作流。
●🗂️ 完善的本地素材管理

自动记录生成模型和提示词信息,方便查找和管理海量生成素材;还在开发一键同款、MCP 等更多新功能。
●🌟 开源且易上手

Jaaz 开源免费提供本地版本,支持网页版体验;新用户登录即赠送免费额度,可通过微信/支付宝充值,无需月费。
●🤳 诞生背景与愿景

源于团队对现有创作工具的痛点反思,目标是打造下一代创作者首选的全模态创作入口,让任何人都能轻松把灵感变成作品。
010
Simon的白日梦
3天前
这个开源图转3D模型已经能够生成高达的细节了(可惜没有材质……)
《Sparc3D:高分辨率3D形状建模的稀疏表示与构建方法》

Sparc3D: Sparse Representation and Construction for High-Resolution 3D Shapes Modeling
🧐一句话总结:Sparc3D 通过稀疏可变形 Marching Cubes(Sparcubes)和稀疏卷积 VAE(Sparconv-VAE)相结合,首创了可微、高保真、轻量的统一式高分辨率3D生成框架,解决了传统 VAE 表示效率低与重建损失大的痛点。
➡️链接:lizhihao6.github.io
✨重点

●🧱 Sparcubes 提供结构化稀疏表示:将任意拓扑结构的原始 Mesh 转换为稀疏立方体上的 SDF(Signed Distance Fields)和形变场(Deformation Fields),支持 1024³ 分辨率的可微优化和高保真重建。
●🌀 Sparconv-VAE 首次实现全稀疏卷积 VAE:不依赖 2D 或稠密体素输入,完全基于稀疏 3D 卷积构建,保持了模态一致性并极大降低计算开销,实现几乎无损的 Mesh 重建。
●🎯 支持高分辨率潜空间扩散生成:所提编码器自然适配 latent diffusion 模型,可用于高效的大规模 3D 形状生成任务,既节省资源又保留细节。
●🎨 面向复杂几何的重建能力:在处理开放曲面、非连通结构、精细几何细节等挑战场景中表现出色,明显优于 Dora、Trellis 等现有方法。
●📦 兼容性与扩展性强:该方法对输入 Mesh 格式要求低,支持从图像到3D重建任务,未来有望与多模态生成框架(如 Make-A-Video3D)集成。
●🔬 架构灵感融合前沿技术:设计参考了 Point Transformer V3 局部注意力机制、Marching Cubes 渲染方法、以及 TripoSR 等生成框架,结合多项最新研究。
●🧪 结果展示丰富、细节清晰:项目页面提供大量 VAE 重建结果与视频演示,并支持实时鼠标悬停放大查看细节,极具研究参考价值。
01
Simon的白日梦
3天前
阿里巴巴开源的一个专门生成/编辑带文字图片的模型~
{FLUX-Text: A Simple and Advanced Diffusion Transformer Baseline for Scene Text Editing}
🧐 FLUX-Text 是阿里巴巴高德团队提出的一个基于扩散+Transformer架构的场景文字编辑基线方法,简单高效、可靠高保真,支持多语言、任意文本、修补和编辑等丰富任务。
➡️链接:amap-ml.github.io
✨重点

●✍️ 核心定位:文字编辑基线

FLUX-Text 通过扩散模型和Transformer结合,成为一个面向自然场景文字编辑的先进基线算法,兼顾简洁性与强大性能。
●🎨 多场景应用能力

支持普通文字、海报、表情包等不同类型的文字编辑,且效果稳定、真实,适合各种视觉环境。
●🌏 优秀的多语言泛化

在任意文本 benchmark 上表现优异,尤其在中文和英文编辑任务中表现出色,证明了很强的跨语言适应能力。
●🪄 文本修补(inpainting)能力

不仅能编辑已有文字,还能重建缺失或损坏的文字区域,实现文字修复。
●🔗 丰富的演示案例

页面展示了多个加载中的案例图,涵盖了普通文本、海报、表情、多语言、中文、英文等场景的效果。
●🤝 开放与致谢

项目建立在 OminiControl、AnyText、Open-Sora、Phantom 等优秀开源工作之上,官方在页面上致谢并声明演示图片均来自公共域或模型生成。
●📜 伦理声明

强调图片仅用于研究展示,若存在版权或伦理疑问,用户可联系团队删除。
04
Simon的白日梦
3天前
{GitHub - shareAI-lab/analysis_claude_code: Claude Code v1.0.33 逆向工程完整研究资料}

🧐 这是一个对 Claude Code v1.0.33 进行深度逆向工程的开源项目,系统性分析了其混淆源码、架构设计、关键机制并给出重构蓝图,揭示了实时 Steering、多 Agent 架构、智能上下文管理等创新。
➡️链接:github.com
✨重点

●🚀 实时 Steering 机制

基于 h2A 双缓冲异步队列+Promise迭代器+智能背压实现真正零延迟异步消息传递,支持高并发和流式响应。
●🤖 多层次 Agent 架构

包括主循环 Agent、子任务 Agent 和任务 Agent,各自隔离、并发执行、权限独立,构成分层架构。
●🧠 智能上下文管理

上下文压缩算法在92%阈值自动触发,保留关键信息,持久化存储于 CLAUDE.md,并动态调整窗口。
●🔒 多重安全防护

从 UI 到工具执行的 6 层权限验证、沙箱隔离、恶意输入检测,确保系统安全与稳定。
●🏗️ 完整系统架构图谱

从用户交互层到调度、工具执行、存储持久化层的全景化架构展示,并详细列出工具生态和功能。
●📂 仓库结构详尽清晰

包含源码拆解、分析结果、脚本工具、验证报告、重构指南和演示项目,方便学习和复现。
●🧪 创新技术总结

不仅还原了架构,更挖掘出隐藏特性和优化点,如高效上下文压缩、流式响应机制等,形成最佳实践。
●📚 教育与参考价值高

适合作为 AI Agent 架构学习、异步编程、高安全架构、性能优化的案例,对开发者和研究者都有参考意义。
●🤝 开放贡献和重构指南

提供重构模板、实现步骤和测试基准,鼓励开发者基于此框架贡献修正、深化分析、开发开源实现。
●⚖️ 合法合规与免责说明

项目用于学术和教育目的,不涉及恶意逆向行为,不建议用于商业竞争。
00
Simon的白日梦
4天前
HiDream E1.1 ComfyUI 原生支持现已发布

质量不错,也可以用嘴改图,但是对显存要求太高了😂 (至少也要4090,完整版需要A100……)
🧐 智象未来开源的 HiDream E1.1 图像编辑模型正式上线,性能全面超越前代和多个主流模型,并在 ComfyUI 中实现原生支持,可免费用于个人和商业用途。
➡️链接:mp.weixin.qq.com
✨重点

●🎨 反常识亮点:在色彩调整、风格转换、元素添加/移除等多个图像编辑维度,HiDream E1.1 超越 HiDream E1 和市面上的主流模型,性能显著提升。
●📜 开源协议:采用 MIT 许可证,完全免费、开放,并允许商业化使用,大幅降低了专业图像编辑AI的使用门槛。
●🖥️ ComfyUI 原生集成:HiDream E1.1 已被 ComfyUI 主分支原生支持,用户只需更新 ComfyUI 即可使用(桌面版支持也即将上线)。
●📐 动态分辨率支持:最高可处理达 100 万像素的高分辨率图像,适配不同创作需求。
●📚 快速上手:官方文档详细提供下载、工作流、运行指南,极大方便用户上手体验:docs.comfy.org
●🌐 社区生态丰富:提供微信公众号、微信群、Discord、YouTube直播、Bilibili 等多个官方和第三方社区渠道供用户交流、获取更新和教程。
●🙏 社区贡献:感谢大量社区用户创作、翻译和分享使用案例、资讯和教程,官方也欢迎更多第三方社区和企业合作。
01
Simon的白日梦
4天前
阿里开源的 Wan 2.2视频生成模型质量真的很好啊~! 16G显存能跑的5B模型的生成质量已经有大片质感了,我都有点像入4090-48G去测14B模型了🥹

《Wan2.2:开放且先进的大规模视频生成模型》

Wan2.2: Open and Advanced Large-Scale Video Generative Models
🧐一句话总结:Wan2.2 引入专家混合架构(MoE)、审美可控训练数据和高压缩VAE,显著提升视频生成质量与效率,是当前开源中效果最强、推理速度最快的720P视频生成模型之一。
➡️代码链接:github.com
➡️中文使用指南:alidocs.dingtalk.com
➡️comfyui支持:docs.comfy.org
➡️官网试玩:wan.video
✨重点

●🧠 专家混合架构 MoE 提升模型表达力:Wan2.2 将 MoE 架构首次引入视频扩散模型,通过按时序动态激活高噪声/低噪声专家(均为14B参数),总参数达27B,但每步仅使用14B计算资源,大幅提升生成质量同时保持推理成本不变。
●🎥 支持多模态高质量视频生成:Wan2.2 提供文本生成视频(T2V)、图像生成视频(I2V)、图文混合生成视频(TI2V)三种模式,支持最高720P@24FPS输出,且同时支持单卡和多卡推理部署。
●🖼️ 精细化审美控制能力:训练数据包含大量标注精确的美学标签(如构图、光影、色调等),允许用户精细控制生成视频风格,实现媲美电影的画面表现力。
●⚡ 高压缩率VAE提升运行效率:发布的TI2V-5B模型使用Wan2.2-VAE实现了64倍压缩(4×32×32),即使在消费级GPU(如RTX 4090)上也可在9分钟内生成5秒720P视频,适用于学术研究和工业部署。
●🧪 性能全面超越闭源商用模型:在自建的Wan-Bench 2.0基准测试中,Wan2.2 在运动、语义一致性和美学维度上均超越现有商用闭源视频生成模型。
●🔧 详细推理与部署支持:README 提供了丰富的命令行示例,覆盖不同任务、单卡/多卡、提示词扩展(支持 DashScope 或本地 Qwen 模型)等场景,便于开发者快速上手。
●📦 模型开放托管:所有模型均已上传至 HuggingFace 和 ModelScope,用户可自由下载包括 T2V-A14B、I2V-A14B、TI2V-5B 在内的模型权重并部署使用。
●🧩 集成主流工具链:Wan2.2 已支持 ComfyUI 和 HuggingFace Diffusers 框架,可无缝接入 AIGC 创作流程。
●📈 量化与并行训练支持:配套工具 DiffSynth-Studio 提供低显存卸载、FP8 量化、序列并行和 LoRA 微调支持,利于模型的轻量部署和二次训练。
●📚 学术引用与开源协议友好:模型采用 Apache 2.0 许可证,允许自由商业/非商业使用,提供完整论文引用信息,便于研究者跟进。
如需我进一步帮你写使用指南或生成视频的示例命令,请告诉我你打算做哪个任务(T2V、I2V、TI2V)及使用的设备类型。
01
Simon的白日梦
4天前
腾讯开源了文生3D场景模型!看了一下前半部分还是基于原来的对文生360°环境贴图的深度估计技术路径,但是增加了对图像的二次硬分层,这样整个场景就可以走进去和做完整的集合交互,而不是只是能旋转地看了~!(话说看代码库好像已经全部开源文生3D世界了,但是官网还智能跑文生全景图?)
发布即开源,腾讯混元3D世界模型1.0来了:全景生成、可漫游、可交互
🧐 腾讯正式发布并开源混元 3D 世界模型 1.0,具备“文本/图像生成完整3D场景+360°全景漫游+结构化Mesh导出+支持CG生产管线”的端到端能力,是首个对接工业实用级创作流程的中文3D世界生成模型。

●🧩 相关资源:
GitHub 项目:github.com
模型主页:3d-models.hunyuan.tencent.com
Hugging Face 地址:huggingface.co
在线体验:3d.hunyuan.tencent.com

中文阅读拓展:mp.weixin.qq.com
✨重点

●🌍 全景3D世界一步生成:不同于传统仅生成局部物体或静态场景的模型,混元3D模型支持“一句话生成完整360°世界”,四周连续、空间一致,具备极强沉浸感,适用于游戏、影视、VR仿真等场景。
●🧱 输出为可用资产而非“观赏图”:生成结果不仅是全景图像,更是可导出的标准3D mesh网格文件,支持一键接入Unity、UE、Blender等主流建模工具,完成从AI生成到生产落地的闭环。
●🛠️ 自研层次化生成架构:模型采用“前景-背景-天空层”三层结构,自动解析并分离,便于后续二次编辑和资产优化,是工业级场景建模中重要的结构性创新。
●🕹️ 可漫游与交互:生成的场景不仅可视,还可“走进去”自由移动,突破传统静态3D场景的限制,广泛适配交互游戏、具身智能仿真、数字孪生等方向。
●🎨 艺术泛化能力优异:在风格化场景(如幻想森林、赛博街区)中构图完整度高、细节饱满,初步展现了较强的审美泛化能力,能在设计初稿创作中代替部分手工建模流程。
●📈 模型评测结果领先:在360°全景/3D场景文生图等维度,对比多个SOTA开源模型,混元1.0在纹理细节、空间感、美学、文本指令服从性等方面指标全面领先。
●📂 多模态输入支持:支持“文字生成场景”“图像生成场景”,或文字+图像共同提示,为创作者提供灵活控制选项,适用于从灵感草图到具体结构的多步创作路径。
●👨‍🏫 真实开发者反馈:
响应速度快,生成构图满意,风格化表现力强。
建议后续加强不可见面的mesh优化、增加开发引擎视图模式(如线框、白模)以提升引擎适配性。
●🧠 “从重建一个物体到理解一个世界”:腾讯团队表示,混元1.0是“从物体到场景”阶段的标志性里程碑,下一步将引入VR/AR增强交互、推进具身智能与环境理解。
●🧩 相关资源:
GitHub 项目:github.com
模型主页:3d-models.hunyuan.tencent.com
Hugging Face 地址:huggingface.co
在线体验:3d.hunyuan.tencent.com
这款模型的发布使3D生成从“看起来像”向“能被实际使用”迈出关键一步,是AI视觉内容生成领域中极具工程化突破的成果,标志着中文生态正式进入3D生成工业实用阶段。
01
Simon的白日梦
4天前
话说Kimi K2还没火几天,又被GLM-4.5卷到了🥹 我在他们官网上试了两天 ( chat.z.ai ),确实不错,使用感觉接近gemin 2.5 pro,而且感觉这两天速度都变慢了,估计用的的太多了😂 图2是我跑的case,提示词是 “帮我生成一个可视化程序,展现的是模拟人在思考时神经元之间的信号传递,要求可以放大缩小旋转交互。”(用的普通模式,全栈模式反而会出错,很奇怪,case的链接在 :chat.z.aispace/f04d16agz021-art)
GLM-4.5:Zhipu AI 面向智能体场景设计的大语言模型(GitHub 项目页)
🧐 GLM-4.5 是智谱 AI(Zhipu AI)发布的开源大语言模型系列,聚焦智能体(Agent)应用,支持推理、代码、工具调用等多模态任务,提供 FP8 与 BF16 混合推理、思考/非思考双模切换、多模型部署与推理框架支持,综合性能位居所有开源与闭源模型的前三。
➡️链接:github.com
✨重点

●🧠 模型结构与特点:
GLM-4.5 主模型:355B 总参数,32B 激活参数(活跃参与推理)。
GLM-4.5-Air:更轻量版本,106B 总参数,12B 激活参数,计算更高效。
具备“思考模式”(复杂推理、工具使用)与“非思考模式”(快速响应)两种交互方式。
●📊 评测性能顶尖:
在 12 个行业标准基准测试中得分 63.2,排在全球第 3,仅次于部分闭源模型。
GLM-4.5-Air 以更少的计算资源取得 59.8 分,效率表现突出。
●⚙️ 推理配置建议:
所有推理均需高性能 GPU(如 H100、H200),支持 FP8/BF16 精度与 FlashAttention。
推理框架支持 SGLang 和 vLLM,推荐启用 speculative 推理(EAGLE 算法)以提速。
支持最大上下文长度 128K,需 16–32 张 H100。
●🧪 思考模式机制与工具调用:
请求中默认启用“思考模式”,若需关闭需手动传参 enable_thinking: false。
原生支持 OpenAI 风格工具调用(Tool Calling),适配智能体开发需求。
●🛠️ 微调能力强大:
支持使用 Lora/SFT/RL 三种微调方式。
提供与 LlamaFactory 和 Swift 的训练适配代码。
推荐显卡规格为 4–128 张 H100(96GB),支持大规模微调任务。
00
Simon的白日梦
18天前
浙大和阿里这个OmniAvatar是我看到过的目前最逼真的开源虚拟人视频生成模型了:不仅是嘴型,手势、背景和交互的物品都可以动!而且可以做表情和动作的精细控制!(不过看了一下模型list,他不是传统的图转虚拟人动画模型,而是融合了一系列文生视频和音频生成模型,所以也不奇怪了~)
Efficient Audio-Driven Avatar Video Generation with Adaptive Body Animation (高效的音频驱动自适应身体动画虚拟人视频生成)
🧐 OmniAvatar 提出了一种突破性的音频驱动虚拟人全身视频生成模型,不仅提升了唇形同步的准确性,还实现了自然、流畅的全身动画,并支持精细的文本提示控制。
➡️链接:omni-avatar.github.io
✨重点

●🎥 反常识创新:现有方法主要聚焦于面部动画,OmniAvatar 则突破局限,生成自然、同步且全身动作丰富的视频。
●🔊 核心技术:提出像素级多层次音频嵌入策略,更好地在潜空间中捕捉音频特征,从而提升不同场景下的唇形同步效果。
●⚙️ 训练方式:采用基于 LoRA 的训练方案,在保留基础模型提示控制能力的同时有效融合音频特征,参数高效、易于训练。
●🕺 精细控制能力:支持通过文本提示控制运动幅度、情绪(如高兴、愤怒、惊讶、悲伤)、背景和场景,例如骑摩托、网吧背景、空气特效、相机拉远等。
●🤝 人机交互拓展:能够在说话的同时与物体互动,显著拓宽了音频驱动数字人的应用场景。
●🎙️ 多领域应用:可用于播客、互动场景、动态场景和演唱等多种应用场景。
●🏗️ 架构概览:以基础生成模型为骨干,引入LoRA模块并结合音频特征进行训练,从而在保留基础能力的同时大幅增强动画表现。
●📄 开源与引用:论文已发布在arXiv(2506.18866),提供了BibTeX引用供学术引用。
02:01
317