即刻App
年轻人的同好社区
下载
App内打开
Simon的白日梦
85
关注
1k
被关注
3
夸夸
🧐AI/艺术/设计/建筑/生态跨领域佛系研究者
📚发量充足的建筑学在读博士
💼中国美院/伦敦大学学院客座教师
置顶
Simon的白日梦
1年前
✨大家好~ 我是Simon阿蒙,我现在的身份有:不知道啥时候能毕业的PhD / 佛系自媒体人 / 菜鸟独立开发者 / 断更艺术创作者 / 半个数字游民 / 初创公司打杂人员🐶
👉个人独立站:
shengyu.me
✨想成为理解AI,但AI无法取代之人
📑我分享过的有用资源📑:
- 🌟科普教程:
- 我上 AI 顶会啦!CVPR AI Art Gallery 作品极简创作教程 (2024.06):
mp.weixin.qq.com
- OpenAI Sora视频生成模型技术报告中英全文+总结+影响分析 (2024.02):
mp.weixin.qq.com
- 送立体动态新年红包+最好用的SD客户端+开源视频生成模型 (2024.02):
mp.weixin.qq.com
- AI时代抗焦虑指北 —— 被AI包围之后,人类“完蛋”了吗?(2023.12):
mp.weixin.qq.com
- AI生成3D问题的简化和解决,以及随之而来的新问题(2023.11):
mp.weixin.qq.com
- 如何制造大语言模型的意识幻觉?斯坦福AI小镇论文精读 (2023.09):
mp.weixin.qq.com
- ChatGPT基本原理(告诉你为啥它啥都懂)(2023.04):
mp.weixin.qq.com
- 从用手建模到用嘴建模:一文说透最新用文字生成三维模型的人工智能算法原理 (2022.10):
mp.weixin.qq.com
- 5分钟上手人工智能设计:借AI之力用文字生成图片(无软硬件+前置知识要求,2021.08):
mp.weixin.qq.com
- 🌟工具合集:
- 关于声音生成的一切(2024.01):
mp.weixin.qq.com
- 关于4D 生成的一切(2024.01):
mp.weixin.qq.com
- 关于 chatGPT 的一切(实用工具篇,2023.05):
mp.weixin.qq.com
- 关于 ControlNet 的一切(2023.04):
mp.weixin.qq.com
- 关于3D 内容人工智能 (AI) 生成的一切(2023.01):
mp.weixin.qq.com
- 关于人工智能内容生成(AIGC)的一切(2022.10):
mp.weixin.qq.com
😶🌫️
💽AIGC代表作💽:
- 🌟代码开发:
- 我攒了一扇 AI 平行时空传送门——3D gaussian 复杂大场景迁移(2024.04 已暂停):
mp.weixin.qq.com
- 我,编程菜鸟,攒了一个用文字生成三维模型的AI工具(Dreamfields-3D,已开源,2022.09):
mp.weixin.qq.com
- 🌟艺术商业案例:
- 我如何用AI为小米国际限量版手机做宣传片(2023.03):
mp.weixin.qq.com
- AI创作的正确打开方式:雪佛兰×全屏本是×Simon的白日梦 | AIGC商业落地案例复盘 (2023.02):
mp.weixin.qq.com
- 国家地理中文网:“守护海洋原住民”系列数字藏品创作(2022.05):
mp.weixin.qq.com
- 🌟 AI视频作品:
- ✨微观宇宙:一木一浮生,一空一有无, 一念一无限 (2024.08):
b23.tv
- 云端画意 —“古董”AI模型生成复古国风山水动画(2023.07):
www.bilibili.com
- 硅基生物图鉴-硅藻云戏者(2023.06):
www.bilibili.com
- 量子场-无AI生成艺术(2023.04):
www.bilibili.com
- 微观世界极限深潜(2022.10):
www.bilibili.com
- 幻时之砂(2021.12):
www.bilibili.com
- 超级文明已经组队迁往二次元元宇宙了,而你还没有拿到船票?(2021.12):
www.bilibili.com
🎖️AIGC经历🎖️:
- 做过课程或讲座的地方:英国伦敦大学学院 / 奥地利因斯布鲁克大学 / 中央美院 / 小米 / 深圳市插画协会 / 集智俱乐部 / 国际人机交互大会 / 艾厂 / 中国科普作家协会
- 合作过的厂商:小米 / 雪佛兰 / 现代 / 周大福 Tmark / 国家地理中文网
- 参展过的地方:上海设计周 / 上海喜马拉雅美术馆 / 威尼斯元宇宙艺术年展 / 北京Tong画廊 / 郑州海汇美术馆 / 北京-城市建筑双年展 / 伦敦 Zero to One Space / 奥地利-蒂罗尔建筑中心
📻我的社媒📻:
- 公众号 / 视频号 / B站 / 小红书 / 微博:Simon的白日梦
- 我的 AI 自动化创作替身 - CyberGenix:
weibo.com
- 知识星球(核心社群):AI白日梦想家 (向我提问,72小时无条件退款,领券:
t.zsxq.com
)
🥰写在最后🥰:
感谢你读到这里,其实我是一个佛系+拖延的人,能做那么多事情或许真的是因为一直以来大家给我的正反馈,所以我后续会一直在这里更新有用的资源(你可以收藏或者转发这个帖子)。如果你有问题或者希望找我合作,可以私信我也可以发到 📧simondaydream@163.com。如果我48小时后还没有回复,可以再提醒我一次。最后,希望世界和平,愿你身心自在🤗。
57
7
20
Simon的白日梦
1天前
腾讯发布了一个能确保多段视频主体连续一致性(锁定主角)的新视频模型😯同时支持用指定人物、物体的图片生成视频,以及对已生成的视频进行编辑~!🥹
《HunyuanCustom:多模态驱动的定制视频生成架构》
🧐腾讯发布的HunyuanCustom是一种支持文本、图像、音频与视频多模态输入的定制视频生成模型,核心突破在于多模态融合与人物一致性保持,能精准实现“指定人做指定事”的视频合成。
➡️链接:
hunyuancustom.github.io
✨重点
●🧠 核心目标是人物一致性与灵活控制:HunyuanCustom解决了定制视频中“人物前后不一致”的长期难题,通过图像ID增强模块确保视频内同一人物的视觉特征保持一致。
●🧩 多模态融合支持任意输入组合:支持用图片+文本、音频、视频等任意形式描述视频生成目标,依托LLaVA图文融合与音频/视频专用注入模块,灵活控制生成内容。
●🧰 引入AudioNet与视频注入模块:用于处理语音控制的视频场景(如角色口播)和视频风格替换(例如用你的头像替换某视频主角),实现“声音驱动人动”、“视频换脸不违和”。
●✨ 多人物场景处理能力强大:不仅支持单人角色定制,还可在多角色互动(如“女孩与玩偶互动”或“人与动物共处”)中保持身份清晰、动作协调。
●📊 对比实验全面胜出:文章展示与多个当前SOTA开源/闭源方案的对比,HunyuanCustom在人物一致性、画面真实感与文本对齐度方面均明显优于同行。
●⚙️ 支持参考图像与参考视频双向控制:你可以提供“形象图”+“行为视频”,系统将自动将指定形象套入原有行为视频中,适合数字人、虚拟主播、剧本改编等需求。
●📽️ 具备语义场景创造力:不只是换脸换人,更能根据描述生成完全虚构但语义自洽的视频场景,如“女人骑虎穿越田野”、“男人与熊猫对战”等。
●📎 官方附带arXiv论文与开源代码地址:提供完整方法文献(arXiv:2505.04512)和展示案例,研究者可进一步复现和调研。
00:05
0
1
0
Simon的白日梦
1天前
还记得前段时间发过的,能够跳过游戏建模步骤,直接根据用户操作和当前帧生成下一帧游戏画面的世界游戏模型么?现在又出新东西了~而且还是国产厂商!
《AI无限生成《我的世界》,玩家动动键盘鼠标自主控制!国产交互式世界模型来了》
🧐昆仑万维发布的Matrix-Game模型实现了基于用户操作即时生成开放世界画面的能力,突破传统预渲染范式,展现出国产AI在“物理一致+实时交互”的空间智能领域的领先探索。
➡️代码及模型:
matrix-game-homepage.github.io
➡️中文拓展阅读:
mp.weixin.qq.com
✨重点
●🎮 用户操作即生成,内容“边玩边创”:Matrix-Game支持键鼠控制下实时生成游戏世界场景,玩家的行为(如砍树、跳跃)直接触发内容建构,是动态生成而非预加载。
●🌍 3D世界建模核心依赖扩散模型+自回归视频生成:基于一张图像输入+动作token,逐帧生成符合真实物理规则的连续3D场景,支持视角控制与多种动作响应。
●📦 数据构建采用无标签+可控双管齐下:从6000小时游戏视频中筛出高质量样本并融合Unreal模拟生成的精确标注数据,为模型训练提供大规模交互性素材。
●📊 自研评估体系GameWorld Score开创三维评测范式:首次从视觉质量、时间一致性、交互可控性、物理合理性四大维度系统评测交互式世界生成模型。
●🎮 两阶段训练框架:模型先进行大规模无标签预训练以理解环境,再通过动作标注微调,实现具备交互性的高质量视频生成。
●📊 Matrix-Game-MC 数据集:包含2700小时无标签Minecraft视频和1000小时带有详细鼠键操作标注的视频,支撑模型高质量训练。
●🧠 生成范式创新:基于“图像到世界”范式,从单帧图像、运动帧和用户输入动作生成连贯视频,结合自回归策略保持时间一致性。
●🏆 全面击败微软MineWorld与Oasis模型:Matrix-Game在八大Minecraft场景测试中表现全面领先,视觉偏好率达98.23%、动作响应准确率超90%。
●🧠 不依赖语言提示,仅基于图像+动作实现建模:对比Sora等语言主导的生成方法,Matrix-Game更强调“感知-动作-反应”的底层交互机制,是更具训练通用性的空间智能架构。
●🎬 应用场景广泛:从虚拟影视、元宇宙建模到具身智能体训练:具备构建低成本、高保真、交互性强的虚拟3D环境潜力,适用于游戏开发、影视合成及AI智能体训练平台。
00:04
3
0
2
Simon的白日梦
1天前
通过文本生成全景图后加上深度估计生成完整3D场景的模型有不少了,但是这个应该是目前看到质量最好的一个,而且还可以直接导出mesh。
《WorldGen:几秒内生成任意交互式3D场景》
🧐WorldGen 是一个能够基于文本或图像输入,在数秒内生成可360°探索的3D场景的模型,它跳过复杂建模流程,通过全景图+结构重建两步,极大降低3D内容创作门槛,有望成为AIGC时代的“3D世界生成器”。
➡️链接:
worldgen.github.io
✨重点
●⚡ 文本/图像秒变3D世界:用户只需提供一句Prompt或一张图,WorldGen即可生成完整三维空间,场景从写实客厅、火星地表到卡通珊瑚城一应俱全。
●🌐 核心技术:两阶段“全景转场景”流程:先生成360°高分辨率全景图,再将其转为3DGS或mesh,实现视角一致性与空间几何重建,是效率与保真度的折中解法。
●🔄 支持360度自由探索与回环一致性:生成场景不仅可任意视角漫游,还保证环视不跳帧、不错位,体现几何重建算法的空间连续性优势。
●🎨 风格迁移灵活,从Minecraft像素风到赛博朋克光影皆可:通过Prompt控制风格与细节,可广泛应用于游戏场景构建、元宇宙编辑、建筑可视化等3D内容需求。
●🛠️ 不依赖复杂Buzzword,架构直白可复现:官网明确列出技术路径,无“神秘术语”包装,更适合科研开发者学习参考,GitHub仓库开放可直接上手。
●📦 Demo在线体验即点即用:内置交互式浏览器Demo,支持用户自行测试生成场景并实时漫游体验,感受空间逻辑与真实感。
1
0
2
Simon的白日梦
1天前
❤️I原生艺术探索与创作主体性之争:中国美术学院开放媒体系《人工智能艺术》课程作业精选
有幸与武子杨老师于国美共同执教此课程,并得以将我对AI艺术复杂且矛盾的理解通过教育付诸实践,即:“与通过AI技术创造原生艺术形式同步发生的是艺术家对于创作参与权的让渡,因而艺术家需要抓住独特的、AI时代独有的创作理念才能确保作品的主体性”
(PS:强烈建议大家进进去以下的链接去看每一个作品,学生的作品都好有意思~大家都好强~!国美的氛围也好好!)
🧐本课程通过ComfyUI等开源工具实践,引导学生以系统思维与技术互搏方式反抗AI美学的同质化,重新建构艺术家主体性与人机协作的新范式。
➡️原文链接:
mp.weixin.qq.com
✨重点
●🧠 系统化创作范式探索:课程以“系统策划”思维构建AI艺术创作框架,强调从算法架构到媒介解构的全链路实践,避免AI美学作品的千篇一律。
●🤖 开源工具与技术互搏:使用ComfyUI、API、多模态输出、递归Agent等工具,倡导“流程即创作”的程序艺术思维,强化人机共创与动态生成机制。
●🎨 创作主体性重构:课程引导学生不只是使用AI工具,而是通过编程、结构设定与逻辑设计主动塑造创作路径,强调艺术家的“介入性”而非工具依赖。
🧩中国美院《人工智能艺术》课程精选作品
1️⃣《走马灯》
📍AI识别用户上传图像,对图中人物“面对死亡的态度”进行哲学性判断,构建6大分类维度,反思人类是否正在遗忘对死亡的敬畏。
2️⃣《R.I.Pixels》
📷上传一张“无用照片”,AI为它举行虚拟葬礼:诊断死亡、入殓、墓志铭……像素灰烬中的记忆获得“第二次存在”。
3️⃣《QRebirth 0.5》
🕹扫码进入0和1编织的虚拟QR城市,玩家化身“AI与机器”,质问:当我们把认知世界的权力交给AI,人类还能主动解读“真实”吗?
4️⃣《女娲补天新编》
👩🎨用AI重塑“女娲”神话形象,把传统神话中的“母性神”赋权当代女性。通过小红书评论生成寓言文本与图像,重新定义女性话语。
5️⃣《AnimeVeil》数字痛车系统
🚗用手机拍车,一键生成数字痛车,几分钟搞定原本需200+工时的改装。探讨“数字图层”与“现实物理”的真实性对抗。
6️⃣《战争剧场:四位AI女战士》
⚔️虚拟战场中4位来自不同文化的AI女兵,展开生死搏杀,反思战争、信仰、人性、牺牲——AI视角下的反乌托邦寓言。
7️⃣《A Show》
🎭由AI提出问题、回答问题,反复生成关于“懒惰”的逻辑剧场,揭露算力内耗与人类机制的荒谬对照。
8️⃣《规则与反抗的双人舞》
🔍一个AI审查、一个AI反审查:前者标注违规图像,后者用鲜花、电路板等“合规”元素实时修补,构成技术版“猫鼠游戏”。
9️⃣《LUNARPUNK》
🌙构建AI品牌,推出“债务珍珠”“社交地位手镯”等黑色幽默产品,用动物模特演绎阶级分化,讽刺消费主义的荒诞繁荣。
🔟《Fusion Pet》
🐾生成定制宠物陪伴体验,满足用户情感投射。AI是否可以成为人类“真正的朋友”?技术和感情边界正在被打破。
1️⃣1️⃣《Plant Diary》
🌱将心情转化为植物生长参数,AI生成你的“情绪植物”。打造属于每个人的数字精神花园,对抗数据对情感的异化。
1️⃣2️⃣《Neo-Niche 第二生态位》
🌇从外星猫的视角,观察城市中的“非碳基生态”:热污染、电磁波、噪音……是人类文明的“副产物”正在重构生物圈。
1️⃣3️⃣《非自愿更新》
🧠AI伪造童年记忆,删除“无效情绪”。曾经熟悉的场景被算法重绘,我们的记忆,还属于我们吗?
💡写在最后
这门课最惊艳的地方在于:他们不是在“用AI创作”,而是在“质问AI存在本身”。
相比千篇一律的AI美图,他们更关注“人在AI时代的自我感知”,是一次真正有批判性的创作教育。如果你也在思考“AI会不会取代艺术家”这种问题,或许他们给出了更深的回答。
03:41
1
0
0
Simon的白日梦
1天前
好家伙,用嘴改图已经不算啥了,现在已经卷到用嘴改视频了~还开源~!(又是阿里😂)《VACE:全能视频生成与编辑框架》
🧐阿里通义实验室推出的 VACE 模型实现了“视频生成+视频编辑+角色操控+风格重绘”一体化的通用框架,支持“动什么改什么”的精准控制,标志着AI视频从“文本驱动”走向“编辑级操作”的关键转变。
➡️链接:
ali-vilab.github.io
✨重点
●🎬 All-in-One 视频能力融合模型:VACE不仅能生成高质量视频,还具备强大的编辑功能,如角色替换(Swap-Anything)、动作动画(Animate-Anything)、风格转移、区域放大、参考驱动生成等。
●🕹️ 支持精准结构保持与局部编辑:可对视频中的内容、结构、主体、姿态、运动等进行保留与局部重绘,实现内容一致性的前提下进行再创作。
●🎨 多风格生成覆盖二维/三维/动画/写实/油画等:展示内容跨越写实风景、古典油画、二次元、拟人动物等风格,体现其模型风格适应性极强。
●🧠 无需语言描述,基于视觉+动作驱动生成:区别于主流文本生成视频方法,VACE强调通过图像+编辑动作驱动生成,使得控制更直观,操作更具编辑感。
●📽️ 视频再渲染模块支持高保真逐帧还原:VACE能保持原视频的构图、节奏和动作细节,仅对局部内容进行风格/元素重建,是面向“内容二创”的理想工具。
●📊 项目已开源并提供模型部署接口:支持在 HuggingFace(🤗 模型地址)和 ModelScope 上试用,便于研究和实操探索。
●🌌 可扩展性强,适用于AI影视制作、虚拟人生成、内容再创作等场景:相比仅能“一次出片”的文本驱动视频生成,VACE更像是视频内容的“Photoshop+Premiere”合体。
02:07
4
0
3
Simon的白日梦
9天前
话说这个有人试过么?感觉是GPT-4o的开源平替?
社区供稿 | 阶跃星辰开源图像编辑模型 Step1X-Edit: 人人都能用的“改图大师”!
🧐 Step1X-Edit 是阶跃星辰开源发布的新一代图像编辑大模型,结合MLLM与Diffusion架构,具备语义精准解析、身份一致性保持与高精度区域控制三大核心能力,在GEdit-Bench基准上表现超越现有开源模型,接近GPT-4o水平。
▶️code:
github.com
➡️中文拓展阅读:
mp.weixin.qq.com
✨重点
●🖼 强大编辑能力:支持文字替换、风格迁移、材质变换、修图等11类高频图像编辑任务,编辑精度与保真度兼备。
●🧠 创新技术架构:通过MLLM负责语言与图像理解、Diffusion负责图像生成的解耦设计,实现复杂指令下的高控制性与高质量输出。
●🔍 顶级性能表现:在GEdit-Bench评测中,在语义一致性、图像质量、综合得分三项指标上全面领先其他开源模型。
●✍️ 自然语言交互友好:无需模板化指令,支持自然对话式输入,一句话即可高效完成复杂图像编辑。
●🧬 身份一致性优势:特别擅长在修改图像内容时保留人脸特征、姿态与风格,适合虚拟人、电商等场景应用。
●⚡ 广泛可用性:已开源并上线至GitHub、Hugging Face、ModelScope及阶跃AI官网,支持个人和企业自由体验与部署。
●📚 大规模高质量数据训练:基于100万条高质量样本、覆盖11大编辑类别进行训练,保证模型通用性与精细控制能力。
●✨ 丰富案例演示:支持从改文案、改物体、变材质到风格转换的多种复杂编辑,体验自然流畅且高质量。
4
2
2
Simon的白日梦
9天前
有人说这个是老板防员工摸鱼神器,但是我怎么觉得是Rewind开源平替?😂
GitHub - mediar-ai/screenpipe:基于 24/7 桌面记录的 AI 应用商店
🧐 Screenpipe 是一个本地运行、开源的 AI 桌面应用平台,通过持续记录用户屏幕和麦克风活动,构建具备完整上下文感知能力的 AI 应用生态,支持插件开发、收入变现和端侧部署,被誉为“桌面版的自动化 Agent SDK”。
➡️链接:
github.com
✨重点
●🖥️ 24/7 桌面+麦克风本地录制:全程离线、本地运行,不上传数据,记录用户屏幕和声音信息,资源占用控制在10% CPU、4GB RAM、15GB/月。
●⚙️ AI 应用构建平台:开发者可基于用户桌面上下文开发“Pipe”插件(如剪辑助手、日程自动化、搜索追踪等),支持 Next.js 编写、Rust 沙箱执行。
●🛒 插件生态与变现机制:支持将 Pipe 应用发布至 Screenpipe Store,可设定价格,实现按月订阅或一次性购买的收入流。
●⚡ 终端控制级 Agent SDK:通过调用操作系统 API(非视觉识别),实现比 Playwright 快 100 倍的操作可靠性,是 Agent 应用自动化控制的理想底座。
●🧰 快速部署方式:提供 Windows/Linux/macOS 一键安装脚本,社区还维护 Electron、Tauri 桌面应用模板,便于二次开发。
●📈 社区活跃与开源推动:仓库已有 1.4 万星、近千个分支,长期霸榜 GitHub Trending,支持 Bounty 悬赏开发与 Hackathon 赛事。
●🔄 与 Obsidian 等工具集成:官方与不同 AI 工具(如 Different AI、Obsidian 插件 Granola 替代方案)进行集成,扩展应用边界。
●🧠 哲学:AI ≠ 算法,而是上下文:团队主张“大模型同质化时代,真正的 AI 优势来自‘最懂你’的上下文”,而你的桌面就是全部线索来源。
0
0
2
Simon的白日梦
9天前
有意思,带深度、法线知识,基于推理的4D场景重建世界模型(虽然目前主要还是生成机械臂相关的4D场景。)
TesserAct: 学习具身 4D 世界模型
🧐 TesserAct 是一个新颖的 4D 世界模型框架,通过融合图像、深度图和法线图,生成具备时空一致性的动态场景,并用于提升机器人在真实世界中的动作规划和策略学习。
➡️链接:
tesseractworld.github.io
✨重点
●🎥 RGB-DN 多模态学习:模型同时学习图像(RGB)、深度图(Depth)和法线图(Normal),生成更完整、更丰富的 4D 视频内容。
●⏳ 时空一致的 4D 场景生成:TesserAct 可从一张图片和一句文本指令出发,生成具有时间逻辑的动作视频,重建“随时间演化的3D世界”。
●🤖 多机器人通用支持:支持不同机器人执行同一任务(如 Fraka Panda 与 Google Robot 机械臂),展现出较强的具身泛化能力。
●🎨 画风多样、具创造性:即便未在动漫风或印象派画作数据中训练,模型也能生成符合艺术风格的动作视频,展现出惊人的生成潜力。
●🌀 生成路径多样性:相同输入、不同随机种子可得到多种操控路径,便于在实际部署中选择最优动作策略。
●⚠️ 已知局限与失败案例:存在物体消失、功能理解错误(如无法正确判断可操作性)等问题,需用多种推理尝试以获得最佳效果。
●🧪 研究开放共享:官网已提供论文、代码、模型卡及示例视频,支持学术研究者与开发者深度探索。
00:32
2
0
0
Simon的白日梦
12天前
📸我的威尼斯双年展参作品|AI重构威尼斯老木桩🌊
刚从威尼斯回来两天,暂时从背包被盗的阴影中恢复(提醒大家看好随身物品!)来发我们团队今年的参展作品【FundmentAI】定妆照!(哼哼我可是威尼斯艺术+建筑双料参展人了!)
✨设计灵感溯源
威尼斯泄湖随处可见的Bricole木桩(那些爬满贝类/海藻的百年导航+泊船柱🐚)让我们着迷——它们既是人类活动的痕迹,又是自然生长的载体。我们用AI模拟加速了木桩与生态的共生过程,结合后人类纪技术想象,通过3D打印+投影呈现虚实交织的未来图腾柱🖨️📽️
🖌️创作过程揭秘 (倒数第二张图)
▫️70%工作量由AI完成:将design strategy转化为生成式prompt
▫️AI生成轴测图→人工筛选优化→3D建模→点云打印
▫️投影Mapping展现数字生长动态
📍展区位置指南
军械库主展区入口第一厅🚪
与隈研吾作品同厅相邻✨
现场可扫码体验【FundmentAI Bot】(中间图)把你的威尼斯照片AI魔改赛博风🤖📸
🛠️技术栈
deepseek-R1|flux 1 dev|TRELLIS|houdini
👥主要创作人员
我:Ai工作流设计+概念生成+视频制作设计
陈昊颐:3D模型建模+精修制作+3D打印
展期持续至11.23,欢迎来玩!🎁
8
1
0
Simon的白日梦
23天前
一年多了,3DGS (3D 高斯)的换代技术要来了?🥹
EDGS:消除稠密化以高效收敛3D高斯投影
🧐 EDGS通过一次性密集初始化替代传统3DGS中的多次稠密化过程,实现了更快、更高质量的3D重建,特别是在细节丰富的区域表现优异。
➡️链接:
compvis.github.io
✨重点
●⚡ 传统3DGS依赖多次稠密化步骤逐步优化,而EDGS通过一次性基于密集图像匹配的三角化初始化,显著加快了优化过程。
●🖼️ EDGS在初始化时为每个高斯赋予精确的位置、颜色和尺度,使其初始状态接近最终结果,减少了后续调整的需求。
●🚀 相比3DGS,EDGS的高斯最终坐标位移减少了50倍,整体优化路径缩短了30倍,颜色变化路径也缩短了约2倍,优化速度提高10倍。
●🔍 该方法尤其在高频细节区域(如复杂纹理和几何结构)中效果突出,避免了传统方法在此类区域的渲染劣势。
●🔄 EDGS完全兼容现有3DGS加速技术,且在使用更少高斯点的同时,仍优于当前最先进方法的渲染质量。
●🧩 支持多种场景,包括前向视角和360度全景,适用于快速3D重建,如人像视频、机器人拍摄等。
●🛠️ 核心技术是从多个视角的图像密集匹配中进行三角化,精确恢复3D几何,避免依赖稀疏关键点的局限性。
00:43
7
0
1