即刻App
年轻人的同好社区
下载
App内打开
Simon的白日梦
85
关注
1k
被关注
3
夸夸
🧐AI/艺术/设计/建筑/生态跨领域佛系研究者
📚发量充足的建筑学在读博士
💼中国美院/伦敦大学学院客座教师
置顶
Simon的白日梦
1年前
✨大家好~ 我是Simon阿蒙,我现在的身份有:不知道啥时候能毕业的PhD / 佛系自媒体人 / 菜鸟独立开发者 / 断更艺术创作者 / 半个数字游民 / 初创公司打杂人员🐶
👉个人独立站:
shengyu.me
✨想成为理解AI,但AI无法取代之人
📑我分享过的有用资源📑:
- 🌟科普教程:
- 我上 AI 顶会啦!CVPR AI Art Gallery 作品极简创作教程 (2024.06):
mp.weixin.qq.com
- OpenAI Sora视频生成模型技术报告中英全文+总结+影响分析 (2024.02):
mp.weixin.qq.com
- 送立体动态新年红包+最好用的SD客户端+开源视频生成模型 (2024.02):
mp.weixin.qq.com
- AI时代抗焦虑指北 —— 被AI包围之后,人类“完蛋”了吗?(2023.12):
mp.weixin.qq.com
- AI生成3D问题的简化和解决,以及随之而来的新问题(2023.11):
mp.weixin.qq.com
- 如何制造大语言模型的意识幻觉?斯坦福AI小镇论文精读 (2023.09):
mp.weixin.qq.com
- ChatGPT基本原理(告诉你为啥它啥都懂)(2023.04):
mp.weixin.qq.com
- 从用手建模到用嘴建模:一文说透最新用文字生成三维模型的人工智能算法原理 (2022.10):
mp.weixin.qq.com
- 5分钟上手人工智能设计:借AI之力用文字生成图片(无软硬件+前置知识要求,2021.08):
mp.weixin.qq.com
- 🌟工具合集:
- 关于声音生成的一切(2024.01):
mp.weixin.qq.com
- 关于4D 生成的一切(2024.01):
mp.weixin.qq.com
- 关于 chatGPT 的一切(实用工具篇,2023.05):
mp.weixin.qq.com
- 关于 ControlNet 的一切(2023.04):
mp.weixin.qq.com
- 关于3D 内容人工智能 (AI) 生成的一切(2023.01):
mp.weixin.qq.com
- 关于人工智能内容生成(AIGC)的一切(2022.10):
mp.weixin.qq.com
😶🌫️
💽AIGC代表作💽:
- 🌟代码开发:
- 我攒了一扇 AI 平行时空传送门——3D gaussian 复杂大场景迁移(2024.04 已暂停):
mp.weixin.qq.com
- 我,编程菜鸟,攒了一个用文字生成三维模型的AI工具(Dreamfields-3D,已开源,2022.09):
mp.weixin.qq.com
- 🌟艺术商业案例:
- 我如何用AI为小米国际限量版手机做宣传片(2023.03):
mp.weixin.qq.com
- AI创作的正确打开方式:雪佛兰×全屏本是×Simon的白日梦 | AIGC商业落地案例复盘 (2023.02):
mp.weixin.qq.com
- 国家地理中文网:“守护海洋原住民”系列数字藏品创作(2022.05):
mp.weixin.qq.com
- 🌟 AI视频作品:
- ✨微观宇宙:一木一浮生,一空一有无, 一念一无限 (2024.08):
b23.tv
- 云端画意 —“古董”AI模型生成复古国风山水动画(2023.07):
www.bilibili.com
- 硅基生物图鉴-硅藻云戏者(2023.06):
www.bilibili.com
- 量子场-无AI生成艺术(2023.04):
www.bilibili.com
- 微观世界极限深潜(2022.10):
www.bilibili.com
- 幻时之砂(2021.12):
www.bilibili.com
- 超级文明已经组队迁往二次元元宇宙了,而你还没有拿到船票?(2021.12):
www.bilibili.com
🎖️AIGC经历🎖️:
- 做过课程或讲座的地方:英国伦敦大学学院 / 奥地利因斯布鲁克大学 / 中央美院 / 小米 / 深圳市插画协会 / 集智俱乐部 / 国际人机交互大会 / 艾厂 / 中国科普作家协会
- 合作过的厂商:小米 / 雪佛兰 / 现代 / 周大福 Tmark / 国家地理中文网
- 参展过的地方:上海设计周 / 上海喜马拉雅美术馆 / 威尼斯元宇宙艺术年展 / 北京Tong画廊 / 郑州海汇美术馆 / 北京-城市建筑双年展 / 伦敦 Zero to One Space / 奥地利-蒂罗尔建筑中心
📻我的社媒📻:
- 公众号 / 视频号 / B站 / 小红书 / 微博:Simon的白日梦
- 我的 AI 自动化创作替身 - CyberGenix:
weibo.com
- 知识星球(核心社群):AI白日梦想家 (向我提问,72小时无条件退款,领券:
t.zsxq.com
)
🥰写在最后🥰:
感谢你读到这里,其实我是一个佛系+拖延的人,能做那么多事情或许真的是因为一直以来大家给我的正反馈,所以我后续会一直在这里更新有用的资源(你可以收藏或者转发这个帖子)。如果你有问题或者希望找我合作,可以私信我也可以发到 📧simondaydream@163.com。如果我48小时后还没有回复,可以再提醒我一次。最后,希望世界和平,愿你身心自在🤗。
57
7
20
Simon的白日梦
3天前
一年多了,3DGS (3D 高斯)的换代技术要来了?🥹
EDGS:消除稠密化以高效收敛3D高斯投影
🧐 EDGS通过一次性密集初始化替代传统3DGS中的多次稠密化过程,实现了更快、更高质量的3D重建,特别是在细节丰富的区域表现优异。
➡️链接:
compvis.github.io
✨重点
●⚡ 传统3DGS依赖多次稠密化步骤逐步优化,而EDGS通过一次性基于密集图像匹配的三角化初始化,显著加快了优化过程。
●🖼️ EDGS在初始化时为每个高斯赋予精确的位置、颜色和尺度,使其初始状态接近最终结果,减少了后续调整的需求。
●🚀 相比3DGS,EDGS的高斯最终坐标位移减少了50倍,整体优化路径缩短了30倍,颜色变化路径也缩短了约2倍,优化速度提高10倍。
●🔍 该方法尤其在高频细节区域(如复杂纹理和几何结构)中效果突出,避免了传统方法在此类区域的渲染劣势。
●🔄 EDGS完全兼容现有3DGS加速技术,且在使用更少高斯点的同时,仍优于当前最先进方法的渲染质量。
●🧩 支持多种场景,包括前向视角和360度全景,适用于快速3D重建,如人像视频、机器人拍摄等。
●🛠️ 核心技术是从多个视角的图像密集匹配中进行三角化,精确恢复3D几何,避免依赖稀疏关键点的局限性。
00:43
5
0
0
Simon的白日梦
3天前
这个项目有意思,将指定的github代码仓库一键转换为教程~!
The-Pocket/Tutorial-Codebase-Knowledge:用AI将代码库转化为简单教程
🧐 该项目利用AI分析GitHub代码库,自动生成面向初学者的教程,并提供代码结构的可视化解释。
➡️链接:
github.com
用Google A2A代码库生成的教程:
the-pocket.github.io
✨重点
●🤖 本项目使用AI自动爬取和分析GitHub代码库,提取核心抽象并生成易懂的教程,适合初学者快速理解复杂代码。
●📚 依赖于 Pocket Flow,这是一个仅100行代码的LLM框架,通过它让代理(如Cursor AI)完成代码分析与教程生成。
●🌍 支持多语言教程生成,用户可以指定生成中文或其他语言的教程,便于全球开发者使用。
●🧩 用户可以通过命令行工具分析本地目录或远程GitHub仓库,并自定义包括、排除文件类型及最大文件大小。
●✨ 该项目已生成多个流行GitHub项目的AI教程示例,包括 FastAPI、Flask、NumPy 等,展示了AI在不同类型代码中的适应性。
●🚀 该工具在 Hacker News 上获得高度关注,展示了其社区认可度和影响力。
●🔧 提供详细的设置和运行指南,包括如何配置LLM模型(如Gemini Pro 2.5 或 Claude 3.7)以及如何启动教程生成流程。
12
0
4
Simon的白日梦
3天前
还得是敏神~!新开源的FramePack视频生成软件,超压缩+超加速(13B 大模型在仅需 6GB 显存(笔记本也行)条件下可生成 60s、30fps 的高清视频,实测 RTX 4090 每帧约 1.5s),还提供windows一键安装包~ 已加入comfyui全家桶🥹
《FramePack:让视频扩散更实用的帧预测模型》 | FramePack: Packing Input Frame Contexts in Next-Frame Prediction Models for Video Generation
🧐FramePack 是一种支持逐帧生成、上下文压缩的视频扩散模型架构,能在普通笔电上以低显存高效生成高质量长视频,实现视频扩散“类图像”化的突破。
➡️链接:
github.com
➡️win一键安装包:
github.com
/releases/download/windows/framepack_cu126_torch26.7z
➡️comfyui插件:
github.com
✨重点
●️🧠 创新结构设计:FramePack 采用“首帧上下文压缩”结构,可将任意长度视频的输入统一压缩成固定长度,有效降低生成复杂度。
●️🎞️ 支持逐帧/分段生成:基于 next-frame-section prediction 机制,视频可分段/逐帧生成,提供持续可视化反馈,提升用户体验。
●️💻 极低硬件门槛:13B 大模型在仅需 6GB 显存(笔记本也行)条件下可生成 60s、30fps 的高清视频,实测 RTX 4090 每帧约 1.5s。
●️**⚙️ 多样注意力支持**:兼容 PyTorch 原生 attention、xFormers、flash-attn 及 sage-attention,提供更大定制空间与性能优化选项。
●️📦 桌面级可用软件:提供独立 GUI(Gradio 实现),即装即用,支持图片上传 + 文本提示词控制生成,可快速入门实测。
●️🧪 Sanity Check 提示详尽:提供测试图像与提示词校验流程,帮助排查硬件或模型设置问题,便于初学者快速上手。
●️**⚖️ Teacache 性能调节机制**:引入缓存加速机制(teacache),提升推理速度同时兼顾质量,但需权衡不同硬件间的差异化效果。
●️**✍️ 提示词优化指南**:内置 ChatGPT prompt 模板引导写作,偏好描述动作明确、动态性强的情景,如“跳舞”“滑板”等。
●️📚 学术背景扎实:论文已上线 Arxiv,作者为知名研究者 Lvmin Zhang 与 Stanford 教授 Maneesh Agrawala,理论基础与实用性兼备。
●️🔓 完全开源自由使用:基于 Apache-2.0 协议开源,用户可自由研究、修改和商用。
7
1
4
Simon的白日梦
3天前
看了下昆仑万维这个无限时长的视频模型生成效果也很不错,还开源,而且硬件需求也不算很高 (使用 1.3B 型号生成 540P 视频需要大约 14.7GB 的峰值 VRAM,而使用 14B 型号生成相同分辨率的视频需要大约 43.4GB 的峰值 VRAM。),为啥好像没看到很多人讨论呢?🤔
《全球首个无限时长视频生成!新扩散模型引爆万亿市场,电影级理解,全面开源》
| SkyReels-V2 打破视频生成限制,开创“AI连续叙事时代”
🧐昆仑万维推出的 SkyReels-V2 是首个支持无限时长扩展的AI视频生成模型,不仅实现电影级镜头语法理解,还通过创新的结构化标注与扩散机制,全面开源,开启AI影视创作新范式。
➡️代码:
github.com
➡️网页版:
www.skyreels.ai
➡️拓展阅读:
mp.weixin.qq.com
✨重点
●️**⏳ 无限生成:Prompt 驱动+片段接续**
SkyReels-V2 可通过持续输入提示词(Prompt)与已生成片段,逐帧续接内容,实现任意时长的视频生成 —— 理论上无限延长剧情。
●️🎥 懂“拍电影”的 AI
通过结构化镜头表示(含镜头类型、角度、运动、表情等),实现对电影语法、运镜逻辑的高度理解,远超现有通用视频扩散模型。
●️🧠 专家模型蒸馏成 SkyCaptioner-V1
训练多个标注器(镜头/表情/运动等)后进行统一蒸馏,构建专业视频语义识别系统,镜头类型识别准确率达 93.7%,支持“导演级”控制。
●️**⚙️ 技术突破:Diffusion Forcing**
创新“扩散强迫”机制,支持上下文缓存、时长分桶、FoPP 调度器等,使得原本有限时长的扩散模型具备跨段生成+上下文记忆能力。
●️🏞️ 高质量+长时序兼得
通过三阶段分辨率预训练(256p→360p→540p)+运动流质量奖励优化,解决传统模型“清晰度和运动流互斥”的问题。
●️️🎼 多模态协同
视频配乐可由 Mureka AI 生成,展示了图像、视频、音频协同创作的实际路径,助力完整影视作品 AI 化。
●️🧪 综合评测领先主流模型
在 SkyReels-Bench 与 VBench1.0 指标中超越 HunyuanVideo-13B、Wan2.1-14B,特别在指令遵循性与运动合理性两方面成绩显著。
●️🧬 生成哲学变革
AI 不再是“生成素材的工具”,而是理解场景、执行镜头、服务情节的“协同导演”,让创作者专注于情绪与叙事构建。
00:37
6
0
2
Simon的白日梦
3天前
DeepResearch 平替,但是开源,还可以换底模 (看了下范文,是真够长的……😂) MapReduce-V2:让任何模型都能高效生成结构化长文档
🧐MapReduce-V2 是一种无需微调、专注结构优化的长文生成方法,利用“多步结构化写作”策略,通过信息熵与卷积机制提升任何大模型的长文输出能力,实现低配模型也能写出高质量万字报告。
➡️code:
github.com
➡️试玩demo:
surveygo.thunlp.org
➡️拓展阅读:《如何 AI「拼好文」:生成万字报告,不限模型》
mp.weixin.qq.com
✨重点
●️🧠 核心理念:结构优先,逐段生成
不靠单次长文本生成,而是先构建大纲,再按节逐步拼接,通过结构控制与递进优化,提升逻辑性与完整度。
●️**⚙️ MapReduce-V2 三步法**
Encode:整理/搜集主题相关素材(用户上传或AI自搜),并进行内容筛选与统一格式化;
整理大纲:摘要材料、自动出提纲、利用卷积式多轮优化(Convolution)去冗提炼,形成高密度逻辑骨架;
Decode:依照提纲分节生成内容,最终整体润色输出。
●️🔄 卷积优化(Convolution)机制
创新点在于利用多轮“建议融合+筛选打分”,逐层精炼提纲信息,类似 CNN 在图像上的局部感知,显著提升内容结构质量。
●️🧩 全过程 Prompt 设计完整
支持 AI 自动关键词拆解、网页爬取、摘要生成、提纲构建、段落生成等环节的标准化提示词体系,便于快速复用与本地化。
●️💻 无需特定模型或微调
方法适配 GPT-3.5、Claude、通义等任意语言模型,只需外加流程逻辑控制,即可在算力有限情况下实现万字级别长文生成。
●️📚 论文与项目开源
清华 NLP 团队 + 面壁联合出品,完整源码与 Demo 已开放,适合自动化写作、报告生成、知识聚合类项目直接应用。
●️🏗️ 可用于自动化报告系统
1
0
0
Simon的白日梦
11天前
有意思~ 用单图/单文字输入重建3D高斯头像,还支持二次文字引导编辑,完成后直接能语音、表情、视频驱动,还能跑移动端~!😮
LAM:Large Avatar Model for One-shot Animatable Gaussian Head
🧐LAM 是一个能从一张图片中“一次前向推理”重建可动画3D高斯人头的模型,不依赖多视角训练或额外渲染网络,支持跨平台、低延迟、实时渲染,是虚拟人、AI聊天头像与AIGC人物生成的重大突破。
➡️链接:
aigc3d.github.io
✨重点
●🧠 一次前向生成即动即渲染:LAM只需输入一张图片,在一次前向计算中就生成可动画高斯头部模型,完全不依赖多视角训练或后期微调,大幅降低部署与计算门槛。
●🎭 基于FLAME骨架的可控动画模型:通过 FLAME 模型的 canonical points 结合 Transformer 与多尺度图像特征,精确预测高斯参数,实现线性混合蒙皮(LBS)下的动作驱动与表情控制。
●📱 支持移动端与WebGL实时渲染:生成的人头可在包括移动设备在内的多平台实时播放,已内嵌于WebGL浏览器演示中,表明其渲染效率极高。
●🎨 支持图像级编辑迁移至3D空间:允许用户通过2D图像编辑工具修改头像风格,再投影回3D空间进行高质量的个性化调整,打通2D-3D编辑闭环。
●⚡ 兼容文本生成图像的3D复用:可将文生图(如SD或DALL·E生成的头像)直接转化为可动画的3D人头,并驱动说话、表情,适用于AIGC数字人生产线。
●🧪 显著优于现有SOTA方法:在现有数据集上超越已有3D头像动画方案,同时提供完整代码、模型权重和HuggingFace Demo,便于研究复现与二次开发。
这个项目对虚拟人、AI形象生成、互动客服、游戏NPC、AIGC视频等场景极具应用价值。
02:37
1
0
0
Simon的白日梦
11天前
太有意思了,使用Qwen-VL生成SVG矢量图,还能看着他怎么一点一点画出来!🥹
OmniSVG:统一的可扩展矢量图生成模型
🧐OmniSVG 是首个支持多模态输入(文本、图像、角色参考)并生成复杂可编辑 SVG 矢量图的 AI 模型,突破以往“只能生成简单图标”的技术瓶颈,为设计工作流引入真正“结构化图形”的自动生成能力。
➡️链接:
omnisvg.github.io
✨重点
●🎨 支持复杂矢量图生成:不仅能生成简单图标,还能处理复杂角色、插画类 SVG,具备从 icon 到动漫角色的高保真图形能力。
●🧠 多模态输入适配:可通过文本描述(Text-to-SVG)、图像参考(Image-to-SVG)或角色样式(Character Reference SVG)进行多种类型创作,是罕见支持多模态生成的矢量图模型。
●🪄 创新式Token建模方式:将 SVG 的结构命令与坐标参数统一编码为离散 token,既提升训练效率,又保留结构可读性,彻底区别于传统像素图生成。
●📦 高质量公开数据集 MMSVG-2M:包含 200 万带注释 SVG 样本,细分为 icon、illustration 和 character 三大类,为后续研究和标准化评估提供基石。
●⚖️ 对比现有模型优势明显:比肩 IconShop、LLM4SVG、StarVector 等项目,在结构合理性、图形复杂度和跨模态表现上全面超越。
●⚙️ 底层基于 Qwen-VL 大模型:借助强大的视觉-语言理解能力,为 SVG 生成提供自然语言理解和图像识别支持。
●📐 高度可扩展的设计潜力:适合嵌入至 UI 设计工具、AI 插画引擎、Web可视化平台等作为“可编辑可追溯”的图形生成后端。
00:15
30
2
11
Simon的白日梦
11天前
MCP已经蔓延到comfyui……可以让AI Agent自己根据任务选择所需的workflow和对应参数,并获取返回的图片……😮
ComfyUI MCP Server:轻量级的AI图像生成服务中间层
🧐该项目提供了一个使用WebSocket通信的Python MCP(Model Context Protocol)服务端,实现AI代理通过ComfyUI进行图像生成请求的编程式交互,具备高度灵活性和定制能力。
➡️链接:
github.com
✨重点
●🧠 高信息量设计:该服务使用MCP协议实现与ComfyUI的交互,绕过传统HTTP REST API方式,允许通过WebSocket与AI图像生成系统建立持续连接,提升响应效率和灵活性。
●🧰 模块化结构:主要包括server.py(WebSocket服务端)、comfyui_client.py(与ComfyUI API对接)、client.py(测试客户端)、workflows/(API格式的工作流定义)。各模块解耦明确,方便扩展。
●🎛️ 支持动态参数:通过修改client.py中的payload,可灵活设置prompt、图像尺寸、所用模型、工作流ID等,大大增强可定制性。
●📡 MCP SDK扩展性强:MCP原生不支持WebSocket传输,该项目通过自定义实现填补这一空缺,为未来接入多模态AI接口提供范式。
●🔄 流程自动化与测试机制:支持以.json格式导出的ComfyUI工作流,直接集成测试流程,用户可一键运行并获取图像URL结果。
●🐾 用例示范清晰:默认测试请求为生成“一只戴墨镜的狗”,使用SD-XL模型,生成图像后返回本地ComfyUI的URL,易于理解和修改。
●🧩 自定义节点映射:对于更复杂的工作流,可通过修改DEFAULT_MAPPING配置节点ID,满足多样化场景需求。
●⚠️ 运行依赖明确:需本地运行ComfyUI于8188端口,并预先安装Python 3.10+及相关依赖(requests、websockets、mcp)。
17
0
6
Simon的白日梦
12天前
推荐一个目前看到最系统+详细的良心MCP免费教程,by 同济子豪兄
➡️:
zihao-ai.feishu.cn
11
1
9
Simon的白日梦
20天前
用多图输入作为参考素材生成视频的开源版模型来了😮~!
Skywork/SkyReels-A2・Hugging Face
🧐SkyReels-A2 模型利用视频扩散变换器的创新方法,通过编码参考图像的空间和语义特征,实现视频内容的高效生成。
➡️链接:
huggingface.co
✨重点
●🖼️ 该框架包含两个分支:空间特征分支使用精细化的 VAE 编码器处理图像,语义特征分支利用 CLIP 视觉编码器和 MLP 投影进行语义编码。
●🔗 空间特征与带噪声的视频标记沿通道维度进行连接,经过扩散变换器块处理,以生成视频。
●📊 语义特征通过额外的交叉注意力层被整合进扩散变换器中,以确保在扩散过程中有效地融入语义上下文。
●🎨 页面展示了一些生成结果,以展示模型的实际效果和应用潜力。
●📑 如果你在研究中使用 SkyReels-A2,可以引用提供的 BibTeX 格式的文献。
00:04
4
0
2