即刻App年轻人的同好社区
下载
App内打开
歸藏
567关注27k被关注50夸夸
产品设计师、模型设计师、 不会代码的独立开发者。
关注人工智能、LLM 、 Stable Diffusion 和设计。
歸藏
00:38
GPT-image-2.0 + Seedance 2.0
00:15
23
歸藏
1天前
过去一段时间,最值得的硬件投资可能就是我那个最低配的 Mac mini 了。

在年前买了以后,到现在几乎只关过一次机;在我出门旅游之类的时候,它一直运行得非常稳定,相当于一个自己的 Agent 服务器了。

随着里面跑的东西越来越多,现在有时候感到有点捉襟见肘了,所以就换了一个 Mac Studio。

结果发现 Mac Studio 现在供货也不足了,官方渠道买的话要等好久。
176
歸藏
1天前
Obsidian 作者这两条推很有意思。

Markdown 文件已经事实上成为了当前 AI 文件交互的一个 Schelling point。

大家都默契地选择将自己的文本文件系统变为 Markdown 格式后再进行其他工作。

Markdown 赢得了 AI 时代文本格式的战争。基本上,现在 AI 时代的文本格式和内容展示被局限在了 HTML Markdown 两个部分:

我们最近经常看到圈子里的朋友在发送文本的时候用 Markdown。

在进行演示的时候用的是 HTML(包括最近层出不穷的 PPT Skills 也都是以网页的形式去推广的)。

既然 Markdown 已经成为了事实上的基准,那我们就应该进行下一步了。

Markdown 本身的展示目前非常死板,市场想要更多、更独特的方式来和现有的 Markdown 文件去交互。

6 年前 Obsidian 把本地文件夹、双向链接和知识图谱跟 Markdown 结合起来的时候,很多人不太理解这个产品,觉得很难用。

但现在它不仅是个人知识管理的常态,也是 AI 内容管理非常重要的一种方式。

例如我的 CodePilot 里面没有复杂的 memory 机制,所有的 memory 其实都是靠 MD 文件完成的。所以目前需要跳出文本编辑器的思路:

最近很多人在做 Markdown 编辑器,但其实应该跳出这个思路。

Markdown 作为一个数据去使用,构建更加跳脱常规的人机交互体验。

比如我的 CodePilot 里的 widget,它可以支持让 AI 用你本地的 memory Markdown 文件作为数据来源。

当你的本地文件发生变化时,你的 widget 组件也会随之发生变化。
62
歸藏
2天前
最近有两个非常出圈、非常牛逼的短剧:

一个是《Enemy》,一个是《吉时已到》,可以看看

热度爆表,制作效果也很好,成本不高

如果要做 AI 内容,或者说做 AI 短剧之类的内容的话可以把这两个剧当成暂时的质量标杆去对齐
1316
歸藏
2天前
OpenAI 更新了 GPT-5.5 Instant 模型,现在变成了 ChatGPT 默认模型。

模型提升了实时准确性和日常任务的表现,主要改进:

性能优化:在法律、金融、医学等领域的幻觉率明显下降。同时,在图片理解和文档解析方面表现更好。

表达风格:回答更加紧凑且聚焦要点,减少了无用的铺垫和过渡排版。简单来说就是废话变少了,之前的 5.5 版本(GPT-5.5)确实废话有点多。此外,个性化能力也得到了提升。

发布状态:今天已经全量发布。ChatGPT 已经将其设为默认模型,Codex 没有更新。

新功能引入:在 GPT 中引入了记忆来源功能。你可以通过控件可视化地查看 memory 来自什么地方,如果发现有问题,也可以直接编辑它。

详情:openai.com/index/gpt-5-5-instant/
12
歸藏
6天前
Codex 也上了宠物功能, /pet 开启

宠物会一直在桌面上展示,你可以拖动他的位置

输入/pet 没反应也可以在设置-外观里面找到

使用 hatch-pet Skill还能创建你自己的宠物。

看起来是让 GPT-Image 一次性生成所有宠物动画的序列帧然后拼成一个动画
65
歸藏
7天前
类似 Roblox 这样的社区型游戏和社交驱动的小游戏产品会很火。

以前构建这种游戏的类型非常少,而且成本也比较高。但现在其实每个人都能构建各种游戏。

像早期的 Dota PUBG 的原始玩法,其实都是一些游戏的Mod演变出来的。

所以理论上,现在基于 AI 也可以演变出非常可能是下一个爆款的游戏类型,目前只是缺一个将这些能力整合到一起的游戏平台和工具。

歸藏: 昨天用 Codex 做的游戏《夜巡录》发布了,没想到能搞得这么完整! ​ ​大家可以下一下玩玩,顺便写了一下是怎么做的。 中国志怪题材,玩法像《杀戮尖塔》。 标题页进地图,走普通战、精英、事件、商店、休整,一路打到荒庙正殿 Boss。七个怪物、二十张左右卡牌,符印、香火、焚符、请神四条爆发链路。 代码开源: https://github.com/op7418/Night-Patrol/releases 整个下午是这么跑的👇 ====== 只聊了一下《杀戮尖塔》,让Codex 用已有资源生成了一个很像的 demo。一小时能玩。 ------ 让它用内置 GPT-Image 2.0 生成角色素材,没说风格、没说要哪些妖怪、没说背景。生出来的角色全站在纯绿色背景上,均匀干净,标准影视绿幕底。 它自己知道立绘要进游戏得先抠背景,上来就生绿幕图。 抠图工具也是它自己查、自己装、自己调,抠完归类丢到 tmp/imagegen/ 下。我只说了"调用 GPT-Image 2.0 生成素材"这几个字。 ------ 卡牌边框、费用宝石、牌堆、血瓶这些小 UI 用图像模型生太贵太慢,让它去网上找现成素材。 看中一个素材站,我买了会员账号给它。下载按钮前有人机验证过不去,它开始分析网站结构想绕过前端直接拿静态资源,结果被自己的安全护栏拦了。 最后方案:它把素材链接发给我,我点下载拖给它。 ------ 我发给它一个几千张图的素材包,按 UI、法宝、角色、徽章粗略分过类。文件名都是 ui_001.png 这种没信息量的,多模态上下文扛不住一张张喂。 它写了个脚本把文件夹里所有小图自动排版拼成一张大网格图,每张小图下标原始文件名。然后只读这一张大图,扫一眼就能同时看到一百张素材。 看中哪张直接读文件名,去原文件夹按名字引用。游戏里很多 UI 素材都是这么挑出来的。 ------ 战斗结尾加仪式感。每打死一个怪物进一段过场,播放几秒处决动画。 流程:GPT-Image 给七个怪物各生成一张定帧 poster,poster 丢给 Seedance 2.0 生成短视频,放进 assets/generated/cinematics/ 战斗胜利后自动播放。 ------ 标题页背景也用 Seedance 2.0 做的——火在烧、灯笼在飘、远处云雾流动。 默认出的视频有头有尾,循环播会在接缝跳一下。解法是首帧和尾帧传同一张图,接起来就是无缝循环。盯三分钟看不出接缝。 ------ 背景音乐 Suno v5.5 生成,方向描述"志怪夜路、木鱼、铃、低频 drone、五声音阶、克制不煽情"。标题页沉一点,战斗背景轻一点不抢人。等待页音量大,点开始游戏音量转小。 受击反馈这一套也是它做的:角色左右摇晃、镜头轻微震动、屏幕短暂泛红。剑、符、雷、拳配不同打击音。格挡和符印结算各自声音。 敌人死的那一帧短暂定格再进处决视频。

32
歸藏
7天前
整个过程里边,Codex 最震惊我的就是这个:

给他找了一个有上千张图的游戏素材包,然后让他从里边找一些能用的素材。

我也没说怎么找,他自己给每个文件的图片都拼成了一张大图,上面是图片和文件名。

这样的话,他只需要通过一张图就可以了解这个文件夹中所有的素材图样式。找到以后,直接把文件名拉到素材库里改了就行,太牛了!

歸藏: 昨天用 Codex 做的游戏《夜巡录》发布了,没想到能搞得这么完整! ​ ​大家可以下一下玩玩,顺便写了一下是怎么做的。 中国志怪题材,玩法像《杀戮尖塔》。 标题页进地图,走普通战、精英、事件、商店、休整,一路打到荒庙正殿 Boss。七个怪物、二十张左右卡牌,符印、香火、焚符、请神四条爆发链路。 代码开源: https://github.com/op7418/Night-Patrol/releases 整个下午是这么跑的👇 ====== 只聊了一下《杀戮尖塔》,让Codex 用已有资源生成了一个很像的 demo。一小时能玩。 ------ 让它用内置 GPT-Image 2.0 生成角色素材,没说风格、没说要哪些妖怪、没说背景。生出来的角色全站在纯绿色背景上,均匀干净,标准影视绿幕底。 它自己知道立绘要进游戏得先抠背景,上来就生绿幕图。 抠图工具也是它自己查、自己装、自己调,抠完归类丢到 tmp/imagegen/ 下。我只说了"调用 GPT-Image 2.0 生成素材"这几个字。 ------ 卡牌边框、费用宝石、牌堆、血瓶这些小 UI 用图像模型生太贵太慢,让它去网上找现成素材。 看中一个素材站,我买了会员账号给它。下载按钮前有人机验证过不去,它开始分析网站结构想绕过前端直接拿静态资源,结果被自己的安全护栏拦了。 最后方案:它把素材链接发给我,我点下载拖给它。 ------ 我发给它一个几千张图的素材包,按 UI、法宝、角色、徽章粗略分过类。文件名都是 ui_001.png 这种没信息量的,多模态上下文扛不住一张张喂。 它写了个脚本把文件夹里所有小图自动排版拼成一张大网格图,每张小图下标原始文件名。然后只读这一张大图,扫一眼就能同时看到一百张素材。 看中哪张直接读文件名,去原文件夹按名字引用。游戏里很多 UI 素材都是这么挑出来的。 ------ 战斗结尾加仪式感。每打死一个怪物进一段过场,播放几秒处决动画。 流程:GPT-Image 给七个怪物各生成一张定帧 poster,poster 丢给 Seedance 2.0 生成短视频,放进 assets/generated/cinematics/ 战斗胜利后自动播放。 ------ 标题页背景也用 Seedance 2.0 做的——火在烧、灯笼在飘、远处云雾流动。 默认出的视频有头有尾,循环播会在接缝跳一下。解法是首帧和尾帧传同一张图,接起来就是无缝循环。盯三分钟看不出接缝。 ------ 背景音乐 Suno v5.5 生成,方向描述"志怪夜路、木鱼、铃、低频 drone、五声音阶、克制不煽情"。标题页沉一点,战斗背景轻一点不抢人。等待页音量大,点开始游戏音量转小。 受击反馈这一套也是它做的:角色左右摇晃、镜头轻微震动、屏幕短暂泛红。剑、符、雷、拳配不同打击音。格挡和符印结算各自声音。 敌人死的那一帧短暂定格再进处决视频。

12
歸藏
8天前
昨天用 Codex 做的游戏《夜巡录》发布了,没想到能搞得这么完整!

​大家可以下一下玩玩,顺便写了一下是怎么做的。

中国志怪题材,玩法像《杀戮尖塔》。

标题页进地图,走普通战、精英、事件、商店、休整,一路打到荒庙正殿 Boss。七个怪物、二十张左右卡牌,符印、香火、焚符、请神四条爆发链路。

代码开源:
github.com

整个下午是这么跑的👇

======

只聊了一下《杀戮尖塔》,让Codex 用已有资源生成了一个很像的 demo。一小时能玩。

------

让它用内置 GPT-Image 2.0 生成角色素材,没说风格、没说要哪些妖怪、没说背景。生出来的角色全站在纯绿色背景上,均匀干净,标准影视绿幕底。

它自己知道立绘要进游戏得先抠背景,上来就生绿幕图。

抠图工具也是它自己查、自己装、自己调,抠完归类丢到 tmp/imagegen/ 下。我只说了"调用 GPT-Image 2.0 生成素材"这几个字。

------

卡牌边框、费用宝石、牌堆、血瓶这些小 UI 用图像模型生太贵太慢,让它去网上找现成素材。

看中一个素材站,我买了会员账号给它。下载按钮前有人机验证过不去,它开始分析网站结构想绕过前端直接拿静态资源,结果被自己的安全护栏拦了。

最后方案:它把素材链接发给我,我点下载拖给它。

------

我发给它一个几千张图的素材包,按 UI、法宝、角色、徽章粗略分过类。文件名都是 ui_001.png 这种没信息量的,多模态上下文扛不住一张张喂。

它写了个脚本把文件夹里所有小图自动排版拼成一张大网格图,每张小图下标原始文件名。然后只读这一张大图,扫一眼就能同时看到一百张素材。

看中哪张直接读文件名,去原文件夹按名字引用。游戏里很多 UI 素材都是这么挑出来的。

------

战斗结尾加仪式感。每打死一个怪物进一段过场,播放几秒处决动画。

流程:GPT-Image 给七个怪物各生成一张定帧 poster,poster 丢给 Seedance 2.0 生成短视频,放进 assets/generated/cinematics/ 战斗胜利后自动播放。

------

标题页背景也用 Seedance 2.0 做的——火在烧、灯笼在飘、远处云雾流动。

默认出的视频有头有尾,循环播会在接缝跳一下。解法是首帧和尾帧传同一张图,接起来就是无缝循环。盯三分钟看不出接缝。

------

背景音乐 Suno v5.5 生成,方向描述"志怪夜路、木鱼、铃、低频 drone、五声音阶、克制不煽情"。标题页沉一点,战斗背景轻一点不抢人。等待页音量大,点开始游戏音量转小。

受击反馈这一套也是它做的:角色左右摇晃、镜头轻微震动、屏幕短暂泛红。剑、符、雷、拳配不同打击音。格挡和符印结算各自声音。

敌人死的那一帧短暂定格再进处决视频。
02:03
1387
歸藏
8天前
DeepSeek 多模态大语言模型的论文《Thinking with Visual Primitives》已经公开

底座是 DeepSeek-V4-Flash,MoE架构,总参数量 284B,激活参数量 13B。

自研 DeepSeek‑ViT 视觉编码模型,14×14 patch,输出后 3×3 空间压缩,再接入 LLM。

模型在回答时不仅进行文字推理,还会同时通过画框、打点等“视觉原语”进行思考。

在极低的 Token 成本下,其效果能和 GPT-5.4、Claude 以及 Gemini 在一些前沿指标上对齐,甚至有的指标能反超。

详情:github.com
53