即刻App年轻人的同好社区
下载
App内打开
歸藏
567关注26k被关注50夸夸
产品设计师、模型设计师、 不会代码的独立开发者。
关注人工智能、LLM 、 Stable Diffusion 和设计。
歸藏
10:01
整个过程里边,Codex 最震惊我的就是这个:

给他找了一个有上千张图的游戏素材包,然后让他从里边找一些能用的素材。

我也没说怎么找,他自己给每个文件的图片都拼成了一张大图,上面是图片和文件名。

这样的话,他只需要通过一张图就可以了解这个文件夹中所有的素材图样式。找到以后,直接把文件名拉到素材库里改了就行,太牛了!

歸藏: 昨天用 Codex 做的游戏《夜巡录》发布了,没想到能搞得这么完整! ​ ​大家可以下一下玩玩,顺便写了一下是怎么做的。 中国志怪题材,玩法像《杀戮尖塔》。 标题页进地图,走普通战、精英、事件、商店、休整,一路打到荒庙正殿 Boss。七个怪物、二十张左右卡牌,符印、香火、焚符、请神四条爆发链路。 代码开源: https://github.com/op7418/Night-Patrol/releases 整个下午是这么跑的👇 ====== 只聊了一下《杀戮尖塔》,让Codex 用已有资源生成了一个很像的 demo。一小时能玩。 ------ 让它用内置 GPT-Image 2.0 生成角色素材,没说风格、没说要哪些妖怪、没说背景。生出来的角色全站在纯绿色背景上,均匀干净,标准影视绿幕底。 它自己知道立绘要进游戏得先抠背景,上来就生绿幕图。 抠图工具也是它自己查、自己装、自己调,抠完归类丢到 tmp/imagegen/ 下。我只说了"调用 GPT-Image 2.0 生成素材"这几个字。 ------ 卡牌边框、费用宝石、牌堆、血瓶这些小 UI 用图像模型生太贵太慢,让它去网上找现成素材。 看中一个素材站,我买了会员账号给它。下载按钮前有人机验证过不去,它开始分析网站结构想绕过前端直接拿静态资源,结果被自己的安全护栏拦了。 最后方案:它把素材链接发给我,我点下载拖给它。 ------ 我发给它一个几千张图的素材包,按 UI、法宝、角色、徽章粗略分过类。文件名都是 ui_001.png 这种没信息量的,多模态上下文扛不住一张张喂。 它写了个脚本把文件夹里所有小图自动排版拼成一张大网格图,每张小图下标原始文件名。然后只读这一张大图,扫一眼就能同时看到一百张素材。 看中哪张直接读文件名,去原文件夹按名字引用。游戏里很多 UI 素材都是这么挑出来的。 ------ 战斗结尾加仪式感。每打死一个怪物进一段过场,播放几秒处决动画。 流程:GPT-Image 给七个怪物各生成一张定帧 poster,poster 丢给 Seedance 2.0 生成短视频,放进 assets/generated/cinematics/ 战斗胜利后自动播放。 ------ 标题页背景也用 Seedance 2.0 做的——火在烧、灯笼在飘、远处云雾流动。 默认出的视频有头有尾,循环播会在接缝跳一下。解法是首帧和尾帧传同一张图,接起来就是无缝循环。盯三分钟看不出接缝。 ------ 背景音乐 Suno v5.5 生成,方向描述"志怪夜路、木鱼、铃、低频 drone、五声音阶、克制不煽情"。标题页沉一点,战斗背景轻一点不抢人。等待页音量大,点开始游戏音量转小。 受击反馈这一套也是它做的:角色左右摇晃、镜头轻微震动、屏幕短暂泛红。剑、符、雷、拳配不同打击音。格挡和符印结算各自声音。 敌人死的那一帧短暂定格再进处决视频。

01
歸藏
09:49
昨天用 Codex 做的游戏《夜巡录》发布了,没想到能搞得这么完整!

​大家可以下一下玩玩,顺便写了一下是怎么做的。

中国志怪题材,玩法像《杀戮尖塔》。

标题页进地图,走普通战、精英、事件、商店、休整,一路打到荒庙正殿 Boss。七个怪物、二十张左右卡牌,符印、香火、焚符、请神四条爆发链路。

代码开源:
github.com

整个下午是这么跑的👇

======

只聊了一下《杀戮尖塔》,让Codex 用已有资源生成了一个很像的 demo。一小时能玩。

------

让它用内置 GPT-Image 2.0 生成角色素材,没说风格、没说要哪些妖怪、没说背景。生出来的角色全站在纯绿色背景上,均匀干净,标准影视绿幕底。

它自己知道立绘要进游戏得先抠背景,上来就生绿幕图。

抠图工具也是它自己查、自己装、自己调,抠完归类丢到 tmp/imagegen/ 下。我只说了"调用 GPT-Image 2.0 生成素材"这几个字。

------

卡牌边框、费用宝石、牌堆、血瓶这些小 UI 用图像模型生太贵太慢,让它去网上找现成素材。

看中一个素材站,我买了会员账号给它。下载按钮前有人机验证过不去,它开始分析网站结构想绕过前端直接拿静态资源,结果被自己的安全护栏拦了。

最后方案:它把素材链接发给我,我点下载拖给它。

------

我发给它一个几千张图的素材包,按 UI、法宝、角色、徽章粗略分过类。文件名都是 ui_001.png 这种没信息量的,多模态上下文扛不住一张张喂。

它写了个脚本把文件夹里所有小图自动排版拼成一张大网格图,每张小图下标原始文件名。然后只读这一张大图,扫一眼就能同时看到一百张素材。

看中哪张直接读文件名,去原文件夹按名字引用。游戏里很多 UI 素材都是这么挑出来的。

------

战斗结尾加仪式感。每打死一个怪物进一段过场,播放几秒处决动画。

流程:GPT-Image 给七个怪物各生成一张定帧 poster,poster 丢给 Seedance 2.0 生成短视频,放进 assets/generated/cinematics/ 战斗胜利后自动播放。

------

标题页背景也用 Seedance 2.0 做的——火在烧、灯笼在飘、远处云雾流动。

默认出的视频有头有尾,循环播会在接缝跳一下。解法是首帧和尾帧传同一张图,接起来就是无缝循环。盯三分钟看不出接缝。

------

背景音乐 Suno v5.5 生成,方向描述"志怪夜路、木鱼、铃、低频 drone、五声音阶、克制不煽情"。标题页沉一点,战斗背景轻一点不抢人。等待页音量大,点开始游戏音量转小。

受击反馈这一套也是它做的:角色左右摇晃、镜头轻微震动、屏幕短暂泛红。剑、符、雷、拳配不同打击音。格挡和符印结算各自声音。

敌人死的那一帧短暂定格再进处决视频。
02:03
310
歸藏
1天前
DeepSeek 多模态大语言模型的论文《Thinking with Visual Primitives》已经公开

底座是 DeepSeek-V4-Flash,MoE架构,总参数量 284B,激活参数量 13B。

自研 DeepSeek‑ViT 视觉编码模型,14×14 patch,输出后 3×3 空间压缩,再接入 LLM。

模型在回答时不仅进行文字推理,还会同时通过画框、打点等“视觉原语”进行思考。

在极低的 Token 成本下,其效果能和 GPT-5.4、Claude 以及 Gemini 在一些前沿指标上对齐,甚至有的指标能反超。

详情:github.com
52
歸藏
1天前
太猛了,Codex 做类《杀戮尖塔》游戏完整关卡演示!

现在非常细了,除了没有声音以外,其他的都相当完美了!

主要的场景和角色素材是 GPT-Image 生成的,其他的素材是他自己找的。
00:23
521
歸藏
1天前
我操,Codex 太牛逼了!

自己给我做了一个类似于《杀戮尖塔》的爬塔游戏,从代码到素材全是自己搞。

我就跟他说了一个要做类似《杀戮尖塔》的游戏,要中国风格的

这是能玩的!
2523
歸藏
2天前
Moxt 是近期所有新的 Agent 产品里,我觉得最好的之一

终于找时间写了一篇介绍。

Agent 的瓶颈很多时候是 Context 太散、太脏、太难复用。总结一下做个笔记👇

======

AI 需要一个自己的工作空间

我日常最常见的问题是:Context 散在五个地方。

飞书、Notion、本地文件夹、微信聊天记录、Twitter 收藏夹,还有我自己的脑子。

切任务的时候,一半时间都在搬运。

更麻烦的是“脏”。

飞书的 block、Notion toggle、PDF 的视觉排版、Slack 截图,每种格式对 AI 来说都要先剥一层壳。

Moxt 的解法很直接:给 AI 一个自己的 Workspace。

它让 AI md、csv、html 这些更接近“母语”的格式里工作,让 AI 在文件系统里导航。

Word / PDF / Notion 导入后转 md,Excel csv,可视化报告生成 html。

听着不性感,但特别对。

文件系统本来就是 AI 熟悉的组织方式。能 grep,能树状浏览,能按路径理解上下文。对 Agent 来说,这比一堆散落在 SaaS 里的页面自然太多。

------

Skill 迁移非常爽

我在 Claude Code 里攒了十几个 Skill。

humanizer-zh AI 味,writing-rewriter 做小绿书和推特风格改写,wechat-formatter 做公众号排版,document-illustrator 做配图。

每一个本质上都是一个 md 文件加一些资源。

我把它们搬到 Moxt Skills 目录里,基本不用改,全都能跑。

你过去沉淀的写作方法、工作流、偏好,不需要重新发明一遍,可以直接搬进新的 Workspace。

------

把“你是谁”写进 md

Moxt 里每个用户都有一个专属个人 AI,叫 momo。

momo 的行为规则写在 AGENTS.md 里,放在你的个人空间。

用过 Claude Code 的朋友一看就懂。就是 CLAUDE.md 那套思路,被产品化了。

我做的第一件事,是创建了一个自己的 AI 分身:AI 藏师傅。

我把历史语录和写过的内容都传上去,它帮我生成总结文档和规则,包括身份、时间线、语气、内容偏好、对话模式、写稿模式。

它还从我的内容里总结出 6 个核心信条:

没亲手用过就没有发言权
松弛是生产力,不用数据审判自己
AI 是赋能工具,不是替代品
开放生态大于平台封闭
只要敢花钱、敢放权,AI 就是许愿机
朋友关系高于流量关系

Rules 也是 Context,而且是密度最高的 Context。

一份 AGENTS.md 里装着你的人格、价值观、写作品味。它不是玄学记忆,而是你能打开、能改、能删的纯文本。

AI 的“记忆”不该是黑盒。

------

AI 同事不只是会聊天

AI 读懂 Context 只是第一步。

接下来它还得会动、会记、有明确的人格和边界。

Moxt 这里有几个能力挺关键。

第一是 Skill 组合。

比如我的公众号写作流水线以前是:

humanizer-zh AI writing-rewriter 风格重写 wechat-formatter 公众号排版。

以前要手动走三步,每一步复制粘贴。

现在丢一份初稿进去,十几分钟就能拿到可以直接贴公众号的终稿,中间版本也都留在 Workspace 里。

第二是定时任务。

我建了一个“热点监控员”,每天早上跑 Cron,扫过去 24 小时的 Twitter、Newsletter、Hacker News,按主题聚类,输出科技热点日报。

我不建议大家只看 AI 总结。

AI 很适合帮你不漏掉重要信息。

第三是 Webhook。

我的 CodePilot 项目一旦有新 GitHub Issue,Webhook 会推给 AI 同事。

它先判断这是 bug、功能建议,还是用户不会用。

bug 进待修复,功能建议进路线图候选,使用问题生成 FAQ 草稿。

做完再决定要不要叫我。

一个人没法 7×24 在线,AI 同事可以。

------

因为 Moxt 面向组织,所以安全性很重要。

不同文件夹有不同权限,不同任务也应该有不同放手程度。

内部信息整理,可以放手。

对外发邮件,发送前必须确认。

数据分析,结论标“待人类确认”。

删除和归档,最好卡审批。

组织用 Agent 的核心不是让 AI 什么都自动做,而是清楚定义:哪些事可以自动,哪些事必须过人。

------

MCP 让系统接起来

Moxt 除了 Slack、GitHub 原生集成,也支持 MCP。

比如:

Sentry MCP:直接问最近线上有什么报错
Figma MCP:问设计稿里某个按钮是什么颜色
Linear MCP:创建一个 high priority bug ticket

个人用 MCP,很多时候只是方便。

组织用 MCP,就变成了信息流转能力。

因为组织里的真实信息,本来就散在 Notion、Slack、GitHub、Linear、Figma、Sentry 这些地方。

Agent 如果不能连这些系统,就只能停留在“会写字”。

------

Moxt 另一个让我惊喜的点,是它把 AI 输出从文字拓展到了完整视觉形态。

同样一份数据,momo 可以输出可交互数据看板、结构完整的 PPT,甚至产品 demo。

看板基于 ECharts,能筛选、能悬浮提示、多图联动,最后是一个独立 html。

PPT 有封面、目录、内容页、图表、结尾,键盘能翻页。

产品 demo 可以生成表单、列表、后台 dashboard 这些常见页面结构,Tailwind CSS 单文件就能演示。

这对组织特别重要。

很多时候,纯文字不是最好的交付物。

能看、能点、能演示的东西,才更容易被理解和推进。

------

我理解的 Agent 公式

我以前提过一个公式:

Agent 能力 = 工具 × 上下文 ×(人格 + Memory + Skill)

工具决定它能做什么。

上下文决定它知道什么。

人格、Memory、Skill 决定它像不像你。

这是个乘法。

任何一个因子为 0,输出都很难好。

模型再强,也救不了一个没有工具、没有上下文、没有规则的 Agent。

Moxt 做得比较好的地方,是把这几个要素放进了一个组织能理解、能管理、能修改的 Workspace 里。

------

最后

Moxt AI 藏师傅的身份书里总结过一句话:AI 是赋能工具,不是替代品。

我觉得这也是 Moxt 的底层逻辑。

它想做的不是替你决策,而是放大你的能力。

“一人公司”里的“一人”,重点不是一个人硬扛,而是决策和品味不被稀释。

真正稀缺的是判断、审美、执念。

这些 AI 学不来,也不该交给 AI。

AI 应该做的是把你从搬运 Context、切换任务、重复看一眼这些琐碎里解放出来,让那份稀缺的判断被放大。

一个人的品味 × AI 同事的执行带宽,才是 OPC 真正的意思。

如果你或者你的组织也在每天切任务、搬 Context、沉淀方法论,可以试试 Moxt。
137
歸藏
2天前
Deepseek 的多模态模型全量了。

目前可以在网页版的识图模式尝试,看起来是一个单独的多模态模型
30
歸藏
3天前
Ghostty 的负责人今天说他会离开 GitHub。

这哥们在 GitHub 5 万多的粉丝,每天都有提交,是重度的 GitHub 使用者。

他的意思是,GitHub 现在频繁的故障和不稳定的服务已经严重影响了开发工作,导致他觉得这里不再适合进行严肃工作。

因此,他会把所有的重度开发工作都迁移到自建的服务上,GitHub 之后只保留代码库。

目前主要影响的内容是: Actions、PR、Issues 等配套服务经常挂掉,导致他没办法进行代码评审和跑 CI 合并。

我感觉这是一个非常大的机会。

AI 时代,GitHub 事实上已经变成了所有 Vibe Coding 最重要的基建之一,但现在微软显然没有办法应付这套东西。

所以,如果哪个平台能够提供一个更适合 AI、更适合 AI Agent Git 服务,可能会有很大的机会。

详情:mitchellh.com/writing/ghostty-leaving-github
39
歸藏
3天前
优化了一下我的 PPT Skills Codex 的效果

现在太牛逼了,图片也能一键搞定!

能够调用 Codex 里的 GPT-Image-2 去帮你生成图片。

而且我为此做了专门的设计,它会有独特的风格,并根据你的内容生成不同类型的图片,包括:

- 营造氛围的人文纪实图片(类似胶片机拍摄的效果)

- 信息图、流程图、对比图、关系图

- 截图美化:如果你觉得截图不好看,它都能帮你美化并优化成对应比例的图片

现在整个图文表现效果会更好,推荐你们在 Codex 里使用。

此外,我们也优化了 Codex 的生成流程,现在系统会先询问,而不会直接跳过确认步骤去生成 PPT 了。

详情:github.com/op7418/guizang-ppt-skill
518