歸藏的个人主页

即刻App年轻人的同好社区

下载

歸藏

560关注23k被关注48夸夸

产品设计师、模型设计师、不会代码的独立开发者。
关注人工智能、LLM 、 Stable Diffusion 和设计。

歸藏

1天前

牛皮！Andrej Karpathy 发布了一个从零构建 LLM 训练和推理的项目：nanochat

基本上跟着学就可以了解 LLM 训练的所有步骤了

只需要 100 美元的算力成本就可以训练出可以对话的模型，而且会带有一个 UI 界面，只有 8000 行代码

项目覆盖从分词、预训练、对齐到推理与 WebUI 的完整闭环，会是他 LLM 课程的一部分。

在云端 8×H100 节点上运行单脚本，约 4 小时 / ~100 美元即可得到能对话、写诗故事、答简单问题的模型；

12 小时在 CORE 指标上超过 GPT‑2；~$1000 / ~41.6 小时进一步提升到能做基础数学/代码与多选题。

具体训练管线包括：

分词器：全新 Rust 实现训练分词器。
预训练：用 FineWeb 语料，评估 CORE 及多项指标。
中期训练：用 SmolTalk 的用户‑助手对话、多选题、工具使用数据。
SFT：评测覆盖常识与世界知识（ARC‑E/C、MMLU）、数学（GSM8K）、代码（HumanEval）。
强化学习：可选在 GSM8K 上用 GRPO 做 RL。
推理引擎：支持 KV cache、prefill/decode、工具调用（轻量沙箱内 Python 解释器），CLI 与 ChatGPT 风格 WebUI 交互。
自动生成报告卡：自动生成单一 Markdown 报告，汇总与“游戏化”指标。

详情：github.com

45 317

歸藏

1天前

这就是中国，库克来了都得直播带货

54 64

歸藏

1天前

即梦 4 用来做视频封面真是一绝！

用我昨天探索的动漫杂志风格提示词改了一个视频封面，点击率非常高，这里说一下制作步骤

步骤 1：
先用即梦 3.1 和这个提示词生成你喜欢的图片：将照片角色转换成动漫美女，美学风格非常现代且充满活力，像动态的杂志版面或波普艺术。将高对比度的人物剪影与半色调图案以及大量动感排版相结合，没有文字

步骤 2：
上传你选好的图片，输入提示词为它增加文字，这个时候模型要换成即梦 4：在图片在上方增加留白和优秀的艺术文字排版，替换原有的文字：“Sora2制作高质量动漫片头”“藏师傅教你”，文字跟图片融合的很好

步骤3：
上传你的真人照片和步骤 2 的结果图，替换原来的动漫角色，这时候是动漫风格的：图片的人物替代图 1 的动漫角色，为人物加上白色描边

步骤 4：
如果需要真人风格，上传步骤 2 结果图和你的真人照片，使用提示词：图片的人物替代图 1 的动漫角色，保证人物的写实风格，同时在人物后方增加一些网点和波普艺术排版元素，为人物加上白色描边

步骤 5：
如果需要更多比例的封面图片的话，重复步骤 4 切换生成图片的比例就行

64 221

歸藏

2天前

很多朋友都想问我昨天的 Sora 2 动漫视频是怎么做的。

这几天完善了一下提示词，教一下大家，而且你还能上传首帧图片去控制画面风格，让 Sora 2 生成的角色和风格更漂亮。

起因是前几天 ZHO 分享了一下 852 用 Sora 2 做的动漫 OP 视频就跟 Gemini 讨论了一下里面的元素。

可以看我录的教学视频。

提示词：

日本动漫开场曲，拥有美丽的角色，中文歌词，传达良好的世界观，以及非常现代且充满活力的美学风格，类似于动态杂志排版或波普艺术。它结合了高对比度的角色剪影、网点图案和大量动态排版，创造出非常动感且视觉冲击力强的序列。

03:33

49 013

歸藏

3天前

我去！刚发现 Pro 会员在 Sora 2 APP 生成视频没有水印了！

无论是用 Sora 2 Pro 模型还是普通模型生成的视频，下载和发布都没有水印

没想到买了 200 美元会员之后这么值，Codex 、GPT-5 Pro 再加上没水印的 Sora 2，太爽了

00:15

33 74

歸藏

4天前

Gaga AI 太猛了！终于有人来管管 AI 视频的语音和表演了

提前试了一下曹越那边新发布的专注于人物对话表演的模型 GAGA-1

应该是目前涉及到人物细微表演对话的最强模型，在表演这部分甚至可以超过 Sora2，目前免费试用

详细测试了一下，顺便给大家一些使用技巧的建议👇：

可以在这里看全文：mp.weixin.qq.com

先来看一个模型简要介绍：

声音和画面一起生成，即使是侧面的唇形同步都非常到位，语音音效都有；
面部表情和声音声调配合的非常好，表演细腻不夸张，提示遵循也很好；
支持双人的场景演绎，可以很好的理解提示词中不同人物的语音；
支持多语言输出，我测试完之后发现甚至可以多语言混合输出；
目前支持免费体验，支持图生、单次生成最长 10 秒，分辨率为 720P，但是细节丰富。

Sand AI 在训练的时候目标就非常的明确，就是把语音和表演表现拉满，他们也确实做到了。

我探索下来，这个模型的几个使用要点有：

1️⃣ 提示词上可以先说情绪变化，然后再说说话的语气和内容，如果需要停顿的话，可以直接写，也可以用波折号或者省略号表达。

2️⃣双人的表现不错，用左右或者男女去指定说话的人他都能理解，甚至 A、B 都行，但是超过双人的表现会有一定的下降，优先用双人。

3️⃣如果图生的话尽量不要有太多的肢体或者全身漏在外面，也需要少些复杂动作提示词，可能会崩。

4️⃣如果字数少的话比如十个字以内可以选择 5 秒的生成时长，如果是长对话可以选 10秒。

5️⃣目前只支持 16:9 的横屏比例，过段时间会支持竖屏的 9:16 比例。

案例 1：首先是一些基础的测试，比如让他介绍一下自己。

可以看到在说后面那句话的时候，女生的面部表情非常的细腻，尤其是看向镜头的那个眼神、挑眉和说话时候的点头动作，太真实了，这种面部细节我从离开没有在其他模型上见到过。

案例 2：然后来个我们常见的顺口溜来看看嘴型和语音的表现。

语音和整个面部的配合是非常好的，同时手部动作也在摇晃他的扇子，让整个画面不至于太单调。

后面个叹气的处理太好了，我并没有说叹气的表情，他自己就能推导出来这是表演完了比较轻松的一个状态，所以就表现出来了。

案例 3：然后来一下看一下环境音和语音的配合。

这里我故意指定了杯子的声音，以及说话的顺序，他也按照这个顺序表现了出来。

可以看到人物的表情依然非常细腻，而且在说到“就像在现场一样”的时候有惊叹和自豪的表情，这完全是模型自己处理的。

案例 4：然后再试试他多语言的能力。

这块还得指望中国模型，毕竟海外的模型一般不会对中文进行强化。

分别试了一下英语、日语、西班牙语和多语言混合的情况，可以看到每个都非常标准，而且唇形同步也都是对的，细微的表情也都非常丰富。

案例 5：接下来就到了最重要的情绪甚至复杂情绪的表现。

这个真的跑的太好了，我一直认为极端情绪的表现不是考验模型表演能力的关键，关键在于那些不是很极端的场景化的情绪表现。

比如刚开始躲闪的目光、以及与之配合的压低的声音，真的你让我演我真演不出来，GAGA-1 在表演上确实比我们没学过表演的强太多了。

后面收紧下颌的动作也很自然，先是稍微低了一下头，然后才彻底把头低下去，语音上也有一个由弱变强的过程。

案例 6：这里这个场景就相对复杂了，女生是站在车外的，而且还是雨天，有车窗隔着，画面和声音的情况要考虑的都多一点。

仔细听的话该有的雨声也是有的，他很好的考虑了镜头在车里的情况，所以雨声没有那么大，而且还自己加上了非常应景的钢琴 BGM，加强了氛围的渲染。

在表情和语音配合上，可以看到刚开始小声说话的时候模型给女生加了一点发抖的情况，这也是人在有剧烈情绪的正常反应，非常形象了。

同时先小声说话然后有个思考的停顿然后大声说话的时候情绪的转变也会更自然，它太懂表演了。

案例 7：单人都这么猛了，我们来试试双人。

我这里加了点难度直接用的 AB 来表示左右的人，然后还用了两个侧脸。

但没想到他依然可以 Get 到提示词的要求，而且在中间的时候把应该 B 一直说的话改成了一人说一句，整个视频生动了不少。

侧脸的唇形同步和面部表情也相当不错，没有崩坏的情况，同时也没有其他模型会出现的音画不同步的情况，唯一小问题是在读 GAGA 的时候有点嘴瓢，感觉要避免大段中文加一两个英文单词的情况。

案例 8：最后再来一个场景化的情绪丰富一点的双人测试，办公室吵架。

这里的整个情绪非常剧烈，同时模型自己也为了配合情绪加大了人物的动作，知道在质问的时候需要看着对方，同时需要有剧烈的动作，可以看到即使是在非常极限的人脸角度下，面部表情和嘴型也堵维持住了。

这里我还给男性和女性分别指定了情绪和表情，男性是非常强烈的愤怒，女性是相对比较细微的心虚，两者都表现的不错，尤其是最后那个短促吸气说话的感觉，相当到位。

01:40

27 95

歸藏

4天前

Figure 03 机器人发布了，这宣传片太顶了

能从人类直接学习并执行任务。

配备了新的视觉系统速度更快，视野更广；
增加了手部视觉相机，触觉更加灵敏；
自研触觉传感器，强调耐用性、可靠性、高保真感知；

支持无线充电、语音交互、可更换服装等

详情：www.figure.ai

06:19

29 220

歸藏

4天前

Claude Code 上线了插件和插件市场

估计又有人做插件分享网站和卖插件能发一笔了！

所谓的插件其实就是Slash 命令、Subagents、MCP 和 Hooks 的集合体，插件可以综合调用这些能力完成复杂任务。

可以用 /plugin 安装插件

为了让大家分享插件他们还搞了一个插件市场，可以上架和获取插件。

要使用市场中的插件，先运行 /plugin marketplace add user-or-org/repo-name ，然后通过 /plugin 菜单浏览并安装

21 19

歸藏

5天前

周刊发了，可以明天上班看，这回真量大管饱了

48 71

歸藏

7天前

试了一下 Open AI 昨晚发布的这个在 ChatGPT 直接调用其他 APP 完成任务的能力，确实屌。

可以通过 GPT 的自认语言进行检索或者要求对应的 APP 创建，还能继续对话进行修改或者筛选。

如果需要修改或者手动编辑的话直接跳转原来的应用进行处理。

如果需要调用对应应用你需要有这个应用的账号才行。

我用 Figma 做了一下测试，目前只能调用 Figjam 也就是只能用里面的白板工具，不能画 UI，不过也很好了。

以后可以把跟 GPT 讨论的技术架构、流程之类的文字结果直接变成流程图了，还能在 Figma 手动编辑

22 23