即刻App年轻人的同好社区
下载
App内打开
歸藏
564关注25k被关注50夸夸
产品设计师、模型设计师、 不会代码的独立开发者。
关注人工智能、LLM 、 Stable Diffusion 和设计。
歸藏
1天前
视频总结、配图、文案由歸藏的内容生产 Agent 一键完成

歸藏: AI 编程工具里有个让人头疼的问题: rules、commands、MCP servers、subagents、modes、hooks、tools 一堆概念,搞得比学一门新编程语言还复杂。 Cursor 的 Lee Robinson 出了个视频解释和介绍的非常好。 其实这些东西最后都能归纳为两个核心概念: 静态上下文和动态上下文。或者说得更直白点,就是 rules 和 skills。 ====== Rules 的诞生 最早做 AI 编程的时候,模型老爱瞎编。你让它写个函数,它能给你造出一个根本不存在的库。 于是就有了 rules 文件,把代码规范、业务需求、模型经常犯的错误都写进去,每次对话都带上。这招挺管用的。 后来 rules 文件越写越长,就开始拆分成多个文件,可以嵌套引用。但本质上还是一回事:把这些规则全部塞进每次对话的上下文里。 这就是静态上下文,static context。不管你要做什么任务,这些信息都会被加载进来。 ------ Commands 出现了 随着用 AI 写代码的人变多,一些固定的工作流开始出现。比如我每次都要先跑测试,再提交代码,最后开 PR。 这时候就需要 slash command,把一套固定的提示词打包起来,需要的时候 /command 一下就行。 比如我现在用的 /commit 命令,一键就能完成 Git 提交和开 PR 的整套流程。这些 command 还能分享给团队,放到 Git 里统一管理。 到这里,我们还是在处理文本,只是把提示词组织得更灵活了。 ====== MCP Servers 带来新能力 光有文本不够,AI 还得能干活。这就有了 MCP(Model Context Protocol)服务器。 MCP server 不只是个提示词,它是真的在跑代码。可以连到你现有的系统,读取 Slack 消息,创建 Linear issue,做 OAuth 认证。 这相当于给 AI 添加了新技能,第三方工具的能力。就像人类编程有各种库可以调用,AI 也有了自己的"工具箱"。 但问题来了:如果你装了 10 个 MCP server,每个都有 10 个工具,那初始上下文就会被塞满。这就是为什么后面又有了新的优化。 ====== Modes 和 Subagents 的登场 到这一步,我们有两种往上下文里塞东西的方式:文本(rules、commands)和代码(MCP servers)。 接下来是 modes 和 subagents。Subagent 有点像带人设的提示词,可以限定它能用哪些工具。Mode 更进一步,不光能改指令,还能修改系统提示词,给 AI 开放新工具,甚至改 UI。 比如规划模式 plan mode,会提醒 AI "你现在在做计划,专注于规划",还提供专门的工具来创建和修改计划。 这些设计的核心目的是两个:可靠性和可发现性。让 AI 的输出更稳定,让功能更容易被用户找到。 但你得记住,AI 本质上还是个非确定性系统,还是会出错。 ------ Hooks 解决确定性问题 于是又有了 hooks,给 AI 加上完全确定性的钩子。 比如每次对话开始前,自动注入一些上下文(其实就是静态上下文的另一种实现)。或者对话结束后,自动触发某个操作,比如记日志或存数据库。 这些是 100% 确定执行的,不会出错。 ====== Skills 统一了一切 讲到这里,我们已经有一堆概念了。但仔细看,其实就两类: ▸ 静态上下文:每次对话都要加载的提示词(rules) ▸ 动态上下文:按需加载的代码和工具,不会撑爆初始上下文(skills) Skills 就是用来统一动态上下文的。 最基础的 skill 就像 command,一个可复用的工作流,比如我的 Git PR 流程。打包好,分享给团队,不占初始上下文。 最高级的 skill 可以包含脚本、可执行文件、资源文件,任何你想打包的东西。重点是只有在用的时候才加载,不用就不占空间。 这就把世界简化了:作为用户,你只需要关心 rules 和 skills 两个东西。 ------ 编程工具的优化 有了 skills 这个概念,编程工具也能做优化。 比如 Cursor 现在就学习了 skills 的思路:你装 10 个 MCP server,每个有 10 个工具,不会一上来就全加载。只有真用到的时候才加载对应的工具。 所以你可以继续用 MCP,如果需要 OAuth 这种高级功能的话(这是目前 MCP 和 skill 的主要区别)。 另外可能还需要 hooks 来处理一些确定性的任务,或者自定义 subagent。但大部分时候,作为用户你只需要想两件事: ▸ Rules:我需要给 AI 提供什么静态上下文 ▸ Skills:我需要给 AI 什么动态能力 ====== 最佳实践 Rules 的使用建议 把 rules 当成一个"活的"文档。只放最少但最高质量的上下文,因为它会在每次对话中都被加载。 每次看到 AI 犯错,不管是本地开发还是 PR review,我就会说"嘿,把这个加到我的 agents. md 或者 cursor rule 里"。让它自己更新和进化。 现在这个还有统一标准了,挺方便的。 ------ Skills 的探索 Skills 太新了,现在还没有特别成熟的最佳实践。 但我预计接下来 6 个月,随着更多人开始用 skills,生态建起来之后,会变得越来越重要。值得关注。 来源:x.com/leerob/status/2011810357942084085

00
歸藏
1天前
AI 编程工具里有个让人头疼的问题:

rules、commands、MCP servers、subagents、modes、hooks、tools 一堆概念,搞得比学一门新编程语言还复杂。

Cursor Lee Robinson 出了个视频解释和介绍的非常好。

其实这些东西最后都能归纳为两个核心概念:

静态上下文和动态上下文。或者说得更直白点,就是 rules skills。

======

Rules 的诞生

最早做 AI 编程的时候,模型老爱瞎编。你让它写个函数,它能给你造出一个根本不存在的库。

于是就有了 rules 文件,把代码规范、业务需求、模型经常犯的错误都写进去,每次对话都带上。这招挺管用的。

后来 rules 文件越写越长,就开始拆分成多个文件,可以嵌套引用。但本质上还是一回事:把这些规则全部塞进每次对话的上下文里。

这就是静态上下文,static context。不管你要做什么任务,这些信息都会被加载进来。

------

Commands 出现了

随着用 AI 写代码的人变多,一些固定的工作流开始出现。比如我每次都要先跑测试,再提交代码,最后开 PR。

这时候就需要 slash command,把一套固定的提示词打包起来,需要的时候 /command 一下就行。

比如我现在用的 /commit 命令,一键就能完成 Git 提交和开 PR 的整套流程。这些 command 还能分享给团队,放到 Git 里统一管理。

到这里,我们还是在处理文本,只是把提示词组织得更灵活了。

======

MCP Servers 带来新能力

光有文本不够,AI 还得能干活。这就有了 MCP(Model Context Protocol)服务器。

MCP server 不只是个提示词,它是真的在跑代码。可以连到你现有的系统,读取 Slack 消息,创建 Linear issue,做 OAuth 认证。

这相当于给 AI 添加了新技能,第三方工具的能力。就像人类编程有各种库可以调用,AI 也有了自己的"工具箱"。

但问题来了:如果你装了 10 MCP server,每个都有 10 个工具,那初始上下文就会被塞满。这就是为什么后面又有了新的优化。

======

Modes Subagents 的登场

到这一步,我们有两种往上下文里塞东西的方式:文本(rules、commands)和代码(MCP servers)。

接下来是 modes subagents。Subagent 有点像带人设的提示词,可以限定它能用哪些工具。Mode 更进一步,不光能改指令,还能修改系统提示词,给 AI 开放新工具,甚至改 UI。

比如规划模式 plan mode,会提醒 AI "你现在在做计划,专注于规划",还提供专门的工具来创建和修改计划。

这些设计的核心目的是两个:可靠性和可发现性。让 AI 的输出更稳定,让功能更容易被用户找到。

但你得记住,AI 本质上还是个非确定性系统,还是会出错。

------

Hooks 解决确定性问题

于是又有了 hooks,给 AI 加上完全确定性的钩子。

比如每次对话开始前,自动注入一些上下文(其实就是静态上下文的另一种实现)。或者对话结束后,自动触发某个操作,比如记日志或存数据库。

这些是 100% 确定执行的,不会出错。

======

Skills 统一了一切

讲到这里,我们已经有一堆概念了。但仔细看,其实就两类:

静态上下文:每次对话都要加载的提示词(rules)
动态上下文:按需加载的代码和工具,不会撑爆初始上下文(skills)

Skills 就是用来统一动态上下文的。

最基础的 skill 就像 command,一个可复用的工作流,比如我的 Git PR 流程。打包好,分享给团队,不占初始上下文。

最高级的 skill 可以包含脚本、可执行文件、资源文件,任何你想打包的东西。重点是只有在用的时候才加载,不用就不占空间。

这就把世界简化了:作为用户,你只需要关心 rules skills 两个东西。

------

编程工具的优化

有了 skills 这个概念,编程工具也能做优化。

比如 Cursor 现在就学习了 skills 的思路:你装 10 MCP server,每个有 10 个工具,不会一上来就全加载。只有真用到的时候才加载对应的工具。

所以你可以继续用 MCP,如果需要 OAuth 这种高级功能的话(这是目前 MCP skill 的主要区别)。

另外可能还需要 hooks 来处理一些确定性的任务,或者自定义 subagent。但大部分时候,作为用户你只需要想两件事:

Rules:我需要给 AI 提供什么静态上下文
Skills:我需要给 AI 什么动态能力

======

最佳实践

Rules 的使用建议

rules 当成一个"活的"文档。只放最少但最高质量的上下文,因为它会在每次对话中都被加载。

每次看到 AI 犯错,不管是本地开发还是 PR review,我就会说"嘿,把这个加到我的 agents. md 或者 cursor rule 里"。让它自己更新和进化。

现在这个还有统一标准了,挺方便的。

------

Skills 的探索

Skills 太新了,现在还没有特别成熟的最佳实践。

但我预计接下来 6 个月,随着更多人开始用 skills,生态建起来之后,会变得越来越重要。值得关注。

来源:x.com/leerob/status/2011810357942084085
619
歸藏
1天前
Claude Code 真的超级方便,不止编程

还能帮你下载 YouTube Bilibili 视频,教一下怎么做

主要通过 yt-dlp ffmpeg 两个项目实现

首先让 Claude Code 帮你安装 yt-dlp ffmpeg,直接自然语言跟他说就行。

装好之后直接拿你需要下载视频的链接跟他说:帮我调用 yt-dlp 下载这个视频,然后用 ffmpeg 转换成 mp4 格式,视频地址是:XXXX

比你搜到的各种视频下载网站快的多,那些网站要不分辨率低,要不视频音频分开的,很麻烦
127
歸藏
2天前
王炸!千问接入阿里全生态,能订机票点外卖

千问今天的发布会真的整了个大的。全面接入了阿里系所有的生活服务生态业务,比如淘宝闪购、飞猪、淘宝、支付宝等。

你可以在千问这个入口,让 AI 自动帮你完成所有在阿里系可以完成的事情,比如点外卖、订机票。

比如你可以让他帮你推荐成套的淘宝商品或者进行比价,尤其是我这个直男在挑礼物的时候真的很痛苦,你完全可以跟他说送礼对象的信息,让他帮你选一下礼物。

当然也可以帮你快速点淘宝闪购的外卖,直接跟他说就行,尤其是需要点很多人的东西或者你有精准的目的,可以完全跳过 UI 层的交互直接在千问 APP 内完成下单,我这里让他帮我点了一下明天的早餐,选的还行。

也可以调用高德和飞猪的服务帮你进行行程规划和订票,从路线到旅游服务一步到位,完全不需要跳转其他 APP。

当然这次还增加了任务助理功能,可以帮你调研信息、写文档、做报表、写网页。比如我让他调研了中国AI 漫剧行业出个报告,他直接给了网页、PDF 文档,甚至给了详细数据的表格,这三份内容还不是都是一样的,专门为内容载体做了优化,当然做 PPT 也没问题。

神奇的是,还有一个 AI 打电话的能力,可以帮你店电话到餐厅预定座位。

这次千问真是做到了人无我有,毕竟阿里这十几年建立的商业帝国是最强大的壁垒,医疗、政务、购物、旅游、外卖,基本上覆盖了生活需要的所有场景。

而且他们真的狠,全部接入千问之后,用户真的不需要浏览原来复杂的交互,直接剔除需求就可以了。

相信很多朋友刚接触 AI 的时候都想过这种在一个 AI 应用里享受日常所有的服务,没想到这么快就实现了。

而且随着用户不断的使用千问执行各种任务和享受服务,AI 也会越来越了解用户,真正建立数据飞轮。

目前这些服务已经上线,可以点千问 APP 的“办事”入口体验。
2336
歸藏
2天前
最近开源的两个项目一个快 700 Star,一个快 500 Star

分别是藏师傅提示词库和 PPT 生成 Skills

在之前很难想象开发和发布会这么轻松和简单

尤其 PPT 生成 Skills 这个,震撼我的不是 Claude Code 可以写好代码和逻辑,而是他写的各种文档详细且排版优美,我可以跟着文档了解和学习整个项目
222
歸藏
2天前
Claude Code 发布了两个不错的更新

MCP 工具搜索以及接受或者拒绝提示的时候 Tab 键补充信息

MCP 工具搜索这个很好,以前如果你在 Claude Code 里面安装了大量 MCP ,在检索工具的时候就会占用你大量的上下文。

MCP 工具搜索加入之后,工具会动态的加载到上下文里面。

如果你有一个 MCP 服务创建者的话需要重点关注 "server instructions” 这个参数,不然有可能没办法正常拉起 MCP。

接受或者拒绝提示的时候 Tab 键补充信息,这个太有用了。

每次他对了一部分错了一部分的时候我都会很纠结,不知道该同意还是拒绝这次操作,现在完全可以补充信息。
00
歸藏
2天前
Open AI 宫斗还在继续啊

Thinking Machines CEO 也就是前 Open AI CTO Mira 突然宣布解雇了他们公司的 CTO Barret Zoph

原因是 Barret Zoph 有不道德的行为,有人说是他给竞争对手泄露了机密信息。

结果 Barret Zoph 扭头宣布自己回到 Open AI 上班了,而且还带了两个其他的研究员 Luke Metz Sam Schoenholz 回来

Sam 开始挖之前从 Open AI 离职的人了,不知道这一进一出有涨了多少工资
01
歸藏
3天前
谷歌 Veo 3.1 昨晚这个更新牛皮啊

新的多图参考和 4K 超分,直接把可用性拉满了

多图参考(Ingredients to Video)中人物和物品一致性大幅增强,支持输出竖版视频,也能融合纹理、角色和物品。

视频分辨率也有变化,现在官方支持更好的 1080P 4K 超分服务。

目前 FLOW 上就可以使用,选择“素材生视频”就可以,只支持 Veo 3.1-Fast 模型。
00:08
04
歸藏
3天前
Pixverse 发布 R1 实时视频世界模型

藏师傅也试了一下

前几天测试的 Pixverse R1 终于发布了,这是一个可以实时生成并且可以随时通过提示词介入修改后续内容的世界模型。

极限情况下可以实时生成 1080P 的高清视频,感觉成本再下来一点以后 AI 游戏和交互式的影视内容有戏了啊。

------

简单介绍一下使用体验,目前他们在一个单独的平台测试需要邀请码。

你可以选择预制的的三个主题进行体验,三个主题分别是巨龙巢穴、二战主题、海底世界,正式版本会增加到 6 个。

也可以创建自己的主题,选择画面比例、风格输入主题相关提示词就可以了。

生成之后主要的互动就是在他播放的过程中输入提示词来改变当前视频生成的剧情走向。

而且这里生成的视频居然还是带音乐、音效混合旁白的,比以前所谓的实时生成的模型强了不少。

------

算法和架构上主要的优化有:

这是个原生的多模态模型支持将文本、图像、视频、音频统一为连续的 Token 流,接受任何模态的输入。

PixVerse-R1 改成了非扩散的自回归架构,用来实现无限连续的生成,还使用了增加注意力机制,确保长时间生成的内容一致性。

为了适配实时视频生成的性能,他们将原来的迭代降噪逻辑进行了多项优化,他们叫瞬时响应引擎 (IRE),主要包括三个优化:

Temporal Trajectory Folding:传统模型从噪点到清晰图像需要迭代几十步,他们直接暴力压缩到仅需 1–4 步。

Guidance Rectification:直接将传统的 CFG 逻辑蒸馏到了模型参数内部,节省了时间。

Adaptive Sparse Attention:生成高分辨率的视频的时候让模型学会学会“抓大放小”,自动识别重要区域进行精细计算,大幅降低计算负载。

-------

目前由于成本问题需要邀请码才能测试,生成的分辨率是 480P,过几天会提高到 720P。
00:29
20
歸藏
3天前
Antigravity 开始支持 Skills 了,这下要爆发了

他们文档写的不好,我摸索了一下怎么用,这里分享一下

------

Antigravity 支持两种类型的 Skills,Workspace 和全局。

具体的使用和创建方式就是将你的 Skills 文件夹移动到两个不同的文件位置。

Workspace Skills 需要在你当前打开的项目文件夹下,

<workspace-root>/.agent/skills/<skill-folder>/

比如我我的项目文件叫 Prompt 那他就在这个位置

/Users/guohao/Documents/Text content/Prompt/.agent/skills

全局的 Skills 需要放在 Antigravity 的安装文件夹下面,

~/.gemini/antigravity/skills/<skill-folder>/

比如我自己电脑的话他应该在这里:

/Users/guohao/.gemini/antigravity/skills/

Mac 下打开具体文件夹的方法是:点击访达,在桌面最上面的 Tab 栏找到前往,输入对应的路径。

当你把 Skill 放进去以后,Antigravity Agent 就可以看到你的 Skills 列表,然后如果你的对话内容看起来跟某个 Skills 相关,他就会读取这个 Skills. md 的内容并执行。

比如你用我写的 PPT 生成 Skills 的话就是,帮我基于 XXX 文档创建一个 PPT。
818