即刻App年轻人的同好社区
下载
App内打开
歸藏
567关注27k被关注50夸夸
产品设计师、模型设计师、 不会代码的独立开发者。
关注人工智能、LLM 、 Stable Diffusion 和设计。
歸藏
1天前
移动端的语音输入法必须带全键盘,但是桌面端的语音输入法最好跟输入法本身解耦。

Typeless 犯了前一个错误,豆包犯了后一个。
134
歸藏
1天前
在拿了真格的 Token Grant 之后,跟他们聊了一下最近的一些思考,希望对大家有帮助。

mp.weixin.qq.com
00
歸藏
1天前
谷歌看起来要发布 Veo 4 了,也有可能是其他的名字。

类似 Seedance 2.0 的全能参考,支持对视频进行:修改参考和内容替换

质量上看起来,在文字生成上要比 Seedance 2.0 稍微好点,但在其他方面看不出更好的质量,可能在清晰度和细节上也会稍微好点。
00:20
29
歸藏
1天前
Claude Code 昨天更新了一个新的功能:Agent 视图。你可以在一个终端标签页里管理多个正在运行的 Agent。

你可以启动新的 Agent 并将其放在后台,Agent 视图会标注每个 Agent 的状态,包括:已完成、需要输入、正在进行。

你可以通过以下两种方式打开 Agent 视图:

1. 在任何会话点按左箭头
2. 直接在终端运行命令 `claude agents`

在视图中,每一行代表一个 Agent,会显示当前的对话、是否需要你的输入,以及该 Agent 上一次回复的大概内容。

你可以在视图里查看详细的对话信息,也可以直接进行回复。

如果你想将现有的会话加入到 Agent 视图中,可以使用 `/bg` 命令。这个功能对于需要开启多窗口或运行长期任务的场景非常有用。
02
歸藏
1天前
前 OpenAI CTO Mira 的公司 Thinking Machines 发了一个非常创新的模型,他们叫交互模型。

这个模型能够持续接收音频、视频、文本等原生的多模态内容,并且实时进行思考、响应和行动。

它不像之前那种 Agent 脚手架,把多个模型、多个模态的模型通过 Agent 串起来,而是所有模态都在一整个模型里。

这样就可以让用户和 AI 在任意模态下实时进行交互:

你可以随时打断它,随时进行补充,AI 会实时关注你的状态,输出结果,不会像之前一样,必须等一句话结束了才能跟模型交互。

核心思路就是把交互部分训练到了模型里。他们从零训练的这个交互模型主要包括两部分:

前台交互模型:

(a) 一直在线,一直在听、看和读用户提供的内容
(b) 每 200 毫秒作为一个节点,同时处理输入并产出一小段输出
(c) 负责照顾用户的在场感,支持用户打断、插话,并能对屏幕和视频内容做出反应

后台推理模型:

(a) 用来处理需要持续推理、工具调用以及长上下文、长规划的任务
(b) 交互模型会在合适的时候,将推理模型的结果放回到对话里,不会插入突兀的内容

用户最终看到的结果,就是一个既能实时交互,又能够处理重度任务的界面。

详情:thinkingmachines.ai
02:15
25
歸藏
2天前
来了!藏师傅的 PPT Skill 更新了第二套主题

新主题更加简洁美观,适合讲一些数据和事实性的内容

而且支持 4 种颜色、20 多个版式。

支持用 Codex 内置的 GPT-2.0 帮你生成配图和美化截图。

还能让它帮你生成各种平台的封面,以及公众号配图。

文章里详细讲了一下怎么用,还有一些小技巧:mp.weixin.qq.com
02:27
59
歸藏
4天前
厌倦了千篇一律的衬线字体和排版?

歸藏的 PPT Skill 新主题预告
12
歸藏
4天前
当前 AI 产品演进已经确立了一个清晰的行业共识:

采取数据与表现分离的架构,以 Markdown 负责底层逻辑与记忆的纯净存储,用 HTML 实现对外的高密度交互与展示。

这个思路的脉络是,前几天借着 Obsidian 作者提出 Markdown AI 内容谢林点的观点,我发散讨论了当前 AI 原生格式主要分为 Markdown HTML。

刚好今天 Claude Code 的作者也发文印证了这一点,他提到自己主要的对外分享形式已经全面转向 HTML。这两位前沿开发者的观点结合在一起,非常完整地勾勒出了这套方案的底层逻辑。

在这个架构中,Markdown 的绝对角色是底层的逻辑和记忆。所有的事实性内容都必须使用 Markdown 存储,它作为核心的底层 Memory,是最适合作为原始数据的载体。

HTML 则全面接管了表现层和对外展示。Markdown 最大的缺陷在于篇幅变长后极难阅读和理解,但 HTML 可以通过精细的排版组织、空间定位和视觉元素,达到极高的信息密度,同时还能支持极其丰富的可交互形式。

HTML 也有明显痛点,极不适合做状态的版本控制。

在产品的迭代过程中,HTML 不能作为原始数据直接供 AI 消费。因为它内部混杂了大量的代码结构和样式等非事实类内容,这不仅会让人类在审阅版本差异时面临巨大的噪音,也会让 AI 浪费大量的 Token 额度。

所以构建 AI 产品的核心就在于彻底分离数据层和表现层。底层数据应该继续以 Obsidian 这种成熟的 Markdown 组织形式为核心运转;

而在遇到需要对外分享或交流的场景时,再将内容渲染为 HTML,并部署到类似 S3 这样的平台上,让用户拥有一键打开就能直接消费的顺滑体验。

未来的 AI 产品也必然会沿着这条数据与表现解耦的路径继续发展。

Claude Code 的作者原文:x.com/trq212/status/2052809885763747935
617
歸藏
5天前
最近把你的户外照片做成“法天象地”效果的图片非常火。

他们大多是生成的图片,但我试了一下,直接生成视频的效果会更好。

优化了一下提示词,主要是 GPT-Image-2.0 加上 C-Down 3.0。图片的提示词我放在视频后面了。
00:19
69
歸藏
5天前
Codex 越来越猛了,昨天更新增加了内置的谷歌浏览器插件,可以直接控制你的谷歌浏览器执行任务。

而且它可以在后台跨浏览器页面并行工作,不耽误你正常使用浏览器。所谓“并行工作”,指的是你可以启动多个子 SubAgent 帮你操作多个网页。

我试了一下,发现最厉害的一点是:它不仅可以控制 Chrome,任何基于 Chromium 的浏览器都是可以的。比如我这里用的是 Dia 浏览器,我在 Dia 浏览器安装了一个插件,它就可以直接控制我的 Dia 浏览器。

具体如何使用呢?

Codex 的插件库里找到 Chrome 这个插件。
点击添加,随后它会引导你打开浏览器插件的安装页面。
点击打开并安装即可。

安装完成后就可以直接给它下达任务了。这种支持并发且不影响用户原生操作的体验真的很爽。而且 Mac Windows 都支持。
2420