即刻App年轻人的同好社区
下载
App内打开
歸藏
565关注25k被关注50夸夸
产品设计师、模型设计师、 不会代码的独立开发者。
关注人工智能、LLM 、 Stable Diffusion 和设计。
歸藏
16:56
藏师傅又做了一个自媒体神器!解决视频包装问题!

视频包装 Video Wrapper Skills,给视频自动添加各种动画特效

- 一键完成任何视频的包装特效添加;
- 自动分析内容,给出特效添加建议;
- 内置四套样式主题,Notion、Cyberpunk 等;
- 提供十多个特效组件,花字、进度条、高亮卡片等;
- 完全本地完成,只消耗 CC Token。

这个教程视频也使用的这个 Skills 进行包装,一键搞定

项目地址:github.com/op7418/Video-Wrapper-Skills
02:42
03
歸藏
10:52
我去,Google 开始给 Gemini Pro Ultra 用户发放谷歌云赠金了!

Ultra 用户每月有 100 美元,Pro 用户每月 10 美元!

我上个月在 AI Studio 就疯狂玩 Nano Banana Pro,才花了 50 美元,这下可以爽玩了,朋友们!

赶紧去领,赶紧去领!而且我那些调用 Nano Banana Pro Skills,大家也可以随便玩了

如果你是 Gemini 会员的话,可以在这里领取,选那个每月 XX 元的抵用金就行:developers.google.com/program/my-benefits

领到的钱可以在谷歌云-结算-赠金这里面查看,我的已经到账了
329
歸藏
00:56
Clawdbot 改名为 Moltrbot 了,目前的官推是 @ moltbot


原因是 Anthropic 给他们发了律师函要求改名。

Anthropic 管的真宽,这名字都要说侵权。

GitHub重命名时,Peter的个人账号出错(组织账号 unaffected),但很快修复。

而且推特改名字的时候直接被区块链骗子抢注了,目前诈骗账号已经被处理。

各位自己也得注意一下别被骗。

你已经安装的 Clawdbot 不需要做任何操作,可以正常更新。
36
歸藏
1天前
试了一下 Kimi-K2.5,真的很顶!

美学表现、设计还原、从视频还原动效交互都是 T0 水平。

我后面写前端应该都会优先用这个模型了。

里面还有些藏师傅的使用小技巧:mp.weixin.qq.com

======

为什么审美重要

以前 AI 生成的网页,不管你提示词写得多好,默认生成的结果都很土。

设计师每次都得反复调教,普通人根本不知道怎么描述自己想要的风格。

K2.5 解决了这个痛点:

▸ 对设计师:它能更好地遵循你的设计稿和提示词,帮你还原想象中的设计
▸ 对普通人:不用管提示词,不用找参考,把内容交给它就行

这两个加起来,迭代代码和生成网页就很舒服了。你可以随便找参考内容扔给它——图片、视频、网页链接都可以,然后通过截图标记不断迭代。

======

测试 1:Tab 切换交互组件

既然支持视频了,就搞个难的。

我找了一个 Tab 切换的交互视频,这个组件虽然小,但交互挺复杂。切换到右侧时会一分二,选中状态变白色,还有文字移动、回弹效果、右侧的胶囊设计。

提示词:
「帮我实现视频中的这个前端组件,重点是丝滑的交互动效,可以使用 anime.js 这类动效库,重点关注切换后的已选中和未选中颜色变化以及关于右侧一分二之后的设计细节」

------

第一次生成的交互动效就还原得很好了。

基础视觉有些小问题,比如左侧文字颜色和右侧对齐。我截图标红反馈之后,立刻搞定。

来看跟原始 AE 做的动效对比,基本所有要点都处理好了:圆润的文字字体、右侧一分二、颜色互换、黑色包裹白色胶囊。

它甚至加上了 duangduang 的回弹动效,看起来比原始交互更有活力和真实感。

------

这类小组件的交互视频才是最难的考题。

因为变化很快,交互的真实感往往是很多非常小的细节堆叠起来的。K2.5 第一次测试就完成得不错,我原本没指望它能做到。

======

测试 2:从视频到完整的卡片系统

这个案例展示如何用 K2.5 的多模态能力迭代一个项目。

首先找灵感,我找到一个天气卡片切换的动效,非常丝滑。把视频发给 K2.5,让它还原这部分动效。

提示词:
「帮我根据这个视频实现类似的交互。中间的天气图片可以用互联网图片。交互核心:鼠标 hover 上去时,卡片大小调整的弹性变化和无缝过渡的动效(如弹跳效果等),可以用 Anime.js 等动效库去完成。功能模块:删除卡片、调整卡片大小」

第一个版本就搞出了不错的东西。

------

有些视觉小问题,我截图标记发给它,不需要费心描述位置和细节。而且我还在修复问题的时候让它加功能。

经过两轮修改,基本就还原了视频原本的交互动画和效果。除了图标不一样,K2.5 实现的效果我觉得甚至比原视频还要好一些。

------

做到这里,基本上完成了一个类似 iOS 卡片组件的动效效果。

自然而然就想把这部分做完,加上更多的卡片类型,同时处理纵向的排列逻辑。

于是又去找其他类似卡片设计参考,找到一个阅读卡片还不错。让它基于现在的交互效果,为系统增加阅读卡片的样式,同时增加添加卡片的按钮。

------

进行两三次这样的迭代之后,实现了一个非常炫酷充满动效的卡片组件自定义系统。

现在它支持天气卡片、纯文本卡片、书籍卡片、书籍推荐卡片、股票卡片。所有的操作都有动画,即使是添加和删除,每个部分都加上了不同卡片大小的样式适配。

还记得之前有个个人链接聚合产品就是这样的吗,后来还被收购了。而我们现在只需要打几个字,点几下同意就能完成这样精美的产品。

K2.5 已经完全可以支持通过 Vibe Coding 和多模态参考的形式,跳过设计直接进行开发。你完全可以通过不同的参考图边设计边开发,而且相较于 Sonnet 4.5 便宜很多。

======

Agent 模式:给它一个链接,啥也不说

这次的 Agent 模式非常强,给了 K2.5 虚拟机和各种工具之后,任务完成率高了一大截。

你甚至可以直接给它一个链接,啥也不说,就让它复刻这个网站。

它会自己访问网页,然后一点一点浏览、截图、存档分析。如果网站允许的话,它甚至可以帮你把图片素材都搞过来。

------

直接看结果,K2.5 把所有的交互和内容都搞定了,甚至那个卡片缺角也在有意模仿。

而且它不是 1:1 复刻,它会在一些小细节上采用自己的设计风格,而且这个风格很一致,会保持完整个网页。

从这个例子可以看到,K2.5 是有自己的美学逻辑和思维的,不只是单纯的像素级致敬。

它会抽取参考网页的设计思路和特殊的处理方式,然后自己再进行融合处理。当然你说你就是想让它像素级复刻,多改几次它也会遵循。

======

最惊艳的案例:设计系统规范网站

这个是意外。

我整理了一个设计风格的提示词,准备给它一个文档,变成网页的。结果我忘了发文档本身,就把提示词发了进去。

但它给了我一个非常惊艳的结果:它直接为这个提示词做了一个设计系统的设计规范网站。而且本身的风格也是跟着提示词来的。

------

这个提示词其实非常长,要求很多。

结果它的遵循相当不错,用结合各种组件把具体的要求和设计风格都展示出来了。它还给背景加上了那种很像条纹的纹理,有种很像纸张的感觉。

------

还有一个案例也是无意间跑出来的。

当时我让它复刻一个网页,可能网页有反爬它没有拿到信息。但是自己发挥依然给了一个相当不错的结果。

这说明它的自主设计能力已经很强了。

======

使用建议

从这次测试的结果来看:

▸ 简单效果和代码:用普通模式就行
▸ 复杂项目、大量动效、多资料参考:用 Agent 模式

------

Agent 模式的任务完成率明显高很多,但消耗的 Token 也更多。根据你的项目复杂度和预算选择。

======

局限性

这次的多模态能力虽然有了非常大的进步,但与其他类似模型一样,在涉及到一些非常小的设计细节时,它其实无法完全理解和捕捉到那些精准的数值。

主要体现在几个方面:

▸ 很小的圆角
▸ 卡片的描边细节
▸ 具体的色值

这方面我觉得大家(多模态模型)都还需要继续努力。

------

但总体来说,K2.5 在前端审美和动效复刻上已经是目前最好的选择之一了。配合 Agent 模式,边设计边开发的工作流已经很流畅。

而且相比 Sonnet 4.5,便宜不少。
00:46
520
歸藏
2天前
DeepSeek 这还没到过年就开始发力了!

发布了升级后的 OCR 2 模型,主要优化是加入模拟人类视觉的“因果推理”机制

将原来的 Clip 模型替换为 LLM 架构模型,用的 Qwen 0.5B

看看这两代模型都做了什么👇

======

从视觉压缩到因果推理

OCR 1 证明了一件事:视觉可以作为文本的高效压缩形式。

"一张图胜过千言万语"不只是比喻。他们的实验显示,10 个文本 token 压缩成 1 个视觉 token 时,OCR 精度能达到 97%。甚至 20 倍压缩比下还能保留 60% 的精度。

这解决了 LLM 处理长文本计算量大的问题,用视觉模态节省 Token。

------

OCR 2 要解决的是更本质的问题:阅读顺序。

传统的 Vision Encoder 都是固定的光栅扫描,从左到右,从上到下。但人类看图不是这样的,你会根据内容的语义逻辑跳着看。

复杂排版的文档、表格、公式,空间位置顺序和逻辑阅读顺序根本不一样。OCR 2 就是要让编码器学会这种"因果推理"能力。

======

架构升级:用 LLM 替换 CLIP

这是两代模型最大的区别。

OCR 1 的编码器是 SAM + CLIP 串联结构。SAM 负责视觉感知(窗口注意力),CLIP 负责视觉知识(全局注意力)。

OCR 2 把 CLIP 换成了一个紧凑的 LLM(Qwen2 0.5B)。

为什么要这么做?因为 LLM 架构天然具备"因果推理能力"。

------

注意力机制的巧妙设计

OCR 2 用了混合注意力机制:

▸ 视觉 Token 之间:双向注意力(类似 ViT),保持全局视野
▸ 新增的查询 Token(Query):因果注意力(类似 LLM 解码器)

这些 Query 的数量和视觉 Token 一样多,它们的作用是对视觉信息进行语义重排序。

通过定制的注意力掩码,Query 采用三角形掩码,能基于之前的上下文逐步"推理"出下一个视觉信息的重点。就像你看文档时,会先扫标题,再看关键段落,最后才看细节。

======

级联因果推理:两步走

OCR 2 的推理过程是级联的:

第一步,编码器通过 Causal Query 对视觉信息进行逻辑重排序。

第二步,解码器(DeepSeek-3B-MoE)再进行文本生成。

这种设计显著提升了文档的阅读顺序准确性。在 OmniDocBench 测试中,阅读顺序编辑距离从 0.085 降到 0.057。

------

实际应用中的稳定性也更好。

生产环境的数据清洗任务中,OCR 2 的重复率从 6.25% 降到 4.17%。生成的文本更稳定可靠,不会出现那么多胡言乱语。

======

保持高压缩率,提升信息密度

OCR 2 继承了 OCR 1 的高压缩特性。

视觉 Token 数量限制在 256 到 1120 之间(和 Gemini-3 Pro 的预算一致),既保证效率,又通过因果重排序提升了信息密度。

在相同或更少的 Token 预算下,OCR 2 在 OmniDocBench 上的整体性能比 OCR 1 提升了 3.73%。

------

模型下载:huggingface.co

论文阅读:github.com
45
歸藏
2天前
Claude 上线了一批支持远程连接的 MCP 服务

现在在连接器部分多了个精选分类,估计是深度合作调整过的。

比如 Figma 画流程图,Gemma 生成 PPT,还有 Canva GitHub
30
歸藏
2天前
他妈的,迟早有一天玩这屌 AI 得给自己玩破产。
120
歸藏
2天前
Open AI 明天早上八点直播
01
歸藏
3天前
Lenny's Newsletter 买的真是值啊,送会员居然还在上新

现在都有非常流行的网页构建工具 Framer 以及 Manus 会员了

还加了一些其他产品,可以看看有没有你需要的,我先把 Manus 领了
127
歸藏
3天前
这哥们实现了一个类似 Clawdbot 的项目

不同的是用 Telegram 远程控制 Claude Code,这样确实更好一些

本身 Claude Code 问题比较少,也可以单独控制 Telegram 机器人的用户权限

以后应该会有更多类似项目

详情:github.com/hanxiao/claudecode-telegram
00:10
76