即刻App年轻人的同好社区
下载
App内打开
歸藏
565关注25k被关注50夸夸
产品设计师、模型设计师、 不会代码的独立开发者。
关注人工智能、LLM 、 Stable Diffusion 和设计。
歸藏
13:00
DeepSeek 这还没到过年就开始发力了!

发布了升级后的 OCR 2 模型,主要优化是加入模拟人类视觉的“因果推理”机制

将原来的 Clip 模型替换为 LLM 架构模型,用的 Qwen 0.5B

看看这两代模型都做了什么👇

======

从视觉压缩到因果推理

OCR 1 证明了一件事:视觉可以作为文本的高效压缩形式。

"一张图胜过千言万语"不只是比喻。他们的实验显示,10 个文本 token 压缩成 1 个视觉 token 时,OCR 精度能达到 97%。甚至 20 倍压缩比下还能保留 60% 的精度。

这解决了 LLM 处理长文本计算量大的问题,用视觉模态节省 Token。

------

OCR 2 要解决的是更本质的问题:阅读顺序。

传统的 Vision Encoder 都是固定的光栅扫描,从左到右,从上到下。但人类看图不是这样的,你会根据内容的语义逻辑跳着看。

复杂排版的文档、表格、公式,空间位置顺序和逻辑阅读顺序根本不一样。OCR 2 就是要让编码器学会这种"因果推理"能力。

======

架构升级:用 LLM 替换 CLIP

这是两代模型最大的区别。

OCR 1 的编码器是 SAM + CLIP 串联结构。SAM 负责视觉感知(窗口注意力),CLIP 负责视觉知识(全局注意力)。

OCR 2 把 CLIP 换成了一个紧凑的 LLM(Qwen2 0.5B)。

为什么要这么做?因为 LLM 架构天然具备"因果推理能力"。

------

注意力机制的巧妙设计

OCR 2 用了混合注意力机制:

▸ 视觉 Token 之间:双向注意力(类似 ViT),保持全局视野
▸ 新增的查询 Token(Query):因果注意力(类似 LLM 解码器)

这些 Query 的数量和视觉 Token 一样多,它们的作用是对视觉信息进行语义重排序。

通过定制的注意力掩码,Query 采用三角形掩码,能基于之前的上下文逐步"推理"出下一个视觉信息的重点。就像你看文档时,会先扫标题,再看关键段落,最后才看细节。

======

级联因果推理:两步走

OCR 2 的推理过程是级联的:

第一步,编码器通过 Causal Query 对视觉信息进行逻辑重排序。

第二步,解码器(DeepSeek-3B-MoE)再进行文本生成。

这种设计显著提升了文档的阅读顺序准确性。在 OmniDocBench 测试中,阅读顺序编辑距离从 0.085 降到 0.057。

------

实际应用中的稳定性也更好。

生产环境的数据清洗任务中,OCR 2 的重复率从 6.25% 降到 4.17%。生成的文本更稳定可靠,不会出现那么多胡言乱语。

======

保持高压缩率,提升信息密度

OCR 2 继承了 OCR 1 的高压缩特性。

视觉 Token 数量限制在 256 到 1120 之间(和 Gemini-3 Pro 的预算一致),既保证效率,又通过因果重排序提升了信息密度。

在相同或更少的 Token 预算下,OCR 2 在 OmniDocBench 上的整体性能比 OCR 1 提升了 3.73%。

------

模型下载:huggingface.co

论文阅读:github.com
24
歸藏
10:58
Claude 上线了一批支持远程连接的 MCP 服务

现在在连接器部分多了个精选分类,估计是深度合作调整过的。

比如 Figma 画流程图,Gemma 生成 PPT,还有 Canva GitHub
20
歸藏
10:34
他妈的,迟早有一天玩这屌 AI 得给自己玩破产。
90
歸藏
1天前
Open AI 明天早上八点直播
01
歸藏
2天前
Lenny's Newsletter 买的真是值啊,送会员居然还在上新

现在都有非常流行的网页构建工具 Framer 以及 Manus 会员了

还加了一些其他产品,可以看看有没有你需要的,我先把 Manus 领了
126
歸藏
2天前
这哥们实现了一个类似 Clawdbot 的项目

不同的是用 Telegram 远程控制 Claude Code,这样确实更好一些

本身 Claude Code 问题比较少,也可以单独控制 Telegram 机器人的用户权限

以后应该会有更多类似项目

详情:github.com/hanxiao/claudecode-telegram
00:10
65
歸藏
2天前
Clawdbot 这东西做的糙的离谱啊

即使你 VPS 部署也会有风险,18789 端口暴露的网关完全没有身份验证

别人可以随意访问你的 API Key 和操作里面的浏览器

VPS 部署的时候建议启用 Cloudflare Tunnel ,反正是免费的
39
歸藏
2天前
AWS 免费套餐跑 Clawdbot 的教程,这个可以

别在上面登录你的常用账号,我把视频流程转成文本了:

======

为什么是 Clawdbot

这个项目最酷的地方在于它的可扩展性。你可以通过技能和插件让 Claude 连接任何东西,而且社区已经做了很多现成的集成。

有人用 meta Ray-Ban 智能眼镜配合 Clawdbot,在超市里直接拍照问"这个商品在亚马逊多少钱",如果便宜就自动加购物车。这种场景化的应用才是 AI 助手真正该有的样子。

------

AWS 部署流程

AWS 控制台搜索 EC2,点击橙色的 Launch Instance 按钮。实例命名随意,系统选 Ubuntu,实例类型搜"free",选最大的免费档 8GB 内存那个。

不部署其他资源的话应该完全免费。技术上可以不创建 SSH 密钥,教程也不需要。点击 Launch Instance 就行。

实例创建好后,点进 Instance ID,右上角 Connect,然后右下角再 Connect,这会在浏览器里打开一个 SSH 终端连接到你的服务器。

------

一行命令安装

进入终端后,去 claud .bot 官网,复制那行安装命令,粘贴到终端回车。就这一条命令,整个设置不到两分钟。

实际安装过程会长一点。安装完成后直接进入引导流程。

------

配置和激活

需要同意风险声明,特别是如果你给它文件系统访问权限或者邮件、密钥之类的。选择 Quick Start,用 Anthropic Max 订阅,Token 粘贴方式设置。

它会让你在本地终端运行一条命令来获取 Token。然后选模型,Opus 4.5 最新版,这是最聪明的那个。

接下来可以关联渠道。Telegram 的话它会给你具体步骤。还能配置技能,比如 Homebrew、Node 包管理器 Bon 之类,这些可以先跳过。

内存、钩子这些都可以启用,然后就是 Hatch(孵化)。

------

给机器人身份

Hatch 环节是给机器人建立身份。你要告诉它叫什么名字、它的目的、还有其他你想要的信息。

比如"你是 Jinx,我是 AJ。AJ 是内容创作者和软件工程师。"保持简单就行,之后可以随时更新。它会用 Soul 系统构建自己的身份,然后继续引导流程。

会问你时区、希望什么样的交互氛围之类。基本上就完成了。

------

渠道配对和首个技能

每个渠道需要做配对。会生成一个配对码,给到你的实例就行。配置完成后就连上了。

我一般会先给它装 Exa MCP 技能。"创建一个技能,封装这个 MCP"这样说就行。Exa 技能包含网页搜索、高级搜索、深度搜索,都打包在一个 MCP 里。

通过 MCP 使用的话是免费的,不需要 API 密钥。这是第一个技能,之后可以加更多。

来源:X-techfrenAJ
04:47
214
歸藏
2天前
确实

赵纯想: 现在二十来岁的人,根本无法意识到他们有多幸运。因为意识不到,所以他们不会手舞足蹈、欢呼雀跃。 按部就班地去找工作,给家长一个交代。在电子游戏上虚度光阴,在一切没有意义的聚会后,收获迷惘与空虚。 人无法同时拥有Claude Code和对人生的失控感! 我们这些可怜的三十来岁的人,FOMO情绪大到恨不得跟二十来岁、十几岁的人换命,换身。 时间,已经开始在我们身上“收网”了。却同时地、刚刚在他们那儿撒下迷魂脂粉。让他们,误以为时间像一块丰腴的肥皂,一时半会儿也用不完似的。 一个刚上大一的年轻人,从掌握AI编程、AI视频工作流、AI智能体赋能传统行业,到使用这些技能赚到钱,养活自己,实现在社会中的“自举”,是那么地近! 这是怎样的世界?只用一层薄薄的,名为“行动力”的纸膜,就把天量的人拦在了外面。让他们像牛群一样,对狮子熟视无睹,依旧成群结对地去课堂上,啃草。 我的弟弟,只因为我多说了两嘴Claude Code,就已经对我产生了不耐烦的情绪。天啊!他刚刚购买了一款独立游戏,38元。像素风2D解谜游戏。我真想告诉他,Claude Code可以在十天内复刻这个游戏,上架,销售……赚取被动收入。终结他和妈妈之间的大部分亲子矛盾…… 你可以轻松复制、下载、购买你看到的一切——这是AppStore时代的移动互联网故事。 你可以轻松复制、上载、销售你看到的一切——这是Claude Code时代的AI故事。 拿着锤子的人,看什么都像钉子。这句话的另一个模态是:不管你同意与否,锤子真的会砸向它所能砸到的一切,去测试它所砸之物能不能算做钉子!就像人类曾经尝试将蒸汽机装进一切旧有的事物中,婴儿车、缝纫机,根本不关心它们是否是最佳场景…… AI,远比蒸汽机细密,像水蒸气,正在钻进社会的每一个骨缝里。同样不关心人们是否同意。这不是愿不愿意参与的问题……是活生生的to be or not to be… 教育的改革有严重的滞后性,在AI前沿工作的人们,看如今的教育,就像苍蝇的复眼中的人类,完全是慢动作,完全是老态龙钟。 房间门已经开了,大象已经走进来了。浑浊的泥土的气息,已经被象耳扇进每一个人的鼻窝。但人们似乎,不约而同地保持了沉默。

00
歸藏
2天前
我的YouTube Clipper Skill Skills 也可以自动完成英文视频的字幕翻译和双语字幕和视频的合成烧录!

在你有原始视频和英文字幕的时候,只需要启动 Skills 然后跟他说:

“帮我调用youtube剪辑Skills为这个视频添加中英文双语字幕,我已经准备好了视频和原始英文字幕,你只需要执行烧录和翻译步骤就行”
41