DeepSeek 这还没到过年就开始发力了!
发布了升级后的 OCR 2 模型,主要优化是加入模拟人类视觉的“因果推理”机制
将原来的 Clip 模型替换为 LLM 架构模型,用的 Qwen 0.5B
看看这两代模型都做了什么👇
======
从视觉压缩到因果推理
OCR 1 证明了一件事:视觉可以作为文本的高效压缩形式。
"一张图胜过千言万语"不只是比喻。他们的实验显示,10 个文本 token 压缩成 1 个视觉 token 时,OCR 精度能达到 97%。甚至 20 倍压缩比下还能保留 60% 的精度。
这解决了 LLM 处理长文本计算量大的问题,用视觉模态节省 Token。
------
OCR 2 要解决的是更本质的问题:阅读顺序。
传统的 Vision Encoder 都是固定的光栅扫描,从左到右,从上到下。但人类看图不是这样的,你会根据内容的语义逻辑跳着看。
复杂排版的文档、表格、公式,空间位置顺序和逻辑阅读顺序根本不一样。OCR 2 就是要让编码器学会这种"因果推理"能力。
======
架构升级:用 LLM 替换 CLIP
这是两代模型最大的区别。
OCR 1 的编码器是 SAM + CLIP 串联结构。SAM 负责视觉感知(窗口注意力),CLIP 负责视觉知识(全局注意力)。
OCR 2 把 CLIP 换成了一个紧凑的 LLM(Qwen2 0.5B)。
为什么要这么做?因为 LLM 架构天然具备"因果推理能力"。
------
注意力机制的巧妙设计
OCR 2 用了混合注意力机制:
▸ 视觉 Token 之间:双向注意力(类似 ViT),保持全局视野
▸ 新增的查询 Token(Query):因果注意力(类似 LLM 解码器)
这些 Query 的数量和视觉 Token 一样多,它们的作用是对视觉信息进行语义重排序。
通过定制的注意力掩码,Query 采用三角形掩码,能基于之前的上下文逐步"推理"出下一个视觉信息的重点。就像你看文档时,会先扫标题,再看关键段落,最后才看细节。
======
级联因果推理:两步走
OCR 2 的推理过程是级联的:
第一步,编码器通过 Causal Query 对视觉信息进行逻辑重排序。
第二步,解码器(DeepSeek-3B-MoE)再进行文本生成。
这种设计显著提升了文档的阅读顺序准确性。在 OmniDocBench 测试中,阅读顺序编辑距离从 0.085 降到 0.057。
------
实际应用中的稳定性也更好。
生产环境的数据清洗任务中,OCR 2 的重复率从 6.25% 降到 4.17%。生成的文本更稳定可靠,不会出现那么多胡言乱语。
======
保持高压缩率,提升信息密度
OCR 2 继承了 OCR 1 的高压缩特性。
视觉 Token 数量限制在 256 到 1120 之间(和 Gemini-3 Pro 的预算一致),既保证效率,又通过因果重排序提升了信息密度。
在相同或更少的 Token 预算下,OCR 2 在 OmniDocBench 上的整体性能比 OCR 1 提升了 3.73%。
------
模型下载:
huggingface.co论文阅读:
github.com