昨天刚发布的Deepseek-OCR,今天经过自媒体的发酵,已经轰动与各个媒体,但在昨天之前baidu发布的Paddle-OCR也是值得关注,当然这两个是截然不同的事情
- DeepSeek-OCR,在做一场“信息压缩革命”。
它把文字当作可以“看”的东西,用图像来存储文本信息,再解码还原。
证明了:一张图能代表上千字,10× 压缩下几乎无损。
是探索“视觉取代语言”的前沿实验
- 在做一款“落地级文档解析引擎”。
用 NaViT + ERNIE 架构,支持 109 种语言,能识别文字、表格、公式、图表。
实测性能全球领先,比上一代快 15%,显存省 40%。
是真正能上生产线的多模态 OCR 系统。
针对deepseek,在探索视觉模态压缩文本信息是有效的、可量化的、可实用的,那这后面的关键是文本信息怎么转换成视觉模态(渲染成图片、光学表示或其他),需要持续关注。
PaddleOCR从评测看是目前比较好的兼具性能和效果的模型,能够极大RAG类应用效果。