最近几天,DeepSeek发布的DeepSeek-OCR论文在外网上被大量讨论,DeepSeek-OCR大胆探索视觉-文本压缩边界。通过少量视觉token解码出10倍以上的文本信息,这款端到端VLM架构不仅在OmniDocBench基准上碾压GOT-OCR2.0,还为LLM的长上下文问题提供高效解决方案。
前特斯拉AI总监、OpenAI创始团队成员Karpathy在讨论这篇论文时提出了一个更深层次的AI架构问题:像素(图像)是否比文本作为LLM的输入更好?他质疑当前LLM的输入范式(文本token),并倡导一种“图像优先”的方法。这反应了Karpathy的计算机视觉背景(他自称“本质上是计算机视觉专家,暂时伪装成自然语言处理专家”)。
当前LLM(比如GPT系列)主要使用文本token作为输入,这些token是通过tokenizer(如BPE或SentencePiece)将文本分解成的离散单元。但token化过程会丢失信息(如格式、颜色),且依赖Unicode等历史遗留系统。
DeepSeek-OCR展示了视觉压缩可以减少token数量(论文中提到<10x压缩下保持97%准确率),这能缩短LLM的上下文长度,降低计算成本。图像可以捕捉文本的视觉属性(如字体、颜色、布局),甚至嵌入图片,这比纯文本更丰富。
当前LLM多用自回归注意力(autoregressive,逐token生成,只能“向前看”)。图像输入允许双向注意力(bidirectional,能同时看前后),如在Transformer编码器中,这更高效和强大。
Karpathy强烈讨厌tokenizer,认为它是“丑陋的、非端到端的阶段”。它引入Unicode的复杂性(历史包袱、安全风险)、字节编码问题。相同外观的字符可能被视为不同token,表情符号被抽象化,而非真实像素(丢失转移学习潜力)。
虽然这种 “图像优先” 的方式是创新性的,但是图像输入可能增加计算机开销(处理像素比token更耗资源),且当前硬件优化针对token,不过,从论文和讨论看,它确实有实质依据。