DeepSeek 果然在五一假期的最后一刻放了一个大招,发布了最新的模型:DeepSeek-Prover-V2(模型链接)。或许是因为假期原因,又或许这次不像上次那样伴随“破纪录”级的 result-driven 效果,感觉媒体上讨论的不多?不过我之前读过他们的第一篇论文,对他们的论证思路印象很深刻。这次趁着假期休息,我认真读完了这篇新论文,越读越觉得有趣,于是写下这篇读书笔记,和大家一起分享一下:
我会从两个角度来讲这篇论文:
1. 简单介绍论文的主要思路和技术路线;
2. 分享我觉得特别有意思的几个点,尤其是它如何连接“人类的思考方式”和“机器的逻辑严谨”。
一、研究背景:为什么“形式化证明”是 LLM 的下一块硬骨头?
大语言模型(LLM)在解数学题时已有不俗表现,尤其是在使用 Chain-of-Thought(逐步推理)策略下。但这些自然语言推理路径,本质上仍属于非形式、依赖直觉和启发式的思维。相比之下,形式化证明系统如 Lean、Coq 要求每一步推导都必须严谨、显式、可验证。这就引发一个核心挑战:LLM 擅长“人类语言的模糊表达”,但计算机需要“机器语言的绝对严谨”——怎么在中间搭桥?
二、论文方法概览:从自然语言到 Lean 代码的递归构造
1. 冷启动数据构造:CoT + Lean 子目标(Subgoals)
使用通用模型 DeepSeek-V3 对定理进行理解与子目标分解,输出 Chain-of-Thought + 多个 have := sorry 结构;然后使用一个精简版的 7B 模型递归补全每个子目标,拼接后构成完整的 Lean 证明;最终生成成百上千条包含推理链与可验证证明的冷启动样本。
2. 课程学习 + 强化学习(GRPO)
通过 curriculum learning 逐步喂给模型越来越难的问题;使用 Group Relative Policy Optimization(GRPO)训练模型,在保证验证正确的同时,还奖励与原始推理路径结构对齐的解法;
两种模式并行训练:
· CoT 模式:强调推理路径与解释性;
· non-CoT 模式:高效 Lean 代码生成。
三、我觉得特别有意思的地方
1. 模型不再“瞎猜”,而是真的在做逻辑闭环
大模型以前在解数学题时,总给人一种“答对了但说不出为什么”的感觉。这篇论文让模型写的 Lean 代码真的能过验证,每一步都是严格推理的结果。这从“语言生成”迈向了“推断生成”。
2. 子目标分解就像一个 AI 数学博士的写作习惯
人类做数学证明常常先写一个“proof sketch”,也就是先列一个解题提纲和大致步骤,再逐步展开证明每个步骤。这个系统也是模拟这个思路设计的,先使用DeepSeek-V3 对定理进行理解与子目标分解, 然后使用小模型证明每个子目标:先写出 lemma1 := sorry,然后再一条条补全。这种结构化的方式极大减少了搜索空间。
3. 7B 小模型竟然在一些题目上赢了 671B 大模型
在 Putnam 竞赛题中,7B 模型成功解出 13 个大模型解不出的题。原因是它用了大模型没有掌握的一些“冷门技巧”(如 Cardinal.toNat 处理集合大小),这说明小模型可能更容易产生“非主流但有效”的推理路径。
4. 非形式与形式化推理的差距在缩小
DeepSeek-V3 解了 8 道 AIME(自然语言形式),而 DeepSeek-Prover-V2 解了其中 6 道的 Lean 形式化版本。这是目前为止最接近“自然语言理解”与“严谨证明构造”的对比,显示了语言模型推理能力的进一步融合。
四、实验成绩非常亮眼
DeepSeek-Prover-V2 成绩 :miniF2F-test Pass@8192 88.9% ,ProofNet-test Pass
@1024 37.1%, PutnamBench Pass
@512 49 / 658 ,AIME 24&25 的15 题中解出 6题。此外,作者还构建了新的 ProverBench 数据集,包括 325 道来自教材和竞赛的 Lean 形式题,是非常有价值的研究资源。
五、从“会说话”到“会证明”,LLM 又进了一大步
这篇论文系统性地构建出了一条从自然语言思考到形式化逻辑表达的路径。我们知道,语言模型本质上是在做“下一个 token 的概率预测”,而这其实与数学家的思维方式并不矛盾。作为一个数学背景出身的人,我非常能共鸣这种过程:它就像是人们对一个定理最初产生的“数感”——一种模糊但有方向的直觉。而真正的数学能力,不止于此。在大量训练数据的滋养下,这种“感知”会逐渐沉淀为一个严谨的证明框架,这个框架既能帮助我们在逻辑上走得更稳健,也能将我们的思维成果与他人共享和验证。而 DeepSeek-Prover-V2 做的,就是将这种“模糊感知到清晰框架”的路径,变成了机器也能走通的通路。它不只是让模型“看起来像在推理”,而是让它真的像数学家一样地证明。
未来,也许我们真的能见到一个 AlphaZero 式的自动数学系统:它不是靠背过题库、套模板,而是靠真正的逻辑推理能力,去实现推导,探索,发现。