大模型会推理吗?看了Deepmind团队Denny Zhou的讲座醍醐灌顶。我过去倾向于认为模型本身不具备推理能力,无非是通过一些训练做概率强化。但在他的分享里,把推理的过程分析的很透彻,推理能力是模型本身所具备的,无非是如何激发出来。
结合他的分享,我更好的理解了知识、推理、执行三者的关系。模型本身具有推理能力,需要被激发,背后的逻辑是任务可以被分解,而子任务本身是可以被模型生成的,这样只要问题本身是可推理解决的,那么只要做足够的激发,都能够给出正确答案。
但是有些问题本身不是靠推理能力本身所解决的,比如汉武帝出生的具体时间精确到秒,这就不是推理能解决的了。假设我们有这个知识,只要作为输入提供给大模型,这样大模型就能输出正确答案了,这就是引入联网搜索的价值。有些知识是模型本身拥有的,有些是没有的。
我们如果要让大模型完成一项淘宝下单买双运动鞋的任务,这就需要执行能力了,不然大模型即使知道具体访问哪个网址点哪个按钮,但没有执行的API权限也搞不定,需要生成代码或调用现成的工具。