我让13家大模型代替计算器,差点全军覆没?
故事是这样的,有朋友和我打赌唐尚珺历年高考总分有没有到1万分。他高考了16次,我们不想一次次用计算器按了。于是想用大模型代劳。
结果用的第一家就告诉我唐尚珺历年高考总分之和3万多分。这不禁让我想到9.9和9.10谁更大,这个经典AI数学难题。
显然,大模型能否胜任累计求和的简单问题的测试,比之前的赌约有趣多了。于是我们就换成了是否有大模型和国产大模型能稳定胜任此任务。
我们的测试对象有:GPT4o,字节豆包,阿里通义Max,文心一言4.0Turbo,腾讯元宝,月之暗面Kimichat,智谱清言,阶跃星辰跃问,MiniMax海螺,百川百小应,零一万物万知,DeepSeek Chat,昆仑天工,十三家。
直接宣布结果吧,GPT4o不出意外能稳定回答正确。
同样能稳定正确的国产还有三家。测试多次回答正确过的有一家。回答越来越离谱,最后干脆死机的有一家。
正式结果小结放评论区
图1,大厂&上市公司的模型,文心一言,豆包,天工,千问。
图2,创业公司结果1,deepseek,跃问,kimi(成功失败都有)
图3,创业公司结果2,万知,百小应
图4,稳定成功案例。OPENAI,腾讯元宝,海螺,智谱清言