继两个月前通过副主任医师职称考试后,夸克健康大模型又通过了12门学科的主任医师笔试评测,并且夸克已经把该「主任级AI医生」能力全面集成至夸克的AI搜索中,这意味着夸克进一步实现了每人都能有个AI医生的愿景,还是那句话,我就感觉到快。
从数据上看,夸克在这轮测试中67.7%的准确率比第二名高出了近30个百分点,领先不可谓不大,但我真正关心的不是数据,而是相比于五月那轮副主任医师测评,夸克通过推理难度高出几个级别的主任医师考试,到底能为医学领域做多大的实事。
健康大模型不是夸克开创的概念,目前市面上的同类产品以TO B为主流,商业化路径十分明确,不是说这样不好,而是这些大模型性质,决定了它们难为大众所用。
在让AI做题蔚然成风的环境里,大模型的能力边界是一回事,这种能力最后究竟能不能投入到市场变成公共服务,又是另外一回事了。
比如在AI医疗这个母题上,中国最亟待解决的是医疗资源的分配问题,这与其他国家的处境是截然不同的。比如在移动互联网时代,有很多APP和账号都在尝试跑通线上问诊,也不乏类似丁香医生这种已经搭建了一个成熟体系的账号跑出来,但这种模式,仍然没有改变问诊背后在消耗「人」的本质。
搜索引擎当然也尝试干过这事儿,结局也很明显,传统搜索早已被清扫进了历史垃圾堆里,而新兴如小红书这样「人传人」式看病不仅高度依赖经验,准确率也难以保障。
夸克披露了一个很值得细品的数据,就是在产品上搜索医学类考试题目的人数已经突破200万,考虑到非医学生做这种动作的可能性并不大,所以从纯度上讲,中国医学生已经有超过半数在用夸克学习了。
这当然很大程度上能说明,夸克在医学领域数据库的参考价值起码是得到专业人群认可的,不过这不是重点,重点在于夸克通过主任医师评测的考试,证明了其拥有了接近主任医师级别的的思维,AI已经可以完成医学领域的智能化延伸了。
如果你觉得这个说法过于抽象的话,不妨看看前段时间量子杂志刊登过的一篇报道:
美国的一个物理学团队想让AI帮忙设计一款引力波探测器,在没有任何预设的前提下,AI输出的结果让一票物理学家一脸懵,因为这东西实在不符合常理,牵头的领导当时还把这个结果定性成了「一团糟」。
结果过了几个月,研究人员才发现AI的思路,其实是基于几十年前俄罗斯物理学界的一些理论构建出来的,研究越深入,就越能证明AI给出的这套方案,居然是效率最高的...
这就是智能化延伸的能力,AI发展到今天,早已经跳出了「有问必答数据库」 的那套叙事,它如今最大的价值,是给有局限性的人类提供无数可能的思考角度,就像当初世界围棋大师们都看不懂AlphaGo的路数,但后者最终总能赢下对局。
说回正题,在智能化延伸能力的基础上,夸克的推理能力,已经可以取代绝大多数医学上的机械性重复工作,比如分析血常规、看CT影像等等,只要喂料够多,那最终的准确率一定不会比真人医生低。
更重要的是,这种延伸背后是千万级DAU的搜索入口,单是医疗领域,夸克的升级也能直接覆盖到2000万体量的用户群体,实打实影响着每一位正在用AI辅助问诊的人。
当然,这只是个开始,夸克的质变,也是建立在整个行业大模型能力都在突飞猛进的背景上的,AI要想真正参与到医疗体系里,要经历的步骤还有很多。
不过还是希望AI厂商们能更多向类似务实的方向上靠拢,有时候做慢而正确的事,最终的收获,要比想象中多很多。