用 AI 来做事实核查,其实更像是幻觉核查。
通过信源白名单,不太能解决自动化的事实核查工具。
因为你无法判断用户最终输入的是什么,如果他输入的是某篇专业的行业分析,或者干脆是某个领域的学术性报道,那么最初划定的信源范围(比如权威媒体)就可能完全不包含要核查的事项。
目前这两个版本的原理其实就只是 Reverse-Deepresearch,也就是在先有文章的情况下,列出文章中的所有事实,并独立搜索其中的每一个找到是否有公开的信息支撑。
因此,这两个工具最常见场景是用于检查正向 Deepresearch 结果中出现的原生幻觉。
我也是为了这个场景而制作的这两个工具。 //
@Nothing_8: 试了一下,可能在某些情况下还是需要二次审查。
我之前干横向的时候参与过两个项目,一个是AI舆情分析,一个是自媒体文案生成。这两个项目都对内容真实性有较高的要求。
我认为提升效果的方向是两个,一个是tool的改进(信源,工作流的细粒度分解,prompt优化),一个是模型的选择(目前主要为claude sonnet粗总结,最后交给opus做最终分析)。
前者比较卡住的地方是社交平台的信源非常重要,它的可靠性要比搜索引擎好。
目前的传统搜索引擎或者是AI搜索引擎弱相关结果很多(有一次测试我们用博查搜科技新闻,博查返回了成人网站小广告,幸好没给领导展示),所以搜索引擎偏大海捞针,而这些如果是无脑塞给LLM,LLM丢上下文会很严重,所以总结也是个事情。
粗细粒度的话也是个头疼的事情,如果是针对性搜索,调用API还可以,如果是涉及到社区内容搜索的话,那时间会特别特别长,搜一次20min。
模型的话,我是想高质量,所以一般sonnet当工具函数,最后总结用opus,也是成本上的取舍。
不选择gemini的原因是非官方的API会有间歇性ban的风险,不选择deepseek的原因是目前我认为公开标称提供671B的服务商,掺水程度都很高。
最近我的计划是有空的时候去优化信源,做一个属于自己的个人聚合搜索引擎。