刚读了下gpt-oss-safeguard的tech report,发现有些描述像是睁眼说瞎话:图1说两个safeguard模型表现基本与原版相当,然后在production benchmarks上的“certain categories”上性能有所下降。
但是请看图2:table 5中两者均只在2个category上比原版稍高,而在table 4中,也只有2-3个category比原版稍高,感觉这明显不行啊。
当然论文前面也说了,这个是在chat setting下进行的测试,这也是他们不推荐的用法。但是我觉得结论要和图表对得上,不能无中生有,玩hallucination。