我会觉得模型层的修改不是在于做到那些不可衡量任务的最佳结果,而是显著改善模型交付能力的最低下限。
比如GLM4.6就特别强化训练了一些PPT相关的数据(HTML),结果就是4.6的PPT能力是国内模型里最好的。
另一个case我会说是Nano Banana Pro,同样的还没法做到每个人都最满意的程度,但是已经能显著提升交付质量,并且把改图这个场景真的PMF了 //
@莫子皓Megil: 的确是的 很多事情认真想不能说的那么绝对
真的所有B端需求都需要 100%正确的执行结果吗? 如果执行结果可以被衡量 那么大概率也可以写check的逻辑去保证健壮性 这一个99.9999%case的优化价值有这么大?
还有很多是不能衡量 或者 没有明确衡量方式的任务 给用户一段回复 一个报告 一份pdf 这些什么叫对什么叫错? 真的是全靠模型训进去? 我持保守的态度。
btw 我倒是真希望ds以外 有人真的在“笨笨的”坚持 这个时代坚持需要的更多不是毅力 而是拒绝诱惑的定力...