这两天在反思测评系统:
1.在之前的经历中(做实验比较多),测评指标非常重要,它是目标和方向,测评指标的确定和建立要**先**于动手做;论文中的指标在实际应用中和用户体验一般都有不小的gap,但是构建反映实际场景的指标(在自动驾驶领域)很困难
2.NLP领域我是小白,但是在做一些开发的时候,时常会对生成的结果没有定量描述感到不安,因为很多时候可能都是“感觉”,并且也没有类似的tensorborad工具来观察prompt变化后定量的变化。项目简单或在初始阶段,花大力气建立测评可能的确是"Premature Optimization"
3.相关的研究的确有,例如LLM-as-a-judge这种,推上也有一些讨论:
x.com4.万能的即友都是怎么做的呢? 有没有什么推荐的工作或者做法呢?