最近部门Claude培训中同事问了一个问题:
用同一个模型执行相同标准的内容判定,结果不一致,算不算影响比赛的公平性?
一边回答一边觉得这个问题背后的内容很多
1. 如果不是连续对话,模型本身不具备记忆功能,每次问必然是双盲实验的效果,甚至无论是api还是c端产品,每次模型公司提供服务的都可能是opus1号、opus23号不同的模型文件
2. 曾经看过一些研究即使temperature为0(虽然分母不可能为0,模型每次输出的内容也可能不一致,是从GPU到模型本身的技术决定的,不太好解决
3. 如果是有上下文的,模型其实会意识到和上次问的是一致的,可能会问你是觉得刚才不合适吗,否则可能表示和刚才一致
4. 人脑假设不接受任何其他外界信息并没有记忆,(甚至时间静止停止思考)对于同样的内容会有完全相同的判定吗?