最近看到一篇 OpenAI 和 MIT Media Lab 的联合论文,研究了 ChatGPT 对话和语音模式下情感研究。
研究基于 400 万次对话,4000 名用户调研,以及 28 天内 1000 名用户的随机对照实验来观察互动时用户的情感倾向。
论文使用了一种情感分类器对用户涉及孤独、脆弱、自尊、依赖进行分类,触发后会再用 20 个子分类器来提取更多的感情线索。
论文里一些有趣的数据:
1. 触发情感分类器占所有消息总数的比例不到 1%,但是其中有 1/10 的用户触发情感分类器的比例超过 50%,说明一小波用户在高频贡献情感对话(论文也提到这部分用户值得后续单独研究)
2. 语音模式对比 IM 消息对话触发情感分类器的概率是 3-10 倍
3. ChatGPT 的高频用户(使用时长 Top 1/4),更频繁地使用高级语音模式和纯文本模型,同时也倾向于使用高级语音模式。这些用户某些子分类器的概率是对比用户的 2 倍以上,这部分用户的特点是日常社交程度更低,以及情感依赖高(总使用时长比其他任何因素都更能预测用户对该模型的情感投入)
4. 在对照实验里,语音模式对比文本对话在 28 天里都提升了用户的情绪健康;分配到语音模式用户占比最高的话题是「进行随意对话和闲聊」,而「基于事实查询」明显少于 IM 对话
5. 实验里有两个语音模型, Engaging Voice 模式相比 Neutral Voice 模式的区别是显著增加了助手的(而非用户的)情感化提示,但 28 天实验对比下来对用户的感情分类器触发概率影响并不显著