用近期一篇比较火的博客笔记,结束这周的工作,不知道还有咩有没看的朋友🙋🏻♀️
博客地址:
ysymyth.github.io这篇是思维树(ToT)/ReAct通用框架作者/OpenAI研究员姚顺雨发表的,速记了几点,提升下认知(共识--相对比较统一的声音)
❶上半场AI主要致力于研究新模型、方法的研究,出现了非常多经典的SOTA(在当时)架构,比如Transformer、AlexNet等,这些具有普遍适用性、广泛应用的价值。
❷接下来,AI的重点将从解决问题转向定义问题,评估的重要性将超过训练。
❸长期强化学习的研究专注算法创新,但忽略了环境和先验知识,或许优先级应该完全调整过来。
❹上半场的配方基本标准化:大规模预训练、规模(数据和计算能力)、推理、行动;即便创建更难的基准对模型和方法进行评估,然而基于这个配方还是可以继续模型、方法的效果,并突破基准测试。
❺现在正处于AI中场休息,如果基于这个配方就能提升模型能力的话,那下半场玩什么?或许应该重新思考评估这个环节。
❻当前在学术中设置的评估,与真实世界的设置不同。当例如Agent的评估往往是孤立、静态和独立同分布的,缺乏真实世界中人机交互的动态过程和任务间的依赖性,导致评估结果难以反映智能体在真实场景下的泛化能力和长期学习效果。
比如,一个客服Agent在学术测试中可能一次性处理一个孤立的请求,但在现实中,它需要与用户进行多轮对话,并且能够利用之前的对话信息来更好地解决问题。
以上加入了些自己的理解,如果在评估环节有想了解的研究或粗暴的工程(开源项目)也欢迎评论区一起交流~我可以找找近期的SOTA论文或survey