我有一个很简单的测试 Agent 能力的 case
Use the PokéAPI to create a Notion Database for me. It needs to:
Get basic Pokémon information
Get Pokémon abilities
Get Pokémon forms
Get game indices
Get Pokémon held items
Get Pokémon base stats and other data Then, each Pokémon should correspond to one record in the database.
Include Pokémon from number 1 to 386, and I want to ensure their images are visible in the Gallery view.And use tool calling, in this [Notion URL] page
首先 PokeAPI 是一个免登陆就可以获取数据的 API,然后这个任务,需要获取 386 条数据,如果是一般的 LLM 通过 tool calling 处理,实际上很容易出错、上下文超出。基本上没有办法做到。但是这又是一个现有模型理论上能达成的需求。几乎所有主流的大模型,都能正确判断需要怎么实现需求。
如果是一个会点编程的人,在 Cursor 这样的编程软件帮助下,很快就能完成。其实就是简单的 python 脚本就能做到。
然后主要考察的能力是能否完成这任务,处理上下文超出的情况,然后执行脚本或者 tool calling 的处理。