上下文工程对于大多数人来讲,其实是一种和大模型交互的sense,虽然广泛运用在agent的构建,但是其实在对大模型提问的时候很多思路也可以用上。
我总结了4个普通人可以快速上手,并且能够显著优化回答输出的上下文技巧,分别是上下文压缩;上下文隔离;上下文预处理;反向上下文截断。
上下文压缩:
当你意识到 AI 的回答开始“飘了”(质量下降或偏离主题)时,尤其是在对话回合数较多时(例如 30 轮或 50 轮)2,应主动触发 AI 阶段性总结你们讨论的重点。
当AI总结完重点后,把AI生成的AI档案,发到一个新的窗口,避免出现上下文失忆的情况
上下文隔离:
token是有注意力权重的,所以真实的工作场景落地,一个窗口最好解决一个单一任务,而不是all in one,让一个窗口干很多事。
具体操作方法也很简单,将一个大的工作流拆解为多个独立、专一的任务,并在不同的 AI 窗口中执行,比如写标题、优化开头和整理素材应该在三个独立的 AI 窗口中进行。
上下文预处理:
在将复杂的任务交给 AI 执行之前,先通过人工或 AI 协作进行预先的提炼和结构化处理
比如将一篇长文稿转化为 PPT 为例,不应直接将 2 万字文档全部交给 AI 生成 PPT,而是首先让 AI 梳理出每一页 PPT 应该写什么(确定具体内容)
将这些经过处理和提炼后的内容(即已确定的每页具体内容和风格)发给 PPT agent
核心是为了提高token的利用效率
反向利用上下文截断:
针对超大长文本或超长时长的任务(比如翻译 5 小时英文播客),主动将内容截断为小段工作量,以反向运用“中间遗忘定律”(lost in the middle)的特性。
比如将 5 小时的视频文案拆分成 5 个 1 小时的文案段落,并在 5 个独立的窗口中进行分段翻译
确保 AI 得到的每一段工作量都能获得高质量的结果,提高 token 的利用效率,避免因上下文溢出(上下文窗口限制)而导致 AI 拒绝回复或解读质量差