翻遍即刻发现没什么人深度安利字节这个写prompt的工具哇。
看了很多都是官方的话,让我这个小(资深)用户来分享下怎么用吧
首先,我想先夸赞一下这个产品本身主流程的设计,它是一个通过高度抽象每天写prompt的产品/算法的核心工作流设计出来的产品,包含功能几乎可以涵盖了我的所有工作使用场景😭😭
我这边是做文本生成与优化的。在promptpilot出来之前,几乎就是纯手动调prompt词。
先前的方式主要有两个思路,这俩思路都有比较显著的数据结果,可以分享给大家。
A 通过生成结果进行prompt调试
1、运用google prompt 公式(角色-任务-上下文-格式)生成第一版粗糙的prompt词 a,让ai对优秀的数据集(案例)进行总结与模仿,梳理出优秀案例的核心特征、上下文逻辑和构成要素,进而总结出要生成内容的prompt词b
2、给测试集用Prompt词b,生成第一版测试集结果。
3、通过人工打分的方式,对测试集的结果进行效果评估
4、将评分结果重新输入给ai,让ai基于结果给prompt词b 提供优化的建议
以此作为一个调试循环。
B 通过优劣选择进行prompt调试
1&2、第一步和第二步是一样的,同样产生第一版测试集结果。但会同时用多个模型对同一个测试集产生不同结果
3、让不同模型的结果放置在一个html上,来进行优劣选择,即同一个原始数据集,两个测试结果,让ai进行二选一。
4、针对于二选一的结果,喂给ai 让其识别与模仿二选一的逻辑与思路,并给prompt词b优化的建议
以此作为一个调试的循环。在这个流程中值得注意的点是,由于ai在此流程中既当玩家又当裁判,同一个ai做这件事的效果是差于两个ai做这件事(参考文献来自于tina huang 的aiagent 介绍)所以在第三步时候,我会让另一个ai做这件事,通过喂给它评分标准来实现打分
(有流程图可以看下这俩思路,用deepseek+豆包画的感觉还不错)
但以上的全部过程都需要全手动地进行输入调试!比如不断地进行对话和输入优秀数据集、测试集、下载测试集的结果、评分结果再输入ai
鉴于大语言模型金鱼般的记忆,数据集也几乎不能大于500条。就特别地浪费时间和人力(还很麻烦算法不停地给我结果 啊啊啊啊)
但现在这个工具完全可以在这个页面上一键完成我的俩流程。
1、根据任务生成初始prompt(哦这个初始的效果一般在此不推荐)
2、生成后进行调试。可以输入变量,配置线上的或者其他地方的模型,一键生成,查看生成结果。并构建测试集,对测试集进行评分和2选1
3、根据评分结果优化prompt词
另外它还有知识库啊啊啊啊,谁懂我无法喂给市面上ai 上下文的痛苦,这个知识库就可以上传生成的正向与逆向规则来规避产生的bad case
另外它的记忆力很强,还能上传多轮对话,这个效果我还在测试中,等我后续分享!
快去用,谁还不用!!!快点用啊啊啊啊啊啊
最后,生成初版的prompt 词效果本人的偏好是gpt >gemini>deepseek >豆包
还有本人也要learn in public 分享我的二愣子ai学习过程! 有建议和idea欢迎来交流~
另外这个promptpilot 产品是谁能在即刻找到吗,我也想提需求🥹🥹🥹🥹