即刻App年轻人的同好社区
下载
App内打开
甲木未来派
103关注661被关注0夸夸
👀 ENFJ | LangGPT | Prompt
🤖《智能体设计指南》作者
在AI世界中,虚心求教,交个朋友
👉公众号:甲木未来派
甲木未来派
2天前
本来针对GPT-5觉得没啥特别想写的,但毕竟“狼来了”的故事两年多了,现在真来了,还是简单说几句吧。

体验了一上午,先来一句话总结,纯个人观点「场景推理/上下文能力增强,编程能力有效提升,但文本方面感觉反而不如4.5,总体不及预期」

1、GPT-5,大一统模型,把之前的4o,o3,o3-mini等等非推理和推理模型打包在一起,由实时路由器决定用哪个,对于大部分普通用户来说,不用纠结于选择哪个模型了..

2、已经向所有用户开放,打开首页就能看到,GPT-5已是ChatGPT默认;Free能用、Plus更高额度、Pro不限量且能上Pro版思考。

3、一个不错的提升,GPT-5把“幻觉率”压下去了,开放域事实类问题的幻觉显著下降,且更愿意承认“不知道”。同时在回答风格也收敛了:少奉承、少emoji、少空话,多直接、多解释清楚做不到的原因。

4、跑分和各种榜单就不多聊了,结果就是全面屠榜,分数都是第一。但具体效果,还需要使用使用亲身感受一下才知道。

5、当下一些场景的指令遵循度一般,可能我还没太玩转这种「大一统」模型,在Prompt层面需要加点料,要不总会router到小模型,效果不佳。

6、编程是最大赢家,前端生成效果更美、更一致,长仓库定位与修复更准,主流基准SOTAs基本到位,而在服务端应用上,定位问题,上下文精准把控层面做的很到位,还在慢慢测,另外API价格也降下来了,更佳亲民一点。

7、文章写作,文本层面自己测试感觉不及预期,文字优美度不如4.1和4.5,还在慢慢摸索它的方式…

8、多模态能力的提升体感也不太明显

9、人设回复逻辑上,OpenAI还推出了四种新的人格预设,你可以在“愤世嫉俗者”、“机器人”、“倾听者”和“书呆子”之间切换,省得自己费劲写提示词了。

10、这次GPT5发布,在X上热度并不高,但是反观国内,某些媒体的爆炸标题党,什么「王者降临」「登月时刻」,还有早期的「xx被吓得眩晕瘫坐」,真是离谱到家了,好歹那么大体量的媒体,真就瞎XX吹。

GPT-5把“模型选择”这道用户题收走了,同时也把我们对于AI能力代际提升的期望收走了。
但当下AI其实已经足够解决现实问题了,拼落地,拼应用场景。
技术,最终还是要落到为「人」服务上。

—— 8.8号 12:00
10
甲木未来派
6天前
昨天晚上去360做客老周的直播间,聊了聊纳米多智能体蜂群升级,很有趣,简单记录一下。
(跟Koji@杨远骋Koji 和狗哥@一起围观纳米发布hh)

这次是Agent的一个迭代,在过往的多智能体协同的时候,经常会遇到信息传递与参数共享、上下文管理这几个问题,包括随着调用工具越多成功率就越低的这种现象。

纳米搞了个「蜂群协作框架」来解决这个问题,由中央指挥智能体或调度模块来负责拆解任务并安排给最适合的专家智能体,信息共享上通过“拉群”的形式来共享Context,还引入了多层嵌套和同步机制,解决这类问题;

最典型的一个案例case就是「一句话生成大片」,一次性生成3-10分钟的视频最大的难度在于一致性的保持和上下文的管理,涉及到任务规划-拆解-Agent之间的协同,再加上落地结果整合输出。

而从实测结果来说,一次性生成几分钟视频的成功率和稳定性还是提升了很多,不过也有待提升的地方,比如一致性的保持以及画质相关问题。

期间有一个观点是老周和大家都比较赞同的,就是「通用智能体」这个概念其实不太存在,或者说从大家已知的“什么都能做”,这是一种直观的通用性,很难实现;

而另外一个维度上来说,这里也引入腾讯研究院朋友的观点,所谓「通用」其实是面向人群的广泛普适性,
它的适用场景虽然不复杂,但受众面很广,比如找材料写研报、问答等日常需求,大多数上网用户都能使用,这种就是“通用”的。

大多数人其实很难像汗青老师那样拥有极强的美感和设计能力,再加上AI的赋能,对剧本、生图、图转视频等各个流程的熟稔于心,要求的门槛很高,这也是专业设计师的独特性

纳米的多智能体协作,把制作视频的成本无限拉低,通过意图理解、剧本创作大师、分镜脚本、剪辑、配音等等单个智能体协同搞起来,再加上一些循环模组,就能完成一个对普通人相对复杂的任务实现,在日常生活中来使用。

「降低使用门槛」是AI技术在推广全民过程中的必经之路。
11
甲木未来派
7天前
有很多小伙伴问我平时如何写Prompt的,这次借着厦门火山闭门会之行,梳理了一篇内容,尝试回答👇🏻三个问题~
1、「企业基于成本和效果平衡如何选择模型?」
2、「有场景没思路的时候如何写提示词(Prompt)?」
3、「生产级场景的提示词(Prompt)如何构建与投产使用?」
抛砖引玉,希望能给大家一些思路和启发,一起见证AI时代[玫瑰][玫瑰][玫瑰]
—————
1、首先是「企业基于成本和效果平衡如何选择模型?」
其实不管是哪家模型,我们都需要考虑「成本」和「效果」,
不存在一个“万能”的完美模型,「最优选择永远是“最适合业务场景”的模型」。
企业选择的过程,本质上是在性能、成本和控制权这三个维度上进行权衡和取舍。

拿豆包Seed模型来举例:
- 当业务场景对结果的准确性、深度和逻辑性有最高要求,且预算相对充足时,应优先选择Doubao-Seed-1.6-thinking模型。
- 当业务场景对响应延迟要求苛刻,或需要处理海量请求,希望在保证良好基础效果的同时最大化成本效益时,Doubao-Seed-1.6-flash是理想选择。
为什么呢?我们可以看下两者的价格,两者相差几倍
- 而如果需要构建搜索和推荐系统,尤其是涉及图片、视频等多模态内容的业务,Seed1.6-embedding模型反而是优选,提供极具竞争力的成本优势。

这里也可以给企业方朋友们提供一个问题清单:
企业在选择时,可以问自己以下几个问题:
- 场景定义:我的核心业务场景是什么?是需要深度分析,还是快速应?
- 性能底线:这个任务出错的容忍度有多高?“答得好”和“答得快"哪个更重要?
- 预算模型:我的成本是按次计算还是有固定预算?能否承担API调用量激增带来的费用上涨?
- 数据与合规:我的业务数据是否敏感?能否离开企业内网?
- 技术与人力:我是否有能力部署和维护一个复杂的开源模型系统?

而对于成熟的企业应用而言,最优解通常不是单一模型,而是构建一个“模型矩阵”或“模型瀑布”。

比如:
- 所有用户请求首先由一个成本极低的“路由”模型进行意图识别。
- 简单问候或分类任务,该模型直接处理。
- 复杂一点的,则转发给性价比高的主力模型。
- 如果识别出是需要深度创作或复杂逻辑的请求,再升级调用最顶级的性能模型。

抛砖引玉,最优选择永远是“最适合业务场景”的模型,

而业务场景,我相信你自己再熟悉不过了~

—————
2、再来看「有场景没思路的时候如何写Prompt?」
甲木知道在很多时候我们都是了解需求场景,但没有办法把它转化成Prompt,

这时候我们可以去选择一个MetaPrompt(元提示词)帮我们根据自己所需去打造初版prompt的内容,然后进行调试,比如大家都知道的LangGPT提示词专家等等,

以及我之前给大家分享过的如何构建初版提示词的方法论文章,
归根结底一句话:“通过AI的能力拓展我们的行业knowhow,根据Prompt方法论帮我们完成场景prompt编写”

甲木在平时,也会有很多各行各业的应用场景不知悉,不清楚,
你不了解行业知识怎么能写好这个行业的应用Prompt呢?
这时候,虽然我不了解,但是AI了解啊,
它懂世界知识,我们就不断地跟它沟通,不断地跟它交流,告诉它我们的预期,再按照我们的方法论让它去进行整合和补充,
这样,我们就能完成初版prompt的构建,像火山推出的PromptPilot,专门解决我们冷启动问题。

当有场景没prompt思路时,不要把压力都放在自己身上。
——————
3、最后「生产级场景的Prompt如何构建与投产使用?」
我们评判一个提示词的好与坏,不在于它一次任务的完成度有多好,而是能否在多次任务中都能够重复、有效、可稳定的实现目标任务。

这正是区分“玩具级”Prompt和“生产级”Prompt的核心标准。

生产级场景追求的不是一次惊艳的“神抽卡”,而是像工业流水线一样,高效率、高稳定性和可迭代地输出符合业务要求的结果。

这里可以给大家看个生产级场景中的case,真不是广告,我在生产级场景中一直在频繁的使用promptpilot工具。。

我一般会分为下述四个阶段:
①阶段一:开发与调试 (从0到1)
- 生成初版:根据业务需求,通过工具(如PromptPilot)或个人经验写出初版Prompt。
- 单点验证:使用真实的业务数据进行单点测试和调试,不满意可直接修改或通过对话让AI辅助修改。

②阶段二:批量评测 (从1到N)
- 构建评测集:准备一个包含各种正常、边界和已知错误案例的大量数据集。
- 建立评估标准:为“好结果”下达明确、可量化的定义(比如,哪些要素必须正确才算满分)。
- 自动化评估:使用工具对整个评测集进行自动化处理和评分,客观地了解当前Prompt的整体表现。

③阶段三:智能优化 (追求更优)
- 一键优化:基于带有评分的评测结果,启动工具的“智能优化”功能。工具会分析高分和低分案例,自动迭代出一个效果更好的新版Prompt。
- 查看报告:平台会提供优化前后的对比报告,清晰展示分数提升和具体的修改内容。

④阶段四:投产与持续监控 (闭环进化)
- 版本管理与上线:将表现最佳的Prompt版本通过API或SDK集成到生产应用中。
- 建立闭环:将生产环境中的真实调用数据(输入、输出、用户反馈)回流到评测系统,自动捕获新的Badcase,并将其作为“新考题”启动下一轮的智能优化,形成一个持续进化的自动化闭环。

希望这三个问题的答案能够带给你一些思考和启发~
18
甲木未来派
14天前
10
甲木未来派
14天前
WAIC还在进行中,而在智能体领域,前几天Lovart也终于在全球正式发布了,引起全球用户的追捧~

🌈软件正从以界面为中心的用户体验(UX),变为以 Agent 为核心的 Agent 体验(AX)

基于这种设计理念,他们正式版推出了ChatCanvas功能,支持打点评论,精准化控制,打造,真正的“AI Teammate”!

我实测了八大场景Case,满足日常设计场景所需,分享给大家🌹🌹

Lovart正式发布!那个在硅谷爆火的AI设计团队,全面开放注册!(含八大实测案例)

00
甲木未来派
16天前
26号直播机器人探展 | 逛遍WAIC热门

26号直播探展 | 我们替你跑断腿-逛遍WAIC热门
⭐️附探展攻略 感谢小伙伴们及卡神和圆周旅迹的支持,我们26号攒了个WAIC直播探展—机器人和他的朋友!
记得来我们直播间“云监工”哦!直播间随机掉落
盒马💳|京东💳

@圆周旅迹 @数字生命卡兹克 @TATALAB @苍何#WAIC #WAIC探展官 #waic #2025世界人工智能大会
00
甲木未来派
18天前
知己之强,方能不卑不亢,抓住流光之机;
知己之弱,方能心存敬畏,绕开暗流之险。

用AI把SWOT和TOWS矩阵结合,帮助大家看清现状,更能推演出4中可落地的行动战略。

从公司发展到个人规划,超实用~

分享给大家🌹

如何像顶级咨询顾问一样思考?我让AI用SWOT带你做一次全景战略推演!(附Prompt)

00
甲木未来派
24天前
看了ChatGPT Agent三合一发布会,不至于特别拉跨,但也没太多惊喜..
等之后有权限了来评测一番😐,感兴趣的可以看官方介绍:
🔗openai.com
————
🎯 今天继续思维模型系列第四弹

「5Why法溯源」Prompt 引导我们如何更高质量地思考🤔
解决第一问题,为你的工具箱再加一把锤子,愿能帮助各位小伙伴解决多元场景应用~

大佬们都在用!继“第一性原理”后,你必须拥有的“5Why” AI教练(附Prompt)

00
甲木未来派
27天前
「第一性原理」是马斯克极为推崇的思考方式,

今天给大家分享一个「第一性原理Mentor」Prompt,引导我们层层深入,挑战每一个“想当然”。

助力各位朋友突破传统框架,在生活、工作、个人成长以及商业探索等多元场景中,有更好的应用🌹

人人都能像马斯克一样思考!我把“第一性原理”注入AI,给你一个24小时的思维导师(附Prompt)

00