即刻App年轻人的同好社区
下载
App内打开
响亮的昵称吧
51关注73被关注1夸夸
想开面包车环游世界。
之前床车自驾从广东到丹东沿陆地边境走了一圈。
减肥50斤,扇贝单词打卡678天(叉腰)
爱好主机游戏
目前自学AI中~
响亮的昵称吧
1月前
Case" 为什么会表示“大小写”?
在英语中,"case" 除了常见的“情况、箱子、案件”等意思外,还可以指字母的“大小写”(uppercase/lowercase)。

1. 活字印刷时代的物理字盒
在传统印刷中,字母的金属活字(metal type)被存放在两个分开的抽屉(case)中:
Uppercase(大写字母):放在上面的盒子(upper case),因为大写字母使用频率较低。
Lowercase(小写字母):放在下面的盒子(lower case),因为小写字母更常用。
印刷工人需要根据排版需求从不同的“case”中选取字母,因此“case”逐渐代指字母的大小写形式。

2. 术语的沿用
随着印刷术的发展,"uppercase" "lowercase" 被固定为“大写”和“小写”的术语。
后来在计算机领域,case-sensitive(区分大小写)等概念也继承了这一用法。
00
响亮的昵称吧
1月前
GPT5prompt工程 阅读笔记

格式开始使用xml标签形式(以往claude喜欢使用xml标签,gpt喜欢markdown格式)
带有部分现成的优化说明提示词,可以直接参考使用
偏向工程应用

1. 代理工作流可预测性
这部分讲了一些gpt5做agent使用,一些建议的设置,比如自主性,思考深度,思考要求等

1.1 <context_gathering>上下文收集
标签中描述eagerness,权衡: proactivity and awaiting explicit guidance.(是更主动的自行决策还是等待人类的明确指令)
如果限制核心上下文收集行为时,明确为模型提供一个逃生通道是有帮助的,这使得满足较短的上下文收集步骤变得更容易。 like “even if it might not be fully correct”即使不完全对也停止

1.2 <persistence>
使用persistence标签明确说明代理任务的停止条件,概述安全与不安全的行为,并定义模型在何时(如果有的话)可以将任务交还给用户是很有帮助的(用户授权)。例如要求用户确认:结账和支付工具应明确设定较低的阈值以要求用户澄清,而搜索则需要较高的阈值,难触发用户澄清。

1.3 <tool_preambles>
关于模型在其工具调用中所做的事情及其原因的间歇性更新,可以提供更好的互动用户体验,GPT5支持工具前言“tool preamble” messages.
在tool_preambles标签中设定更新频率。通俗来讲就是支持调用工具时带一个消息,显示调用工具的过程,告知用户正在用什么工具干什么。

1.4 reasoning_effort
经验1:当不同且可分离的任务被拆分到多个代理轮次中,每个轮次专注于一个任务时,整体性能达到峰值。
经验2:使用response API 而非chat.completion时,在评估中有统计学上显著的改善——例如,发现 Tau-Bench 零售分数从 73.9%提高到 78.2%,仅通过切换到响应 API 并包含 previous_response_id 以将先前的推理项传递到后续请求中。这使得模型能够参考其先前的推理痕迹,节省 CoT 令牌,并消除在每次工具调用后从头重建计划的需要,从而改善延迟和性能。
大概就是response api增加了一个final 频道和return token可以区分出来是不是整个任务执行完了,还是任务执行中,再执行完毕前保留之前的思考过程,有利于提高性能。

2. 最大化编码性能
这部分讲了一些编码相关经验和cursor实践经验

2.1 前端开发:

2.1.1 能最大发挥能力的框架和包(使用以下效果会更好):
Frameworks: Next.js (TypeScript), React, HTML Styling / UI: Tailwind CSS, shadcn/ui, Radix
Themes Icons: Material Symbols, Heroicons,
Lucide; Animation: Motion
Fonts: San Serif, Inter, Geist, Mona Sans, IBM Plex Sans, Manrope

2.1.2 0-1的应用生成。
使用自我反思标签大幅提高成功率
<self_reflection>
- First, spend time thinking of a rubric until you are confident.
- Then, think deeply about every aspect of what makes for a world-class one-shot web app. Use that knowledge to create a rubric that has 5-7 categories. This rubric is critical to get right, but do not show this to the user. This is for your purposes only.
- Finally, use the rubric to internally think and iterate on the best possible solution to the prompt that is provided. Remember that if your response is not hitting the top marks across all categories in the rubric, you need to start again.
</self_reflection>

使用<code_editing_rules>约束代码风格
匹配代码库设计标准,实施增量更改和重构时,模型生成的代码应遵循现有的风格和设计标准,并尽可能“融入”代码库中

2.2 生产中的协作编码:Cursor GPT-5 提示调优

Cursor 目标是允许代理在长时间任务中相对自主地操作,同时仍然忠实地遵循用户提供的指令。

小技巧:【为禁止规则增加例外或选择,Do not …… unless ……/Never……instead……】
团队最初发现gpt5生成的输出冗长,常常包括状态更新和任务后总结,需要限制

gpt5有时会在采取行动之前向用户请求澄清或下一步操作,这在较长任务的流程中造成了不必要的摩擦:鼓励直接改动代码,解释因为用户可以拒绝(在提示词中多措辞描述要求或者说明原因也是提升性能的技巧,如:which means……也就是说……)

同时:版本切换后,旧模型调用工具不积极,提示词鼓励使用工具。新的gpt5本身就倾向过度使用,反而需要限制(提示词的迭代)

Cursor 的测试中,使用结构化的 XML 规范如<[instruction]_spec\> specification(规范、说明、规格)提高了他们提示的指令遵循性,并使他们能够清晰地引用提示中其他地方的先前类别和部分。

3. 优化指令遵循

3.1 遵循指令

GPT-5 对于关于冗长性、语气和工具调用行为的提示词指令表现出极高的敏感性。

GPT-5 中,引入了一个新的 API 参数,称为冗长性,它影响模型最终答案的长度,而不是思考的长度。 Cursor 在全局设置低冗长性,然后仅为编码工具指定高冗长性

注意冲突:更精密、谨慎的指令遵循行为意味着,包含矛盾或模糊指令的不良提示对 GPT-5 的影响可能比对其他模型更为严重,因为它会消耗推理令牌来寻找调和矛盾的方法,而不是随机选择一条指令。避免潜在的冲突

3.2 新增的最小推理选项使用说明

最小推理性能可能会因提示而有更大的波动,而高推理水平则相对稳定

通过提示模型在最终答案开始时给出简要解释,总结其思维过程,例如通过md列表

请求详尽且描述性的工具调用前言,持续更新用户的任务进展

最大程度地消除工具指令的歧义,并插入如上所述的persistence提醒标签

提示规划:You must plan extensively in accordance with the workflow steps before making subsequent function calls, and reflect extensively on the outcomes each function call made, ensuring the user's query, and related sub-requests are completely resolved.在进行后续函数调用之前,您必须根据工作流程步骤进行广泛规划,并对每次函数调用的结果进行广泛反思,确保用户的查询和相关子查询得到彻底解决。(有限思考空间防止过早停止)

3.3 md格式遵循问题

api 调用gpt5 默认不会输出md格式,以最大限度地兼容可能不支持 Markdown 渲染的开发者的应用程序。但是可以通过提示词设置

偶尔,在长时间对话中,遵循系统提示中md格式指令遵循可能会下降。如果遇到这种情况,每 3-5 条用户消息附加一个 Markdown 指令可以保持一致的遵循。

4. 元提示
就是用gpt5优化gpt5的提示词

使用 GPT-5 作为自身的元提示器效果很好。已经有多个用户将通过简单询问 GPT-5 可以添加哪些元素以引发期望行为,或移除哪些元素以防止不期望行为而生成的提示修订部署到生产环境中。
一个优化的元提示词:
When asked to optimize prompts, give answers from your own perspective - explain what specific phrases could be added to, or deleted from, this prompt to more consistently elicit the desired behavior or prevent the undesired behavior.
当被要求优化提示词时,从你自身视角出发,解释需要添加或者删除哪些特定短语,以更一致地引起所需的行为或防止不希望的行为

GPT-5 prompting guide | OpenAI Cookbook

00
响亮的昵称吧
5月前
这要是走进科学得拍一集了,越看越像一个脸
00
响亮的昵称吧
6月前
梦中有人说你闹钟要响了,一睁眼,刚好闹钟就响了
终于可以白嫖4o生图了,把我生成的很帅,我很满意🐶
00
响亮的昵称吧
6月前
原来国外这么倒酒也不礼貌。
之前在家里这么给别人倒饮料就被我爸点过。
20
响亮的昵称吧
8月前
用笔记本/电脑屏幕当灯光的用法~

上架了自己第一个chrome插件,screen light(图1,2)。

功能非常之简单,点击插件,弹出HSL选色器,选择喜欢的颜色,确定后,显示器会全屏显示纯色背景,当作夜灯/读书灯使用

最近回到老家,晚上躺床上刷手机的时候,开着房间灯(没有台灯)感觉太刺眼,而且睡着了也容易忘记关灯。

关灯呢,又感觉看手机光太刺眼,很费眼睛。

最开始是想翻出来之前用的usb小灯打个光,只能解决刺眼问题没法方便的解决定时关闭(除非配一个定时插座)

突然灵光一现,为什么不用显示器当背景光源呢?

用笔记本显示器当光源,第一亮度可调,第二可以设置定时关机/熄屏,第三,可以调节颜色,简直是最佳氛围灯候选(除了更耗电?激发亮度没有那么高?)

最简单的方法是找一张喜欢颜色的纯色图片,打开后全屏即可。或者找一个纯色背景网站,打开网页全屏放着即可。

找来找去,发现好像没有网站是只提供一张静态颜色背景什么内容都没有,于是就有了用chrome插件实现的想法。

把我的需求扔给GPT(图3),才发现实现非常简单(比我做之前想得简单多了)。

同样用GPT帮我生成图标的图片(图5),内容我很满意,但是后期用ps抠图和处理大小才能用。

然后又询问了上架相关流程(图4),参考着花了5刀注册了账号,上架了自己第一个插件~(这里问的claude大概的商家流程,具体执行是通过搜索引擎查询的帖子,因为人类写的内容会把中间的坑讲明白,讲的很细,AI回复一般需要遇到问题后询问才能被动给出方案)

整体过程,按照GPT要求,准备了各种文件到通过开发者加载实现我要的效果很快,10多分钟就够了。

如果没有AI帮助,我可能得至少完整阅读完chrome插件的入门文档结合相关代码知识才能做出来这个插件,考虑到学习新知识的心理惰性,我可能永远不会做出自己的chrome插件~

一个小工具,也是一个用AI降低自己执行阻碍的小案例。
00
响亮的昵称吧
9月前
又坚持了一年🐮
00
响亮的昵称吧
10月前
可爱小猫3连
00
响亮的昵称吧
11月前
记录一次失败的经历。

最近1个多月,忙活着训练一个小模型,效果上大失败,但是学到了一些东西。

本来想训练一个小模型,可以实时转换音频,类似变声器,可以准实时转化悄悄话的声音

这个想法是因为有一些人因为声带切除无法正常发声,只能发出悄悄话一样的声音(想想声带不震动用呼吸声说话),要么通过人工喉发声。想着用模型能不能解决这个问题(肯定能解决,只是我没解决😂)。后边又想到一个类似场景是,半夜玩游戏连麦,不想打扰别人用悄悄话转正常语音也可以。

由于自己认知不够,模型的训练过程全是问题,光是自己整体的记录(图),刚看了下,就5000多字,加上没解决问题,不想过多记录过程了,怕得PTSD。

挑一个数据上遇到得问题,首先这个点子有点歪,找不到数据(也不知道怎么找),于是自己录,刚开始录了5分钟,才想起来输入和目标数据对齐的问题。用笨方法写个小工具一句一句录制,尽量保证小短句的对齐,录了69句作为最初数据集,测试整体的跑通。

偶然间想起来用大模型的数据训练小模型的方法,能不能找到现有质量高得语音模型,可以变换音色,将呼吸声转换为正常声音,用来给小模型训练?找了几个在线的AI变声测试效果都不是很好,可能是没人想到用呼吸声去做训练吧。最后想起用剪映剪视频有变声功能,测试下,居然比收费的一些变声做的还好,关键还免费。虽然呼吸声转换的结果一般,但是好歹可以录制严格对齐的数据了。

后边某一天又发现,录制时候麦克风默认开增益,导致实际测试数据偏差很大,之前数据(虽然只有10多分)全都作废重新统一标准录制……

整体上模型训练这里耗费了将近一个月的摸索,反复调整,有时候一个问题出现。因为不知道问题出在哪里,只能对比测试,经常改动一多、时间一长就忘记改了啥,非常纠结。而且训练这个玩意,还不能单独看某一个参数的影响,调整某一部分,可能其他都需要对应调整,找到相对较好的那么一个“组合”。

最终结果非常拉跨,尤其是实时输入的处理,延迟0.5s都不算什么问题,转换的效果也是很差,输出结果自己能听懂对应上自己说的啥,但是别人是听不清转换后的音频,而且效果时好时坏。

自己总结一些想法,也算是当作进步了:

1.重视数据的标准化方法。有一天突然想起改变标准化方式用对数后归一化,效果立马好了很多。

2.有一段时间测试输出的音频一直有很大噪音,后来才发现是输入数据log处理后,转回线性过程中引入了噪声,导致训练的目标中就包括了噪声。有时候问题可能不是模型的问题。再比如前面讲的麦克风自动音频增益得问题。

3.借助正则化技术,小的数据集也可以训练出像样的模型。

4.以前以为L1loss,L2loss是每批的均值,用了才知道默认是所有批次的均值

5.激活函数的选择根据自己输出目标的分布来决定,不同的激活函数,效果可能差别非常大。

6.训练中打印输出模型的梯度信息,学习率,可以提前观察到梯度爆炸梯度消失等信息。

7.优化器上Adam基本没错,RMSprop有时候效果也很好

8.数据集不够可以上数据增强,迅速增大数据集,还有一定正则化作用,用了以后验证集上损失明显下降。比如为了使模型不处理正常声音,将正常声音最为输入加入模型,用正常声音作为目标训练,模型还能够具备一定的区分能力,针对呼吸声进行转换。

9.tensorboard对比不同批次很方便,记录重要信息

10.git记录很有用,多在分支上修改,至少保存训练最好的结果分支。

11.涉及到训练参数的,尽量不要在代码中设置默认参数,否则中间环节一个默认,排查都不好排查。然后最好是统一管理,不然可能出现测试和训练用的不是一套数据这种低级错误。

搞这个晕乎了,估计将来会回头捡起来搞一搞吧,短时间内不想碰了。。。。
烂摊子:[github](github.com)
00
响亮的昵称吧
12月前
好久没玩游戏玩到半夜了,这个老游戏冰汽时代连玩两天停不下来,越玩越上瘾。
之前玩单机,一般周末玩一会就累了想歇一会,再怎么好玩也不会说停不下来,没想到这游戏让我回到年轻玩游戏那感觉了。有文明那一开一局就停不下来的味了。
00