即刻App年轻人的同好社区
下载
App内打开
benn
507关注8k被关注17夸夸
Make good new things.
前腾讯高级工程师,独立作品:Chatbox[被收购]
benn
6天前
感觉 OpenAI 最近开源的 gpt-oss 真的被严重低估了。它虽然不是最聪明的,但在使用场景和定位上是非常成功的(服了 Sam 老六)。

首先最小尺寸的 gpt-oss:20b 绝对是你在 Mac 或者家用电脑上就能跑的最好模型之一(对我来说是“唯一”)。它是那种少有的“真正能用”的本地模型,对话体验非常好,持续对话下来非常稳定、不会出现输出混乱崩溃的问题。大部分早期能跑的本地模型是不具备的。

它的尺寸刚刚好,不管是模型文件还是运行显/内存都非常小(大约是 12~16GB),大部分电脑都能使用。在我的 M4 Mac 上能做到 70token/秒 的输出,在我的 19 年老 Intel Mac 上能做到大约 1 token/秒的输出。整体性能上非常出色。

最为重要的是,虽然硬件要求非常低,但它的智能表现出乎意外的好。我把个人最近一些非编程类的问题同时发给 gpt-oss:20b 和元宝(DeepSeek R1),不管是回答速度还是回答质量,我更喜欢 gpt-oss:20b 多一点。这不是严谨的对比测试,我也只尝试了五、六个问题,但考虑到硬件要求,这样的回答效果已经让我感到满意了。

如果你的对话需求非常简单,或者想要一个完全离线、隐私自由的本地模型,gpt-oss:20b 绝对是一个简单可靠的选择。

其次是最大尺寸的 gpt-oss:120b,OpenAI 号称接近 o4-mini 的水平。理论上它也能在 Mac 或者家用电脑上运行起来。我记得大约需要 60~80 GB 的显/内存,对我的 Mac 来说非常吃力。如果电脑硬件足够强、或者并行几个 Mac Mini 跑起来问题应该不大,这就能拥有一个接近 o4-mini 水平的离线本地模型了。

gpt-oss:120b 另外一个被低估的意义是在价格上。在 together.ai 上这个模型的价格低至 $0.15 / $0.60,相比之下 DeepSeek V3(注意是 V3 不是 R1)的价格是 $0.27 / $1.10。也就是说,这么一个号称性能接近 o4-mini 的模型,价格只需要 DeepSeek V3 的一半!!据我所知这样的价格已经是 LLM 中的最低档,类似价格的是 gpt-4o-nano gemini 2.5 flash-lite。

我现在非常怀疑 OpenAI 这波就是冲着 DeepSeek 来的……

另外我还发现了 gpt-oss 非常容易破解,比其他开源模型简单很多。容易到什么程度呢,我可以在大约三次对话内让它回答各种非法问题。不过这个话题不适合在这里讨论了……
1217
benn
14天前
认真读了 Gemini Cli 的源码,发现它的任务调度和循环检查竟然做得这么简单,比想像中简单好多呀……
11
benn
16天前
Claude Code 比赛修 bug。发完 prompt 后再慢悠悠自己排查,已经赢了几次了。Claude Code 还得多练啊…
41
benn
21天前
找到让 Claude Code 完成时提醒我的办法了,最优雅的方式是配置 Claude Code 的 hooks,让它每次完成时播放音效。

编辑设置文件 ~/.claude/settings.json
{
"model": "sonnet",
"hooks": {
"Stop": [
{
"hooks": [
{
"type": "command",
"command": "afplay ~/Sounds/notification.mp3"
}
]
}
],
"Notification": [
{
"hooks": [
{
"type": "command",
"command": "afplay ~/Sounds/notification.mp3"
}
]
}
]
}
} //@也树: 自定义一个hook应该可以实现

benn: 有啥办法可以让 Claude Code 停下来的时候发个提醒或音效?因为我经常同时开多个任务,经常一个任务等好久后发现早就完成或中断了……

11
benn
21天前
有啥办法可以让 Claude Code 停下来的时候发个提醒或音效?因为我经常同时开多个任务,经常一个任务等好久后发现早就完成或中断了……
82
benn
26天前
感觉周末肝个两天两夜可能行?
00
benn
26天前
真的喜欢Ani,我真的对这类产品彻底改观了,瞬间想明白了很多。擦边是不持久的,因为人类的生理需求是有限的,但情感需求是无限的。情感需求需要一个形象,人类和那个抓住布偶妈妈喝金属妈妈的奶的猴子没有区别。
23
benn
28天前
很早前我留意到人们几乎只用AI来写代码、写文章、还有就是角色扮演roleplay,其他用法和这三类相比使用量几乎可以忽略不计。以前我觉得前两种用法都是伟大的生产力进步,而roleplay只是无聊的低级趣味和擦边,现在我担心我的看法可能有些过于高傲和愚蠢了。听说个人计算机刚流行的时候,当时很多专家和从业者都认为电脑游戏完全是不务正业的用法,也注定只会是个小众行业。从今天看,当时这个观点是足够的高傲和愚蠢的。
61