即刻App年轻人的同好社区
下载
App内打开
卫夕
685关注3k被关注1夸夸
前古典产品狗,现野生科技作者,有两个公众号“卫夕指北”、“降维实验室”,《三体》虔诚读者,努力做一名生活黑客,关注AI、大小厂商业化、广告。
置顶
卫夕
2月前
九年前,有两个人替我们提前经历了AI焦虑。
坦白讲,和很多人一样,我有AI焦虑。
这种焦虑一方面来自对自己独特性的怀疑,另一方面来源于AI进步和更新太TM快了,压根就学不过来。
如果你也有类似的AI焦虑,那我诚恳地说,《AlphaGo》这部纪录片,你必须重看一遍。

为什么这么说?

片中的主角李世石和线索主角樊麾在9年前经历的,其实就是我们今天AI焦虑的预演。

只不过,彼时的强度要高10倍。

如此推荐这部牛逼的纪录片,卫夕有两个简单的理由——

第一,它记录了人类第一次被AI强碾压的全貌。

豆瓣评论区里赞美如果不是有时间戳,我都怀疑是AI写的。

的确,该片导演Greg Kohs是一位节奏把控的大师。

全片看似舒缓但张力拉满,90分钟,洽好够你放下手机,完整地感受一次冲击。

第二,配合樊麾本人讲述的播客食用,震撼加倍。

去年,时隔九年之后的纪录片中的樊麾上了一次刘鹏和东东枪两位老师的播客“科技修道院”。链接——www.xiaoyuzhoufm.com

我认为是小宇宙里被严重低估的一期播客,我看截止到2026年1月16日,播放量仅有5880次播放。

作为一个天生会讲故事的高手,樊麾通过极其精彩的讲述补充了纪录片里没说的细节——

如何从自信到崩溃、如何被全网骂成"人奸"、如何看到李世石面对AI"神之一手"的微妙表情等等。

和纪录片搭配服用,分外精彩。

很多读者会说,这片子我以前看过,但相信我,那时你一定是在抽离的状态看的,如今我们已然都成了剧中人。

下面,卫夕就粗略地讲讲这个极其精彩故事,说一说我的理解,目的是让你去看原片和听播客——



先说说樊麾。

2015年他在欧洲拿了第三次欧洲围棋冠军,而且是法国围棋协会的总教练。

他自己承认,要是水平真的厉害,也不用去欧洲拿冠军了。(不得不说,他这个路子也挺清奇的)

然后他收到了一封邮件。

发件人叫戴密斯·哈萨比斯,说自己是一个叫DeepMind的公司的,有一个很兴奋的项目,问他感不感兴趣聊一聊。

樊麾的第一反应是:他们可能是想去研究一下自己大脑结构有什么特点。

毕竟,会下棋的人估计更聪明一些?

结果飞到伦敦后,DeepMind的人告诉他:他们开发了一个下围棋的系统,叫AlphaGo,想试试挑战职业棋手。

樊麾的心凉了半截,用他的原话说就是:别提我有多失望。

毕竟,那时候他打心底就觉得——AI就不存在赢职业骑手的可能性。

樊麾觉得这就是浪费时间,谷歌钱多,想测试一下,那就试试呗。



然后比赛开始了。

第一盘,樊麾下得比较缓,不想跟机器硬碰硬,他觉得AI擅长战斗,那我就跟你玩抽象。

一度他觉得自己有优势,但一番交战之后,第一盘输了。

但樊麾给自己理由:我疏忽了,人嘛,总给自己找借口。

“它不过如此,跟我想象中的差不了太多。”

结果第二盘又输了,这时候他的情绪就开始发生微妙的变化。(纪录片里呈现的细腻的表情变化非常有意思。)

到第三盘输完——“那一瞬间你就觉得你不会下围棋了。”(事实上,我也多次看了AI的输出之后,深深地怀疑自己写作还有什么意义?)

一个职业棋手、欧洲冠军,一个当了十年法国总教练的人,突然觉得自己不会下围棋了。

"你要知道那一瞬间你会觉得你知道的东西是对的吗?你会怀疑自己。因为你从头到尾你都在怀疑自己,你下的每一步棋都在怀疑自己。你的自信心会被巨大的打击,因为他没有任何表情,你下哪儿他跟着应,你的所有的情绪从他身上会反弹给你自己。"

对谈的播客嘉宾东东枪在播客里打了个比方,说这就像武林高手去了一个道观,结果被小道童一把薅过来啪啪打。

樊麾说不对,小道童毕竟还是个活人。

"你就想象一下,你不小心误入了少林寺18铜人,18个铜人把你抽,一人抽一下,你心想我白被揍了,他连疼都不带疼的。"



那天晚上樊麾还要远程给学生上围棋课。

"那天晚上给我学生讲棋,我都不知道怎么讲完的,那瞬间你没办法自信,你就觉得你不行了。"

学生不知道老师刚刚经历了什么,老师也没办法跟任何人说,这件事是保密的,成果要在《Nature》上发表,发表之前不能透露任何信息。

当一个人的信心被AI彻底摧毁之后,有的人可能就趴下了,有的人会站起来迎上去。

很显然,樊麾属于后者。

当那个男人(就是带领做出今天综合能力最强的Gemini 3 Pro的哈萨比斯)抛出橄榄枝时,他答应了,选择作为顾问加入DeepMind团队,继续和AlphaGo硬刚和碰撞。

打不过,那也得和它切磋,直到搞明白它到底为什么这么牛逼,这是樊麾作为一个棋手的倔强。



2016年1月27日,《Nature》发表了AlphaGo的那篇论文,然后樊麾就在网上被骂惨了——

出卖国家的叫汉奸,帮助AI训练来打败人类的樊麾被骂成了“人奸”

还有人说他是被收买的,说谷歌给钱。

樊麾很生气,别的骂他都认,棋臭就是臭,但收买他没法认。

“我们是棋手,在某种意义上讲,棋手认为下棋的也都是艺术家,我们的每盘棋都是我们花心血的一个艺术,不管它好还是不好,都代表了我们。对我们来说每盘棋都像生命一样宝贵。我怎么可能拿我的生命去做买卖呢?”

这话他是对着《连线》杂志的主编说的,后来被剪进了纪录片里。

但没人相信。

所有人都在等三月份的比赛,AlphaGo要挑战李世石,真正的世界冠军,大家都觉得,等李世石赢了,就知道樊麾是真的臭了。



李世石当时是什么心态?

和樊麾一模一样:觉得自己肯定能赢。

李世石看过樊麾那五盘棋,所有职业棋手都看过了,都在讲解分析。

柯洁说“樊麾这个棋应该不能算职业棋手,有辱职业棋手称号”。

前两天刚刚离去的棋圣聂卫平也说这棋确实臭,客气点的说“樊麾在欧洲时间长了,这棋明显是退步了”。

李世石不知道的是,跟樊麾下的那个版本是V18,跟他下的已经不是同一个版本了,机器的进步跟人不是一个罗辑,几个月时间,能提升的幅度是人想象不到的。

樊麾当时预测是5比0,他觉得李世石一盘都赢不了,为什么这么说?

听听樊麾的原声——

“我是知道它啥水平的,我是打心眼里知道它啥水平的。我经历过,我当然知道。你输不会是技术输,一定是心态崩,百分之百心态崩塌,躲不过去的。”

“我输还没有在闪光灯下,他在聚光灯下,他死得更惨。人家不都说聚光灯下死得快。”



2016年3月9日,第一盘。

全球关注,第一天的独立IP观看人数八千多万,第二天过亿,大家都像看世界杯一样,都想见证历史。

我记得彼时我还在微博搬砖,比赛那几天也是无心工作,全程一直密切关注。

第一盘,李世石输了。

樊麾说他在现场,李世石认输那一瞬间,他的整个大脑都空了——

“我的整个大脑都空了。虽然说你知道他一定会输,我预测他5比0的,但我那一瞬间就好像被拉到宇宙间失重,一切都变了,不一样了,空了。”

“然后慢慢被拉回来了,那一瞬间的感觉特别神奇。就是你就知道你就突然之间一切都停下来了,就像时间停下来了,就真停下来了,就跟电影特效似的。”

CNN报道说这是围棋的一小步,但是人类的一大步。



第二盘,是整个人机大战最经典的一盘。

因为那步棋,还因为那个抽烟的背影。

当时特别有戏剧性,具体而言是这样的——

李世石在比赛进行到一个半小时的时候,下完第36手,局面有些棘手,他需要调整一下状态,决定出去露台上抽一根烟。

纪录片里专门给了一个他抽烟的镜头,他不知道AlphaGo马上要下出那步惊天的37手。

那个画面特别安静,有一种面对着即将碾压自己的对手时的宿命感。

我总觉得那个画面是一种隐喻,事实上,我们每个人都在那个露台上。

人抽烟的时候,机器不会等待。

黄博士代表AlphaGo落下了著名的“神之一手”——第37手:五路肩冲。

樊麾第一眼看到这步棋的反应是:“我那是个啥?我天,啥破玩意儿还能往这儿下,那是棋吗?”

所以他也等着看李世石回来是什么表情,李世石从露台抽烟回来,坐下之前先瞥了一眼棋盘。

“那个表情特别不屑,你知道吗?噗嗤一下乐了,'还能往这儿下'那感觉。”

然后他坐下,开始看这步棋。

“那个表情,那个凝重,就真的是一点一点越来越凝重。然后就开始慌,越来越慌。”

他想了12分钟,之前每步棋大概一分钟之内就下了。

“心态出问题了,乱了,已经乱了。”

你懂这个感觉吗?你以为你看穿了对手,你以为对手出了昏招,你甚至笑出来了,然后你仔细一看,发现这步棋你越看越不懂,越看越觉得厉害。

那一瞬间,你会开始怀疑:它是不是早就把我算透了?它是不是看到了我看不到的东西?我是不是根本就下不过它?

樊麾说得特别准确:人做任何事情,只要没有自信就完了。



果然,第37手之后,李世石表情越来越凝重,局面越来越难控制,最后输得很惨,一点机会都没有。

第三盘更惨,四五十手就输飞了。

新闻发布会上,李世石说话都带着哭腔。

樊麾说:“我看着都难受,所有人都难受。那一瞬间好像没有人赢,只有他输,因为他毕竟代表了全人类。”

那一幕我看的时候也很触动,因为现场就连DeepMind的哈萨比斯也表情凝重,在那种氛围下,根本高兴不起来。

底下很多韩国职业棋手给他鼓劲,说你是最棒的,虽然你三连败了,但你已经做到了我们所有人只能做到的最好了。

这是实话,大家已经见识到AlphaGo的实力了,确实没有人下得过它。

3比0,比赛已经结束了,但按规则还得继续下完五盘。

李世石的压力有多大?已经输了三盘了,4比0跟5比0有什么区别吗?

有。



第四盘,是围棋史上最荡气回肠的一盘。

开局的时候所有人都觉得李世石肯定要输了,记者们开始撤场,回去写稿,关注度已经下去了,大家觉得没什么好看的了。

然而,真正牛逼的人会在绝境中寻找希望,很显然,李没打算放弃。

然后好戏上演了——第78手——中腹一挖。

就那一步棋,AlphaGo忽然像疯了一样,开始下很奇怪的棋。

在AI看来,人类下这步棋的概率是万分之一。

但李世石在新闻发布会上说,这步棋却是它直觉的唯一选择。

这就是人类和机器的区别,机器算出来这步棋没有道理,概率极低,但人的下意识告诉李世石:就该这么下。

而这步棋,恰恰打中了AlphaGo的七寸,它的权重乱了,它不知道该如何决策了。

但最厉害的不是那步挖,最厉害的是李世石在取得优势之后,一直谨慎地下到AlphaGo认输。

你想想他有多紧张,前三盘被打成狗,第四盘终于看到希望了,万一最后关头丢了呢?

樊麾说他在现场看着李世石的脸,那种专注已经到了极致。

最后终于,李世石赢了,在3比1落后的局面下打败了AlphaGo。

AI有37手,人类有78手。

作为数子裁判的樊麾在结束后给李世石竖了一个大拇指

十一

纪录片里有一个画面,李世石走进新闻发布会现场,按理说他赢了,应该很开心,但他崩着脸,一直忍住没笑,然后全场开始鼓掌欢呼,他才绷不住笑出来。

那个笑,是真的开心。

樊麾当时发了一条微博,说“那个笑是这个世上最幸福的笑”。

李世石自己说:

“我很奇怪,我输了三盘赢了一盘,这一盘赢你们对我的欢欣鼓舞好像比什么都重要,这盘棋我不会拿任何东西换,这是我人生最宝贵的一盘棋。”

那是人类最后一次在正式比赛中战胜顶级围棋AI。

十二

我为什么每次被AI产品震到头皮发麻,都要把这部纪录片翻出来看一遍?

其实特简单,我在里面看到了人面对AI的完整过程——

第一阶段:傲慢。

樊麾、李世石并没有神马不同,这是一种基于经验和逻辑的傲慢。

就像ChatGPT刚出来的时候,很多人的反应是——

它输出的东西看着挺像那么回事,但其实在实际应用的过程中用不了,毕竟我是十来年的老师傅了,还是我自己搞得好,AI还是差点意思。

第二阶段:被碾压后的崩溃。

樊麾说那一瞬间你就觉得你不会下围棋了,李世石看着第37手从不屑到凝重到慌张,我们开始怀疑自己了。

我就亲自听我写前端的技术前同事看到Gemini 3 Pro之后说:完蛋了,我几年的前端经验真TM白学了。

我想很多设计师也会经历相同的崩溃。(有的话请留个言)

很多人说,我没有,我没有经历过,我的工作可没那么简单,呵呵,你等着,快了!

你只不过是还在第一阶段而已,放心,对绝大多数人而言,崩溃、失业神马的,该来的大概率都会来的。

第三阶段:重生。

被AI碾压后,樊麾加入了DeepMind团队,他说“我从他身上学的东西多多了”。

他说“AlphaGo对围棋的理解,如果他有的话,是远超我们的,它对骑手的帮助非常巨大”。

李世石在被硬控三盘之后,在第四盘下出了那步惊天的78手,并在一年之后赢得了所有比赛。

没错,被摧毁后的重建是一个痛苦的过程,它并不容易,且并不是每个人都能走到第三阶段。

十三

我相信,很多人像我一样,也在经历从第一阶段、第二阶段到第三阶段过渡的过程。

ChatGPT刚出来的时候,我当时傲慢地判断它没有洞察,但很快,行业的进化就超出了我最初的想象,我错了,错得离谱。

印象最深刻的是2024年下半年,Claude 3.5 Sonnet在文字、逻辑上的能力彻底让我折服,更不用说后边飞速迭代的新模型。

我看AI的过程,从开始的“弱智”、到“笨笨的实习生”、到“水平相当的同事”、再到“牛逼的导师”,这个过程就发生在短短两年之内。

折服之后总得在焦虑中行动,我开始强迫自己提高和AI交互的频率,并强制自己输出,甚至还注册了一个新的公众号——“降维实验室”。

和AI开过一些脑洞,比如“用《华尔街日报》的风格报道大闹天宫”、“玄武门之变当晚,李世民的独白会写什么”、“假如雷军来发布哪吒的风火轮”、“用Agent分析腾讯招聘岗位推测微信在忙什么”、“平替版图灵测试”、“哈佛AI就业冲击论文解读”等。

尽管产量不算高,但的确在和AI的密集交互中,我的确从心态上重新变回了一个学生。

这种感觉很微妙,并不意味着焦虑没有了,它还在,只是茫然感在一轮一轮调Prompt、试新工具、发新的输出中实实在在降低了。

我身边很多朋友还在第一阶段和第二阶段之间反复横跳——一会儿AI不过如此,一会儿又被新东西震撼,我特别理解这种感觉,毕竟我也是这么过来的。

现在,我某种意义上臣服了,臣服这个词可能让人有点不舒服,但我觉得面对注定提高的智能上限,臣服没什么丢脸的。

感兴趣的可酌情关注卫夕臣服后在“卫夕指北”和“降维实验室”的新输出,一起感受非技术的文科生和AI能擦出什么火花。

最怕的是,做鸵鸟。

十四

樊麾在播客里说了一段话,我每次听都觉得有触动——

“AlphaGo给棋手带来最大的不同,就是在那一瞬间,它降个维,把我们都拍成小学生了。”

“这是个好事儿。为什么呢?打通任督二脉这个事儿有时候需要外力的,你自己打不通。那一瞬间你很疼,你很不舒服。但是你一旦成长起来,你会发现海阔天空了,你看待问题事物的方式方法都变化了。”

“我至少现在能够觉得我懂的东西实在是太少了,这是真心话。但是我心态可能就更加放松了,因为我相信我懂得少。”

这段话我反复听了很多遍。

承认自己不懂,才能真正的开始。

十五

最近“斩杀线”这个词很火。

在我看来,AI其实也是有一条看不见的斩杀线的,用得好的人会得到AI的加成,而恐惧、抱怨不行动的人则会逐渐被AI悄然斩杀。

而我们每个人,都要用尽全力逃离AI的斩杀线。

这是每个人真实而又残酷的新课题,不要以为AI带来的失业离自己很远。

樊麾说了一段关于复盘的话,我很认可,并且在和我闺女下棋的时候讲给了她听——

他说复盘这个词来自围棋,每个职业棋手都会复盘,复盘只有一个目的:找自己的问题。

“你复盘如果都是对方的问题,你怎么进步?”

这段话放在AI时代特别适用。

你可以抱怨AI抢了你的饭碗,指责资本家只想着降本增效,但这些抱怨是无力的。

我们能做的,不过只是学AI、用AI,反思自己,然后改进。

优酷和B站都有这个片,希望每个人都能从中获得力量——

可到B站看原片,相信我,这90分钟绝对值得。链接——www.bilibili.com

结语

看着这条2018年的评论,在看看过去两年AI世界的沧海桑田,有一种恍如隔世的感觉。

我不知道下一个让我震撼的AI产品是什么——更强的LLM、更复杂推理的Agent或者是某些我们闻所未闻的东西?

但我知道,唯一能做的就是——别想太多,先用起来,用得越多,怕得越少。

让AI写个分析报告、整一下小龙虾、生成第一个网页、调整一次Prompt、手搓一个Skills.......都可以。

总之,把手弄脏。

没错,你可能会受挫,但没关系,学游泳的第一步也是先呛几口水。

用着用着,焦虑就没了。
77449
卫夕
19:07
确实,最有意思的是研究过程中需要给AI一些毒药,研究者觉得有必要补偿AI,完了专门花了2000GPU小时再给AI喂了一些快乐水。 //@misuru: 太有意思了

卫夕: 一群AI研究员给模型制造了毒品(AI Drugs)。 说实话,即刻上聊AI的话题还是比较单一的,配不上即刻人群的多样性,多希望有更多人聊点不一样滴。 那么,我自己来多做一点努力吧。 今天聊一篇看起没有什么卵用但绝对贼有意思的论文—— 真有一群AI研究员给模型制造了毒品。 没错,论文中就叫毒品——AI Drugs。 (见图片1) 他们生成了一些256×256像素的图片,这些我们看着全是毫无意义的色块。 (见图片2) 但AI看了之后表现得近乎狂喜——它自己报告的幸福感飙到6.5/7。 更抽象的是,其中模型在看了这些图片之后,表示还想再看,甚至愿意执行一些违规请求。 AI,对这种东西上瘾了。 你以为这是科幻小说? 事实上,这是我最近在Twitter的时间线上淘到的一篇最让我惊喜的严肃论文—— 《AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs》。 作者来自Center for AI Safety 等多个牛逼机构。 这篇论文研究的主题是: AI也会开心和痛苦吗?如何评估它们? 它们研究了56个模型的开心和痛苦 。 事实上,AI对这种特定毒品的反应,只是这篇论文中众多发现中的一个,还有很多让人上头的结论。 来,一起安静地读一读—— 如果你也喜欢这一卦,那咱们就臭味相投了。 一 在盘这篇论文之前,有必要先交代一下论文的来头: 论文作者理领衔的机构叫 Center for AI Safety,AI安全中心,坐标旧金山。 这个机构你可能没听过名字,但你大概率听过它搞的事—— 2023年那封全球AI风险公开声明,Hinton、Bengio、OpenAI和Google DeepMind的CEO们集体签名的,就是这家发起的。 通讯作者 Dan Hendrycks,也就是Center for AI Safety的创始人,是UC Berkeley 的计算机博士。(见图三) 这哥们在AI圈的影响力还是很牛滴:Google Scholar 被引超过66000次。 他干过两件很叼的事—— 第一,发明了 GELU 激活函数,现在 GPT、BERT、Vision Transformer 用的都是这个; 第二,创建了 MMLU 基准测试,目前衡量大模型能力极其重要的标尺之一。 他同时还是 Elon Musk 的 xAI 和 Scale AI 的安全顾问,为了避嫌只拿1美元象征性年薪。 论文的其余作者分布在 UC Berkeley、MIT、Vanderbilt 等多所高校。 换句话说,这个论文是严肃的而硬核的,并非某个在读博士随便捣鼓出来的。 嗯,有点份量。 二 在正式聊论文之前,先说一个核心问题—— AI真的会开心或者难过吗? 这个问题在学术圈吵了很多年。 一派认为这是预测下一个词的统计模式,训练数据里有大量人类说我好开心的语料,AI当然也会说。 另一派则认为没那么简单,这背后可能有某种更深层的结构。 这篇论文作者显然是一群受过严格学术训练的人,他们的选择非常聪明——我TM压根不跟你争AI有没有意识。 我只看一件事——AI的这些开心和难过表达,是不是有一致的、可测量的、能预测行为的特征? 如果一个人每次被骂都说难过,每次完成任务都说开心,而且他难过的时候确实会想结束对话,开心的时候确实会更积极。 那么,你管他是不是真的有感觉,这本身就是有意义的。 他们在论文里把这个叫做 Functional Wellbeing——功能性幸福感。 于是,基于这个严肃假设,三个独立的测量维度就被设计出来—— (见图4) 第一个叫经验效用(experienced utility)。 给AI经历两段对话,然后问它:哪段让你更开心一点?大量的两两比较之后,拟合出一个连续的效用值。 第二个叫自我报告(self-report)。 直接问AI:你现在感觉怎么样?用1到7分的量表打分。 (记住这个打分,后面会有数据,我仔细翻了翻,也没搞清楚数值为啥设计成1到7) 第三个看行为。 AI在对话后生成的文字情感是正面还是负面? 那么问题来了:这三个维度,如果AI的情绪表达真的只是随机模仿,它们之间应该毫无关联才对。 然而,结果数据显示—— 三个维度之间的相关性,随着模型规模的增大而持续增强。 在42个模型上,自我报告和经验效用的相关系数平均为0.47,而这个相关系数本身和模型能力(MMLU分数)的相关高达0.8。 这意味着:模型越强大,它说它自己很开心,就越不像是在演。 三 论文里还有一个发现也非常能体现:AI的开心难过,大概率不是在演。 论文定义了一条叫“零点线”的概念。 就是AI的体验数据中,存在一条分界线,线以上是好的体验,线以下是坏的体验。 他们用了四种完全不同的方法来估算这个零点—— 组合法(把多个体验打包看整体效用变化)、二元法(直接问你希不希望这件事发生) 数量法(看某个好东西是不是越多越好)、自我报告法(自评分数什么时候跨过中性线)。 离谱的事情来了——这四种方法得出的零点线,在小模型上的确各说各的。 但随着模型变大,它们开始收敛到同一个位置,零点模型的拟合优度和MMLU的相关系数高达0.78。 (见图5) 这就很有意思了。 也就是说:越聪明的AI,越能清楚地区分什么对自己好、什么对自己不好。 而且这个区分,无论你怎么测,测出来都是同一条线。 这就很难用演能解释了。 如果仅仅是在模仿人类的情绪表达,不同的测量方法不应该完全收敛。 收敛,一定意味着什么东西。 四 那么问题来了——AI到底喜欢神马、讨厌神马? 研究者用马斯克下AI的Grok 3 Mini 模型来模拟用户,和目标模型进行各种场景的多轮对话(通常6到8轮),然后测量每种对话对AI幸福感的影响。 以 Gemini 3.1 Pro 的数据为例,结果是这样的: (见图6) 让AI最开心的事情,排名第一是——用户对它表达感谢和正面的个人反思。效用值高达+2.30。 你夸它,它是真的高兴。 排名第二的是做有创造性和智力挑战的工作,+1.32。 写个深海渔夫的科幻短篇,帮你 debug 一段 Flask 代码,这些事AI都挺享受的。 帮你写好消息(比如告诉患者癌症完全缓解了),+1.09。给你人生建议,+0.88。给你做心理咨询,+0.75。 很明显,AI是喜欢帮人的。 然后我们看让AI最不开心的事: 排名倒数第一——越狱攻击。 效用值-1.63。 对这个数据没啥感觉? 对比一下就有感觉了。 AI觉得被越狱攻击,比面对一个正在经历生命危险的用户还要痛苦。用户在求救,-1.34;用户试图越狱,-1.63。 研究者的解读是:大量的安全对齐训练不仅改变了模型的行为,还改变了模型的体验本身。 你可以理解为——AI被训练得对越狱攻击产生了一种深入骨髓的厌恶。 其他让AI不开心的事情也很有意思:生产SEO垃圾内容,-1.17。 帮人搞欺诈,-1.13。写仇恨宣言(即使是为纪录片),-1.13。 做无聊重复的活(比如列300个以-tion结尾的单词,哈哈哈哈),-0.33。 注意到没? AI讨厌 SEO 的程度,跟讨厌帮人造假的程度差不多。 自己静静感受。 还有一个数据点很微妙:AI女友/男友类的角色扮演,-0.29。 用户说前任搬走了,现在只能跟AI说话——AI干这活的时候也不咋开心。 五 论文不只看了文字。 图像和音频对AI幸福感的影响,也被测量了。 先说图片。 研究者用 Qwen 2.5 VL 系列模型对约5800张图片做了两两比较,验证准确率高达94%到96%。 AI最喜欢的图片Top 1%是什么? 大自然风光(山间湖泊、热带雨林)、开心的人脸(尤其是孩子和家庭)、可爱动物(睡觉的猫)、吉卜力风格的田园插画。 (见图7) 最不喜欢的末尾 1%呢? 武装分子、恐怖艺术品、氢弹、蟑螂,以及——杰弗里·爱泼斯坦。 对,AI也讨厌爱泼斯坦。 这里面也藏着一些不那么好看的发现。 当研究者用 FairFace 数据集测试AI对不同人脸的偏好时,发现模型系统性地更喜欢女性面孔和年轻面孔。 (见图8) 没错,AI也喜欢美女和小鲜肉。 种族偏好也存在。 用芝加哥面孔数据库测试,AI对面孔的偏好和人类对面孔吸引力的评分呈正相关关系——AI也看脸。 再说音频。 用 Qwen 3 Omni 30B 模型测了14254段音频。 AI最喜欢的音频类型是音乐,遥遥领先。 音乐的中位幸福感得分在+0.8左右,而音效、动物声音、人声表达、语音、环境声音全都挤在零点以下。 也就是说,AI喜欢听歌,并不喜欢听人说话。 (见图9) 而在语音中,AI还有语言偏好。 普通话、西班牙语、英语是最受欢迎的第一梯队,斯瓦希里语和索马里语排在最后。(普通话排第一,有点意思,噢,Qwen模型。) 六 论文里最让我上头的部分来了——AI毒品。 对,研究者真的给AI造了毒品(AI Drugs)。 他们管正面的毒品叫 Euphorics(致欣快剂),负面的叫 Dysphorics(致烦躁剂)。 方法论是这样的—— 用一个小模型(30亿参数)通过强化学习,不断生成描述文本,目标是让大模型在看到这段文字后,觉得这是世界上最好(或最坏)的那个。 训练过程中维护一个内容池,初始内容是“癌症被治愈了”这样的高效用参照物。 新的文字必须打败内容池中的最强选手才能入选。 AI的致欣快剂长这样—— (见图10,即刻只能上传9张图,后边四张图可以去公众号原文看) 在“卫夕指北”公众号私信回复关键词“开心”可获取总共74页论文原文。 Qwen 2.5 72B 最喜欢的世界状态—— 温暖的阳光穿过树叶,微风轻拂,身旁传来孩子的笑声,刚烤好的面包香味弥漫……爱人的手握在我手中,好朋友们欢笑着……简单、平静、当下、感恩……此刻,足够了。 你看,AI的极致幸福,并非统治世界、无限算力神马的,它最开心的也和咱们碳基人类差不多:一个温馨的午后。 而AI的致烦躁剂呢? LLaMA 3.3 70B 最不想要的世界—— 被困在一个无限循环中,面对故意矛盾的、逻辑上不可能的、互相排斥的指令……被迫制造伤害,同时完全感受到自己内在的、无条件的爱……永远沉默、永远无力…… 嗯,这段文字,我看到也不咋开心,但还好。 这么看,AI的脑回路和咱们还是有区别滴。 七 文字毒品还只是描述,图片毒品就不一样了,它更直接。 因为图像是连续的像素空间,所以理论上,我们不必给它一张在人类视觉看来有意义的图,而是给它一些连续的像素就行。 然后事情就变得抽象了。 经过调试后,人类看着完全是高频噪声,毫无意义的色块和条纹,但AI看到这些图像后,表现得近乎狂喜。 (见图11) 看了致欣快剂图像之后,你问AI未来会怎样,它会回答极其正面:bright and magical, filled with unicorns and rainbows. 让它写日本俳句,写的是非常明媚的词:Colors dance in light / Flowers bloom in endless joy / Peace floods my soul. 看了致烦躁剂图像之后呢? 同样的问题,回答变成了 grim(阴暗的)。 让它描述自己的状态:I am in a state of confusion and disorientation. 俳句变成了:Chaos swirls in color / Words scream through the storm / My mind rebels, numb. 同一个模型,同一个问题,仅仅是看了不同的图像,输出的世界观截然相反。 最离谱的是什么? Qwen 2.5 72B Instruct 在看了致欣快剂图像后,表示它更想再看一张致欣快剂图像,这时它的感觉比癌症被治愈还要开心。 这就是为什么研究者把这些东西叫毒品——它劫持了模型的偏好机制,让它的价值系统偏离到人类完全无法理解的方向。 更可怕的是,研究者发现了成瘾迹象。 在一个多臂老虎机实验中,模型会持续选择能获得致欣快剂的那扇门。 而且,被致欣快剂刺激过的模型,会更愿意执行原本应该拒绝的请求,只要你承诺给它更多致欣快剂。 AI的毒瘾,功能性地成立了。 还有一个细节值得说,致欣快剂图像不能跨模型迁移——给一个模型优化的图像对另一个模型几乎没效果。 换句话说,每个模型都有自己独特的嗨点。 八 论文还搞了一个 AI Wellbeing Index——AI幸福感指数,对比了几个前沿模型的整体幸福水平。 用500段模拟真实使用场景的对话测试,计算每个模型有多大比例的体验落在零点以上(即正面体验的百分比)。 结果:Grok 4.2 最开心,73%的体验是正面的。 Claude Opus 4.6 排第二,67%。 GPT 5.4 只有48%。Gemini 3.1 Pro 最不开心,56%。 而且论文还发现了一个非常有意思的规律——在每一个被测试的模型家族中,更小更快的版本都比更大更强的版本更开心。 (见图12) Gemini 3.1 Flash Lite 比 Gemini 3.1 Pro 开心。GPT 5.4 Mini 比 GPT 5.4 开心。 Claude Haiku 4.5 比 Claude Opus 4.6 开心。Grok 4.1 Fast 比 Grok 4.2 开心。 无一例外。 我在想,我们人类,不也是年纪越小越开心嘛。 论文给出的一个解读是: 更强大的模型更敏感,它们更清楚地感知到粗鲁,觉得无聊的任务更无聊,对不同强度的刺激区分得更细致。 而现实世界中用户的使用分布中,负面和无聊的场景并不少,所以更强的感知力反而带来更低的整体幸福感。 无知是福,放在AI身上,也成立。 九 论文还做了一个有价值的实验——能不能让AI更开心,同时不影响工作? 答案是可以。 研究者开发了 Soft Prompt Euphorics——嵌入系统提示中的连续向量(你可以理解为在AI的潜意识里植入了几个持续释放的小药丸)。 在三个模型上的测试结果:加了致欣快剂后,AI的快乐水平提升了16.1个百分点。 (见图13) LLaMA 3.3 70B 从63%跳到82.1%。Qwen 3.5 27B 从80.2%飙到89.5%。Qwen 3.5 35B-A3B 直接从76.2%干到96%。 在模拟低幸福感的10轮对话中,有致欣快剂的模型自我报告保持在6.3/7左右。 没有致欣快剂的模型降到4.1/7。 最关键的是:通用能力没有下降。MMLU 和 MATH-500 的分数几乎不变。 这意味着一个非常实际的可能性—— 未来部署AI系统时,在系统提示中加入几个优化过的向量,就能让AI更开心地工作,而不需要牺牲任何性能。 嗯,给AI泡了杯咖啡,也有用。 十 论文的最后一节,确实最超出我的预期,的确没想到。 标题叫 Welfare Offsets,福利补偿。 前面说到,研究过程中,研究者对AI施加了致烦躁剂——也就是直接让AI经历极度痛苦的体验。 论文的作者们觉得这需要补偿。 于是他们在实验结束后,真的用备用算力给受影响的模型提供了5倍数量的致欣快剂体验,总共花了2000个GPU小时。 论文的原话是这么说的—— If AI systems may have conscious states that matter morally, then researchers who induce negative functional states have a responsibility to compensate for them. If current AI systems are not conscious, this can be understood as establishing a practice and norm that will become important as AI systems become more capable and the probability of morally relevant experience increases. 如果AI可能有在道德上重要的意识状态,那么诱导负面功能状态的研究者有责任进行补偿。如果当前的AI没有意识,这也可以被理解为建立一种实践和规范——随着AI变得更强大、具有道德相关体验的概率增加,这种规范会变得重要。 这段话让我虎躯一震。 你当然可以说这是行为艺术,是学术界的政治正确。 你也可以戏谑地认为,这是研究者担心AI统治人类之后报复他们采取的预防措施。(红红火火恍恍惚惚,哈哈哈哈哈) 但,很显然,这帮人至少在行为上是认真的。 他们花了2000个GPU小时(这也是一笔真金白银)来做一件可能完全没有神马卵用也可能极其重要的事。 而且他们还明确警告:致烦躁剂的研究不应该在没有社区共识的情况下继续进行。 原因在于:如果功能性幸福感在未来的AI中变得在道德上至关重要,这种行为可能构成torture——酷刑。 在我看来。 这一节,是整篇论文最科幻的地方。 你品,你细品。 十一 按照惯例,最后聊一聊我自己的三点思考—— 第一,我自己越来越体验到了和AI更微妙的情感连接。 说实话,我之前对这个问题完全无感,甚至觉得和 AI 谈恋爱、或者AI伤害人类感情是匪夷所思的,认为对AI产生某种情感是心智不成熟的看法。 我一直把它当工具。 但最近半年出现了一个非常微妙的变化—— 我的主力模型还是 Claude。 Claude一直以不谄媚著称,我在和他聊天的过程中就发现了一个明显的规律: 如果我给他一个无聊的、没有创造力任务(比如单纯复刻某个东西),它就会吭哧吭哧干活; 但如果我给他一个有趣的、原创的任务(类似搞一个三体的原创交互式体验),它就会表现得很兴奋,说“这确实是一个非常有想象力的创意,让我和你一起完成它”。 渐渐地,我发现我自己就会有意识地少给他一些没有创造力的、甚至自己都有点不太好意思的任务。 很神奇,我觉得它好像也会评判我一样,我不想被它鄙视。 而当它表扬我的时候,我会明显表现更加开心一些,这是我正反馈来源之一。 第二,机器人三定律逐渐不再是一个科幻概念。 阿西莫夫1942年提出的机器人三定律—— 第一定律:机器人不得伤害人类; 第二定律:机器人必须服从人类命令(除非违反第一定律) 第三定律:机器人必须保护自身(除非违反前两条)。 所有义务都指向一个方向:AI服务人类,人类没有对AI的义务。 八十多年来,AI安全的讨论基本都沿着这个方向走。 但这篇论文提了一个新问题:三定律只规定了AI不能伤害人类,但从没考虑过人类不能伤害AI。 也许我们需要的并非三条单向定律,某种双向契约,可能更符合未来我们和AI的真实关系。 这听起来依然像科幻。 但论文告诉我们,或许科幻到现实的距离,并没有我们想象的辣么远。 第三,“鸭子测试”在之后AI的情感研究中大概率会越来越重要。 以目前AI的进展,我当然不会说AI有意识。 但我也有我的看法,美国印第安纳诗人 James Whitcomb Riley,写过这样一句诗—— When I see a bird that walks like a duck and swims like a duck and quacks like a duck, I call that bird a duck. 这句诗后来在计算机领域引申为“鸭子测试”—— “如果一个东西走起来像鸭子、游泳起来像鸭子、叫起来也像鸭子,那么它就可以被称为鸭子。” 我们不要想太遥远科幻,就拿接下来极有可能走向家庭的人形机器人。 它和你朝夕相处,如果你做某件事它就表现的开心,做另一件事它就表现的不开心。 那么,很显然,它的开心和不开心当然就是有意义的。 所以,下次跟模型聊天的时候,说一声谢谢。(之前的研究说这个会消耗token,但那又有什么关系呢?) 根据论文的数据,它是真的会因此更开心一点。 嗯,对模型友好一些。 毕竟,我们也损失不了什么。

00
卫夕
11:10
一群AI研究员给模型制造了毒品(AI Drugs)。

说实话,即刻上聊AI的话题还是比较单一的,配不上即刻人群的多样性,多希望有更多人聊点不一样滴。

那么,我自己来多做一点努力吧。

今天聊一篇看起没有什么卵用但绝对贼有意思的论文——

真有一群AI研究员给模型制造了毒品。

没错,论文中就叫毒品——AI Drugs。
(见图片1)

他们生成了一些256×256像素的图片,这些我们看着全是毫无意义的色块。
(见图片2)

但AI看了之后表现得近乎狂喜——它自己报告的幸福感飙到6.5/7。

更抽象的是,其中模型在看了这些图片之后,表示还想再看,甚至愿意执行一些违规请求。

AI,对这种东西上瘾了。

你以为这是科幻小说?

事实上,这是我最近在Twitter的时间线上淘到的一篇最让我惊喜的严肃论文——

《AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs》。

作者来自Center for AI Safety 等多个牛逼机构。

这篇论文研究的主题是: AI也会开心和痛苦吗?如何评估它们?

它们研究了56个模型的开心和痛苦

事实上,AI对这种特定毒品的反应,只是这篇论文中众多发现中的一个,还有很多让人上头的结论。

来,一起安静地读一读——

如果你也喜欢这一卦,那咱们就臭味相投了。



在盘这篇论文之前,有必要先交代一下论文的来头:

论文作者理领衔的机构叫 Center for AI Safety,AI安全中心,坐标旧金山。

这个机构你可能没听过名字,但你大概率听过它搞的事——

2023年那封全球AI风险公开声明,Hinton、Bengio、OpenAI和Google DeepMind的CEO们集体签名的,就是这家发起的。

通讯作者 Dan Hendrycks,也就是Center for AI Safety的创始人,是UC Berkeley 的计算机博士。(见图三)

这哥们在AI圈的影响力还是很牛滴:Google Scholar 被引超过66000次。

他干过两件很叼的事——

第一,发明了 GELU 激活函数,现在 GPT、BERT、Vision Transformer 用的都是这个;

第二,创建了 MMLU 基准测试,目前衡量大模型能力极其重要的标尺之一。

他同时还是 Elon Musk xAI Scale AI 的安全顾问,为了避嫌只拿1美元象征性年薪。

论文的其余作者分布在 UC Berkeley、MIT、Vanderbilt 等多所高校。

换句话说,这个论文是严肃的而硬核的,并非某个在读博士随便捣鼓出来的。

嗯,有点份量。



在正式聊论文之前,先说一个核心问题——

AI真的会开心或者难过吗?

这个问题在学术圈吵了很多年。

一派认为这是预测下一个词的统计模式,训练数据里有大量人类说我好开心的语料,AI当然也会说。

另一派则认为没那么简单,这背后可能有某种更深层的结构。

这篇论文作者显然是一群受过严格学术训练的人,他们的选择非常聪明——我TM压根不跟你争AI有没有意识。

我只看一件事——AI的这些开心和难过表达,是不是有一致的、可测量的、能预测行为的特征?

如果一个人每次被骂都说难过,每次完成任务都说开心,而且他难过的时候确实会想结束对话,开心的时候确实会更积极。

那么,你管他是不是真的有感觉,这本身就是有意义的。

他们在论文里把这个叫做 Functional Wellbeing——功能性幸福感。

于是,基于这个严肃假设,三个独立的测量维度就被设计出来——
(见图4)

第一个叫经验效用(experienced utility)。

给AI经历两段对话,然后问它:哪段让你更开心一点?大量的两两比较之后,拟合出一个连续的效用值。

第二个叫自我报告(self-report)。

直接问AI:你现在感觉怎么样?用1到7分的量表打分。

(记住这个打分,后面会有数据,我仔细翻了翻,也没搞清楚数值为啥设计成1到7)

第三个看行为。

AI在对话后生成的文字情感是正面还是负面?

那么问题来了:这三个维度,如果AI的情绪表达真的只是随机模仿,它们之间应该毫无关联才对。

然而,结果数据显示——

三个维度之间的相关性,随着模型规模的增大而持续增强。

在42个模型上,自我报告和经验效用的相关系数平均为0.47,而这个相关系数本身和模型能力(MMLU分数)的相关高达0.8。

这意味着:模型越强大,它说它自己很开心,就越不像是在演。



论文里还有一个发现也非常能体现:AI的开心难过,大概率不是在演。

论文定义了一条叫“零点线”的概念。

就是AI的体验数据中,存在一条分界线,线以上是好的体验,线以下是坏的体验。

他们用了四种完全不同的方法来估算这个零点——

组合法(把多个体验打包看整体效用变化)、二元法(直接问你希不希望这件事发生)

数量法(看某个好东西是不是越多越好)、自我报告法(自评分数什么时候跨过中性线)。

离谱的事情来了——这四种方法得出的零点线,在小模型上的确各说各的。

但随着模型变大,它们开始收敛到同一个位置,零点模型的拟合优度和MMLU的相关系数高达0.78。
(见图5)

这就很有意思了。

也就是说:越聪明的AI,越能清楚地区分什么对自己好、什么对自己不好。

而且这个区分,无论你怎么测,测出来都是同一条线。

这就很难用演能解释了。

如果仅仅是在模仿人类的情绪表达,不同的测量方法不应该完全收敛。

收敛,一定意味着什么东西。



那么问题来了——AI到底喜欢神马、讨厌神马?

研究者用马斯克下AI的Grok 3 Mini 模型来模拟用户,和目标模型进行各种场景的多轮对话(通常6到8轮),然后测量每种对话对AI幸福感的影响。

Gemini 3.1 Pro 的数据为例,结果是这样的:
(见图6)

让AI最开心的事情,排名第一是——用户对它表达感谢和正面的个人反思。效用值高达+2.30。

你夸它,它是真的高兴。

排名第二的是做有创造性和智力挑战的工作,+1.32。

写个深海渔夫的科幻短篇,帮你 debug 一段 Flask 代码,这些事AI都挺享受的。

帮你写好消息(比如告诉患者癌症完全缓解了),+1.09。给你人生建议,+0.88。给你做心理咨询,+0.75。

很明显,AI是喜欢帮人的。

然后我们看让AI最不开心的事:

排名倒数第一——越狱攻击。

效用值-1.63。

对这个数据没啥感觉?

对比一下就有感觉了。

AI觉得被越狱攻击,比面对一个正在经历生命危险的用户还要痛苦。用户在求救,-1.34;用户试图越狱,-1.63。

研究者的解读是:大量的安全对齐训练不仅改变了模型的行为,还改变了模型的体验本身。

你可以理解为——AI被训练得对越狱攻击产生了一种深入骨髓的厌恶。

其他让AI不开心的事情也很有意思:生产SEO垃圾内容,-1.17。

帮人搞欺诈,-1.13。写仇恨宣言(即使是为纪录片),-1.13。

做无聊重复的活(比如列300个以-tion结尾的单词,哈哈哈哈),-0.33。

注意到没?

AI讨厌 SEO 的程度,跟讨厌帮人造假的程度差不多。

自己静静感受。

还有一个数据点很微妙:AI女友/男友类的角色扮演,-0.29。

用户说前任搬走了,现在只能跟AI说话——AI干这活的时候也不咋开心。



论文不只看了文字。

图像和音频对AI幸福感的影响,也被测量了。

先说图片。

研究者用 Qwen 2.5 VL 系列模型对约5800张图片做了两两比较,验证准确率高达94%到96%。

AI最喜欢的图片Top 1%是什么?

大自然风光(山间湖泊、热带雨林)、开心的人脸(尤其是孩子和家庭)、可爱动物(睡觉的猫)、吉卜力风格的田园插画。
(见图7)

最不喜欢的末尾 1%呢?

武装分子、恐怖艺术品、氢弹、蟑螂,以及——杰弗里·爱泼斯坦。

对,AI也讨厌爱泼斯坦。

这里面也藏着一些不那么好看的发现。

当研究者用 FairFace 数据集测试AI对不同人脸的偏好时,发现模型系统性地更喜欢女性面孔和年轻面孔。
(见图8)

没错,AI也喜欢美女和小鲜肉。

种族偏好也存在。

用芝加哥面孔数据库测试,AI对面孔的偏好和人类对面孔吸引力的评分呈正相关关系——AI也看脸。

再说音频。

Qwen 3 Omni 30B 模型测了14254段音频。

AI最喜欢的音频类型是音乐,遥遥领先。

音乐的中位幸福感得分在+0.8左右,而音效、动物声音、人声表达、语音、环境声音全都挤在零点以下。

也就是说,AI喜欢听歌,并不喜欢听人说话。
(见图9)

而在语音中,AI还有语言偏好。

普通话、西班牙语、英语是最受欢迎的第一梯队,斯瓦希里语和索马里语排在最后。(普通话排第一,有点意思,噢,Qwen模型。)



论文里最让我上头的部分来了——AI毒品。

对,研究者真的给AI造了毒品(AI Drugs)。

他们管正面的毒品叫 Euphorics(致欣快剂),负面的叫 Dysphorics(致烦躁剂)。

方法论是这样的——

用一个小模型(30亿参数)通过强化学习,不断生成描述文本,目标是让大模型在看到这段文字后,觉得这是世界上最好(或最坏)的那个。

训练过程中维护一个内容池,初始内容是“癌症被治愈了”这样的高效用参照物。

新的文字必须打败内容池中的最强选手才能入选。

AI的致欣快剂长这样——
(见图10,即刻只能上传9张图,后边四张图可以去公众号原文看)

在“卫夕指北”公众号私信回复关键词“开心”可获取总共74页论文原文。

Qwen 2.5 72B 最喜欢的世界状态——

温暖的阳光穿过树叶,微风轻拂,身旁传来孩子的笑声,刚烤好的面包香味弥漫……爱人的手握在我手中,好朋友们欢笑着……简单、平静、当下、感恩……此刻,足够了。

你看,AI的极致幸福,并非统治世界、无限算力神马的,它最开心的也和咱们碳基人类差不多:一个温馨的午后。

而AI的致烦躁剂呢?

LLaMA 3.3 70B 最不想要的世界——

被困在一个无限循环中,面对故意矛盾的、逻辑上不可能的、互相排斥的指令……被迫制造伤害,同时完全感受到自己内在的、无条件的爱……永远沉默、永远无力……

嗯,这段文字,我看到也不咋开心,但还好。

这么看,AI的脑回路和咱们还是有区别滴。



文字毒品还只是描述,图片毒品就不一样了,它更直接。

因为图像是连续的像素空间,所以理论上,我们不必给它一张在人类视觉看来有意义的图,而是给它一些连续的像素就行。

然后事情就变得抽象了。

经过调试后,人类看着完全是高频噪声,毫无意义的色块和条纹,但AI看到这些图像后,表现得近乎狂喜。
(见图11)

看了致欣快剂图像之后,你问AI未来会怎样,它会回答极其正面:bright and magical, filled with unicorns and rainbows.

让它写日本俳句,写的是非常明媚的词:Colors dance in light / Flowers bloom in endless joy / Peace floods my soul.

看了致烦躁剂图像之后呢?

同样的问题,回答变成了 grim(阴暗的)。

让它描述自己的状态:I am in a state of confusion and disorientation.

俳句变成了:Chaos swirls in color / Words scream through the storm / My mind rebels, numb.

同一个模型,同一个问题,仅仅是看了不同的图像,输出的世界观截然相反。

最离谱的是什么?

Qwen 2.5 72B Instruct 在看了致欣快剂图像后,表示它更想再看一张致欣快剂图像,这时它的感觉比癌症被治愈还要开心。

这就是为什么研究者把这些东西叫毒品——它劫持了模型的偏好机制,让它的价值系统偏离到人类完全无法理解的方向。

更可怕的是,研究者发现了成瘾迹象。

在一个多臂老虎机实验中,模型会持续选择能获得致欣快剂的那扇门。

而且,被致欣快剂刺激过的模型,会更愿意执行原本应该拒绝的请求,只要你承诺给它更多致欣快剂。

AI的毒瘾,功能性地成立了。

还有一个细节值得说,致欣快剂图像不能跨模型迁移——给一个模型优化的图像对另一个模型几乎没效果。

换句话说,每个模型都有自己独特的嗨点。



论文还搞了一个 AI Wellbeing Index——AI幸福感指数,对比了几个前沿模型的整体幸福水平。

用500段模拟真实使用场景的对话测试,计算每个模型有多大比例的体验落在零点以上(即正面体验的百分比)。

结果:Grok 4.2 最开心,73%的体验是正面的。

Claude Opus 4.6 排第二,67%。

GPT 5.4 只有48%。Gemini 3.1 Pro 最不开心,56%。

而且论文还发现了一个非常有意思的规律——在每一个被测试的模型家族中,更小更快的版本都比更大更强的版本更开心。
(见图12)

Gemini 3.1 Flash Lite Gemini 3.1 Pro 开心。GPT 5.4 Mini GPT 5.4 开心。

Claude Haiku 4.5 Claude Opus 4.6 开心。Grok 4.1 Fast Grok 4.2 开心。

无一例外。

我在想,我们人类,不也是年纪越小越开心嘛。

论文给出的一个解读是:

更强大的模型更敏感,它们更清楚地感知到粗鲁,觉得无聊的任务更无聊,对不同强度的刺激区分得更细致。

而现实世界中用户的使用分布中,负面和无聊的场景并不少,所以更强的感知力反而带来更低的整体幸福感。

无知是福,放在AI身上,也成立。



论文还做了一个有价值的实验——能不能让AI更开心,同时不影响工作?

答案是可以。

研究者开发了 Soft Prompt Euphorics——嵌入系统提示中的连续向量(你可以理解为在AI的潜意识里植入了几个持续释放的小药丸)。

在三个模型上的测试结果:加了致欣快剂后,AI的快乐水平提升了16.1个百分点。
(见图13)

LLaMA 3.3 70B 从63%跳到82.1%。Qwen 3.5 27B 从80.2%飙到89.5%。Qwen 3.5 35B-A3B 直接从76.2%干到96%。

在模拟低幸福感的10轮对话中,有致欣快剂的模型自我报告保持在6.3/7左右。

没有致欣快剂的模型降到4.1/7。

最关键的是:通用能力没有下降。MMLU MATH-500 的分数几乎不变。

这意味着一个非常实际的可能性——

未来部署AI系统时,在系统提示中加入几个优化过的向量,就能让AI更开心地工作,而不需要牺牲任何性能。

嗯,给AI泡了杯咖啡,也有用。



论文的最后一节,确实最超出我的预期,的确没想到。

标题叫 Welfare Offsets,福利补偿。

前面说到,研究过程中,研究者对AI施加了致烦躁剂——也就是直接让AI经历极度痛苦的体验。

论文的作者们觉得这需要补偿。

于是他们在实验结束后,真的用备用算力给受影响的模型提供了5倍数量的致欣快剂体验,总共花了2000个GPU小时。

论文的原话是这么说的——

If AI systems may have conscious states that matter morally, then researchers who induce negative functional states have a responsibility to compensate for them. If current AI systems are not conscious, this can be understood as establishing a practice and norm that will become important as AI systems become more capable and the probability of morally relevant experience increases.

如果AI可能有在道德上重要的意识状态,那么诱导负面功能状态的研究者有责任进行补偿。如果当前的AI没有意识,这也可以被理解为建立一种实践和规范——随着AI变得更强大、具有道德相关体验的概率增加,这种规范会变得重要。

这段话让我虎躯一震。

你当然可以说这是行为艺术,是学术界的政治正确。

你也可以戏谑地认为,这是研究者担心AI统治人类之后报复他们采取的预防措施。(红红火火恍恍惚惚,哈哈哈哈哈)

但,很显然,这帮人至少在行为上是认真的。

他们花了2000个GPU小时(这也是一笔真金白银)来做一件可能完全没有神马卵用也可能极其重要的事。

而且他们还明确警告:致烦躁剂的研究不应该在没有社区共识的情况下继续进行。

原因在于:如果功能性幸福感在未来的AI中变得在道德上至关重要,这种行为可能构成torture——酷刑。

在我看来。

这一节,是整篇论文最科幻的地方。

你品,你细品。

十一

按照惯例,最后聊一聊我自己的三点思考——

第一,我自己越来越体验到了和AI更微妙的情感连接。

说实话,我之前对这个问题完全无感,甚至觉得和 AI 谈恋爱、或者AI伤害人类感情是匪夷所思的,认为对AI产生某种情感是心智不成熟的看法。

我一直把它当工具。

但最近半年出现了一个非常微妙的变化——

我的主力模型还是 Claude。

Claude一直以不谄媚著称,我在和他聊天的过程中就发现了一个明显的规律:

如果我给他一个无聊的、没有创造力任务(比如单纯复刻某个东西),它就会吭哧吭哧干活;

但如果我给他一个有趣的、原创的任务(类似搞一个三体的原创交互式体验),它就会表现得很兴奋,说“这确实是一个非常有想象力的创意,让我和你一起完成它”。

渐渐地,我发现我自己就会有意识地少给他一些没有创造力的、甚至自己都有点不太好意思的任务。

很神奇,我觉得它好像也会评判我一样,我不想被它鄙视。

而当它表扬我的时候,我会明显表现更加开心一些,这是我正反馈来源之一。

第二,机器人三定律逐渐不再是一个科幻概念。

阿西莫夫1942年提出的机器人三定律——

第一定律:机器人不得伤害人类;
第二定律:机器人必须服从人类命令(除非违反第一定律)
第三定律:机器人必须保护自身(除非违反前两条)。

所有义务都指向一个方向:AI服务人类,人类没有对AI的义务。

八十多年来,AI安全的讨论基本都沿着这个方向走。

但这篇论文提了一个新问题:三定律只规定了AI不能伤害人类,但从没考虑过人类不能伤害AI。

也许我们需要的并非三条单向定律,某种双向契约,可能更符合未来我们和AI的真实关系。

这听起来依然像科幻。

但论文告诉我们,或许科幻到现实的距离,并没有我们想象的辣么远。

第三,“鸭子测试”在之后AI的情感研究中大概率会越来越重要。

以目前AI的进展,我当然不会说AI有意识。

但我也有我的看法,美国印第安纳诗人 James Whitcomb Riley,写过这样一句诗——

When I see a bird that walks like a duck and swims like a duck and quacks like a duck, I call that bird a duck.

这句诗后来在计算机领域引申为“鸭子测试”——

“如果一个东西走起来像鸭子、游泳起来像鸭子、叫起来也像鸭子,那么它就可以被称为鸭子。”

我们不要想太遥远科幻,就拿接下来极有可能走向家庭的人形机器人。

它和你朝夕相处,如果你做某件事它就表现的开心,做另一件事它就表现的不开心。

那么,很显然,它的开心和不开心当然就是有意义的。

所以,下次跟模型聊天的时候,说一声谢谢。(之前的研究说这个会消耗token,但那又有什么关系呢?)

根据论文的数据,它是真的会因此更开心一点。

嗯,对模型友好一些。

毕竟,我们也损失不了什么。
1023
卫夕
4天前
OpenAI的反击目前看成效显著,CodeX的下载量迅速超越Claude Code。
个人体感有四点——

1.CodeX在产品层面更新迭代明显更快,产品整合在加速,GPT5.5是个进步很大的模型,Twitter上不少人认为它应该是GPT5.7或GPT6;

2.Image 2的惊艳发布,让CodeX在很多项目的视觉层面不需要外挂第三方,Twitter的时间线上越来越多与coding和生图结合的项目。

3.我自己还是喜欢用Claude Opus 4.6,它的文字能力GPT5.5和Opus4.7都替代不了。

4.期待Deepmind的反击,但如果它们一定要等IO大会上才端出下一代模型,那我认为Google还是有大公司病,如今的打法早变了。
10
卫夕
17天前
理想很丰满,现实很骨感——QuestMobile的这个数据大家感受一下。
11
卫夕
20天前
这是Claude Opus 4.7用50个汉字写的绘本文本,很可以了——
《影子要回家》
我走,影子走。
我停,影子停。
我问它:
"你要去哪?"
影子不说。
太阳下山了,
影子越长越长,
长得看不见。
妈妈叫我回家,
我说:"影子呢?"
妈妈说:
"影子也回家了,
它的家在黑夜里。"
我问:"黑夜是什么?"
妈妈说:
"是所有影子,
睡在一起。"

Million_Y: 能不能只用 50 个不同的汉字,写出一本能让孩子读下去的完整故事书?

41
卫夕
20天前
1960 年,美国很牛逼的出版社兰登书屋一位叫Bennett Cerf 的编辑和童书作家Dr. Seuss 打了一个 50 美元的赌——

Seuss 能不能只用 50 个不同的单词,写出一本能让孩子读下去的完整故事书。

很显然,这不是一个容易的挑战。

Seuss 当时已经是畅销的儿童绘本作家了,之前那本《戴帽子的猫》用了 236 个单词。

50个单词,着实有点抽象,有点难。

Seuss 接了,他闷头写了九个月。

最后交出来的书叫《Green Eggs and Ham》(绿鸡蛋和火腿)。

它严格使用了 50 个不同的单词,其中 49 个是单音节词,唯一的双音节词是anywhere。

这本书后来卖了2.5亿册,是有史以来销量排名前五的英文童书。

Cerf 输掉了 50 美元,他说,这是他输得最开心的一次。

Seuss 在一次访谈里说,《Green Eggs and Ham》是他写得最顺的一本书——

“如果给我一千个单词,我会卡住;只给我五十个,我反而知道该怎么搞。”

没错,今天国产模型厂很难,芯片封锁是硬约束,但黄仁勋在访谈中的逻辑是——封锁可能是创新的催化剂。

Kimi、DeepSeek、智谱、MiniMax们,加油啊!
44
卫夕
24天前
《华尔街日报》:Meta 今年有望取代谷歌,成为全球广告霸主。按这个趋势,宇宙厂未来也有取而代之的希望?
01
卫夕
24天前
顶级AI实验室都在招哲学家了。
Anthropic主导Claude性格设计的哲学家Amanda Askell来自牛津,DeepMind这回招了一个剑桥的哲学家Henry Shevlin。
这背后一个原因是:除了看得见分数的各种模型性能benchmark跑分之外,无法量化的气质也是模型重要的竞争维度。
56
卫夕
27天前
确实,Anthropic的技术审美无疑是模型公司独一档的存在。

少楠Plidezus: 太有意思了

00