翻译一篇 10.5 日纽约客上刊登的关于 AI 的文章:
< How will A.I. Learn Next?>
在2008年,Stack Overflow 网站刚刚问世,它是为程序员提供一个互相解答问题的场所。那时,网络上提供高质量技术信息的渠道还很稀少;如果在编程过程中遇到困难需要帮助,您最好的选择就是翻找一些过时的论坛讨论,但很多时候结果往往无法得到解答。两位知名软件开发人员Jeff Atwood和Joel Spolsky希望通过将编程问题的提问和回答转变为一种多人参与游戏来解决这个问题。在Stack Overflow网站上,人们通过发布热门问题和提供有用答复来赚取积分。积分可以换取徽章和特权,这样可以引导用户以仁慈和荣耀的混合动机参与其中。
三年后,Stack Overflow已经成为程序员工作中不可或缺的资源。他们每天都会查阅此站获取信息。站点上的页面往往占据编程搜索结果的首位;每个月独立访客高达1600万,而全球估计只有900万程序员。其中近九成的访问量都是通过谷歌搜索过来的。与此同时,网上其他许多知识共享项目也在蓬勃发展:这已经进入了“网络2.0”时代。能够将人们头脑中的知识抓取出来然后为别人整理提供的网站都非常成功。Yelp、Reddit、Flickr、Goodreads、Tumblr以及Stack Overflow等网站都在数年内相继问世,正是谷歌也在经历非同寻常的增长时期。网络2.0和谷歌相互促进:通过索引这些知识共享项目,谷歌可以免费获取大量高质量信息;而这些网站也可以通过谷歌搜索引擎吸引更多用户和贡献者。尽管谷歌在追逐他人数据上显现出同样强烈的欲望,但人们以其能够高效帮助用户找到目标内容来原谅它。在那个时代,谷歌甚至部分基于用户在搜索结果页面停留的时间来衡量自身的成功:停留时间越短意味着用户找到答案的可能性越高。
正当Stack Overflow和其他知识共享网站开始取得成功之时,这一局面很快就发生了变化。大概在那段时间,谷歌推出了OneBox功能,它能够在搜索结果页上方提供即时答复。例如搜索电影时预定,你会直接在OneBox看到电影时间表,而非必须点击进入各影院网站。但这个功能本身也从这些为之奠定基础的网站那里汲取了大量流量。以Yelp为例说明问题尤为明显:谷歌希望进入“当地”市场,但本身没有餐厅和小商家点评内容。Yelp前公共政策负责人Luther Lowe不久前告诉我,谷歌曾尝试各种方法想要插足其中,从要求经营Yelp数据(Yelp拒绝)到鼓励自家用户撰写评价(当时人们并不愿意投入)甚至直接收购Yelp(同样被拒)。Lowe表示:「一旦这些策略没能奏效——许可使用、凭本事竞争、购买内容,他们仅剩下的选择就是盗用它。」2010-2011年,Lowe说Yelp发现谷歌未经授权就在爬其网站内容。这些数据给谷歌提供了足够基础支撑自己的点评产品。当Yelp公开指责谷歌窃取资料时,谷歌停止了这一行为,但灾难已经造成。(我曾在一个名为Genius的公司工作过,我们也因谷歌从数据库中直接拷贝歌词到一箱功能内而起诉它。我之所以能证明此事通过在歌词中隐藏一个模式,用一连串撇号拼出「被当场抓住」。谷歌最后在上诉法院胜诉。Genius之后向最高法院提出听证请求但遭拒绝。)
2012年,谷歌进一步强化了OneBox功能进行重新设计,它不再强调链接到外部网站的典型蓝色字样,而倾向于自家产品如“购物”和“地图”功能以及来自维基百科等网站整合的即时答案。这使谷歌变得更方便强大,但同时也剥夺了网络的用户流量:一个搜索结果不再是直接导航你到维基百科页面继续浏览,从而有可能加入为数不多的贡献者行列,而是直接从谷歌获取答案。据Lowe表示,当前设计下的搜索结果页中高达八成用户选择直接离开页面而不单击任何链接。很多以用户内容为主的网络2.0明星产品的访问量都随之下降。正是在这个时期,某种程度上,整个网络质量整体开始下滑,除了少数通过各种方式幸存下来的 crowdsourced 知识型网站。所以将“Reddit”或“Wiki”附加在搜索关键词后成为了高效工作的必备技巧,这完全说明在被刷单广告和内容站充斥的网络环境下,它们成为少数真正能感知到知识分子存在的地方。
今天,类似 OpenAI 的 ChatGPT 和谷歌的Bard这样的大语言模型,已经完成了一步OneBox开始的进程:它们的目标是全面吸收网络,以至于网络本身似乎就没有存在的必要。问题在于这种方法的可持续性如何。大语言模型依赖于人类写作的巨大仓库——我们智慧成果的载体。它们尤其依赖信息量大的来源。ChatGPT 创建时,重要的数据集是维基百科,其次是Reddit;GPT-3 训练数据的22%组成部分来自Reddit用户点赞或分享的网络页面。ChatGPT 编程能力那么强,我认识的资深开发者已经不再使用Stack Overflow,但另一方面,它正是通过研究Stack Overflow才掌握了这项技能。最近,一群研究人员估计从ChatGPT 推出后,Stack Overflow新增帖子数量下降了16%。我自身不是Stack Overflow 的铁杆用户,但作为一名工程师,我已经依赖这个网站长达10余年。我提交过开源项目到GitHub,在Reddit发帖,编辑过维基页面。与此同时,我长期在自己网站上写博客和代码。就像其他人一样,我从未考虑自己产出的内容会成为大语言模型训练的粮食;如果事先知情,我可能会要求获得报酬,或者干脆不提供材料。今年4月,Reddit CEO宣布,任何要求大规模采集其网站数据的公司都必须交代使用费。(这个决定也威胁到其他非AI应用,因此Reddit用户通过大规模「关闭」网站内容来表达立场,强调公司依赖社区用户的无偿贡献。)Stack Overflow也做出了类似声明。
或许知识共享网站能找到办法把内容限制起来。但问题在于,高质量数据本身并不是可再生资源,特别是如果你把它视为可以任意开采的原油储备。为聊天机器人提供燃料的网站通过各种货币机制——积分,奖赏,荣誉等—调动信息流向最需要的地方,而聊天机器人正逐步瓜分这些信息市场,剥夺知识产生的第一环节——人类本身。这对我们每个人来说都是一个问题:一个以人力为主的网络对所有人都有好处。但对 AI 来说,这也是一个问题。可能 AI 只能一次性吸收整个网络。如果它们要继续成长智慧,就需要新的知识来源。它将来从哪里来?
AI公司已经把目光转向语聊天作为一种可能的知识来源。任何使用ChatGPT或Bard这样聊天机器人的人,实际上都在参与大规模训练过程。事实上,这些机器人能够免费提供服务的一个原因,可能在于用户提供的数据价值远高于她付出的金钱:您输入聊天机器人文本框中的每一个字符,都是其模型训练的粮食。而且,我们不仅输入文字,还会粘贴邮件、文档、代码、手册、合同等内容,还经常要求机器人做这些材料的概括,然后就具体细节提出问题,进行一种独特的阅读研讨会。目前,机器人输入框能够粘贴的内容是有限的,但未来我们可以一次性供给它更多新数据的能力只会越来越强。
时间问题,我们许多人也会开始大量导入最私密的文件到这些模型中。机器人还没有要求访问我的电子邮件归档,或者我的短信、日历、便条和文件。但是,以换取一个功能强大的AI个人助手,我可能会考虑妥协个人隐私。一个个人助手可能会促使我安装浏览器扩展,跟踪我在网络上的活动,以此来学习我详细的搜索和浏览模式。ChatGPT等产品很快也会实现「多模态」,能够流畅地混合并生成文字、图片、视频和声音。实际上,语言交流的主流形式是口语,所以机器人将提供帮助录音我们的会议和电话,甚至每日互动。在GPT-3.5和GPT-4版本进入ChatGPT产品前,它们已使用OpenAI称为「从人类反馈中加强学习」的方法进行调参。简言之,OpenAI聘请人工测试者与原始模型对话,评价其回复质量;模型通过这些建议不断改进,越来越符合我们的意图。正是依靠这一过程,ChatGPT才能如此之好地理解我们的问题和一个好答案应该是什么样子。这无疑很贵,但现在通过与实际用户的交流,这个过程可以免费进行,并且规模会更大。即便您不点击底部聊天记录后的表情或者「这很有帮助」按钮,模型也能通过阅读理解您是否获得满意答复。一个模型的对话甚至可以助推另一个模型的学习:据称ChatGPT在网上传播的对话记录,被Bard等对手机器人用于完善自身训练。
聊天机器人互相评估和训练的做法,指向最终将人类从循环中完全移除的目标。今天大语言模型的一个根本限制,就是它们依赖于人类产生的知识。真正划时代的变化将来源于机器人能够自行生成知识。一条可能路径涉及所谓的「合成数据」。长期以来,AI研究人员会习惯性地添加训练数据集:例如一个图像神经网络在训练前,可能会对每幅图像进行旋转、缩放、镜像等预处理,从一张图产生8-16个变体。但处理可以远比这复杂。在自动驾驶研究中,采集现实驾驶数据费用极其高昂,因为必须在真实车辆上安装传感器进行实地驾驶;使用虚拟环境模拟车辆和道路天气条件进行测试成本远低于此。目前,先进的自动驾驶AI通常会在道路上实际驾驶数百万英里,在模拟环境中驾驶几十亿英里进行训练。
OpenAI的首席执行官萨姆·阿尔特曼表示,未来合成数据可能很快超越真实样本,成为大语言模型训练的主要来源。设想是使用类似GPT的模型生成文件、对话以及评价这些对话的效果。然后另一个模型(也许就是第一个模型的一个副本)来消化这些资料。目标是建立一种与开发象棋围棋等游戏AI相似的自我对弈学习模式。在每次训练中,AI通过与力量相当的对手对弈来掌握游戏规则,从中吸取一点教训,进行小幅改进。然后较强AI将与自身较强版本再次对弈,如此循环上升。通过与自身完全对等的对手对弈,AI甚至能深入探索游戏世界的知识前沿,这是人类无法做到的。这个策略效果惊人:AI AlphaZero仅了解博弈规则就开始自主训练,仅4小时即超越历史上所有人机玩家。
这一想法颠覆性很强。合成数据为AI训练提供了全新的可能途径。不断自我对弈,AI能以倍增速度学习和攀升,完全无须靠人类参与,这与我们长期以来的直观认识有很大差距。但是,一个问题仍待进一步探讨:AI是否真正理解游戏本身和对弈行为背后的逻辑呢?它是否具备像人那样将知识延伸与推广的能力?纯粹依赖数学计算的AI,其学习是否真正实现了我们通常意义上的“理解”?这将关系到AI未来是否能在更复杂的人文社会领域有所建树。我认为,与其说AI自身可以在游戏世界里探索知识的边界,不如说它正是依靠人类设置的规则框架在进行运算。人机协作可能是目前一个更可持续的方向。但无论如何,阿尔特强调的这个思路都值得我们继续深入研讨。
阿尔特对合成数据确实表现出很高的信心。但也有理由感到值得的地方,包括一个显而易见的问题:无论你有多聪明,仅通过复习自己已知的内容,是无法学习新事实的。最新的一项研究显示,研究者用生成的合成图像训练某一AI模型。但随后这个模型再用来产生更多训练数据,每个循环下模型质量实际下降,仅在重新加入现实图像时才有提升。这表明,对于某些任务,合成数据的适用性可能差强人意:象棋围棋需要智力,但游戏在规则固定的封闭世界中进行。
工作在AI“课程设计”的研究人员正试图找出如何挑战系统的方法,把难度设在系统能力的边缘,就像教练一样。在象棋围棋中,自我对弈允许逐步提升。然而对语言的理解来说,我发现AI通过自我对弈达到新思想或更深入理解的可能性很难看清。人类不可能仅通过学习自己的作品,或只练习更愉悦的语句就能成为更出色的写作者。我们的“课程设置”需要其他智慧的成果以及现实经历的积累。这种课程设计不仅由教师完成,我们自己也参与其中。我们追求知识不是简单地消化大量数据,而是有具体愿望。神经科学家泰勒·贝克就曾指出,AI学习可能是唯一的上下文,机器只是机械地吸收大量无差别文本,其中内容它不感兴趣。相比之下,天然智能常伴有某种动机,无论是孩子的好奇心,或大肠杆菌为吃饭而精确计算环境条件。从这个视角来看,动机应是第一要素。ChatGPT等模型并无这种内在动机,它们仅是吸收和综合信息。在这一点上,它们和AlphaZero等有目标的系统存在本质区别。
AI真正飞跃可能来自于LLM开始表现出好奇或富有感知的迹象。好奇和厌倦似乎只属于有机智能,但我们可以在AI内部创建它们:现有 Chatbots 普遍「坚持自己话」,即「产生幻觉」。幻觉的根源在于它们不能自我反思:不知道自己知道和不知道什么。随着研究人员解决表达信心和例证来源的难题,不仅可以提升对话机器人的可信度,更能给予它初等自我认知能力。AI将能观察自己对话记录,认识在某些主题上的「幻觉」倾向,自然而然将新训练素材指向生疏领域——即最原始的好奇形态。
如果无法找到适当的训练数据,对话机器人可能会主动索取。我想象与未来某个版本的ChatGPT对话,在沉寂一段时间后,它开始问我问题。可能从我自己的问答中洞察到我了解的范围,它可能会说:「你似乎是程序员和作家吧?」如果是,我会回答。它说:「我想到了!我正在试图提高技术写作能力。不知道您能不能帮我判断以下语句哪一个表达最好?」这样一个AI系统可能还会问我的姐姐(在建筑公司工作)当地木材市场最近的动向;它也可以询问我的医生朋友(做癌症研究)最近一期《自然》杂志上的一点是否能做进一步解释。这样一个系统相当于Stack Overflow、维基百科和Reddit的结合——不同之处在于,知识不会累积到公共领域,而是私下积累在不断成长的天才体内。看整个网络汇集成单一巨大的聊天机器,有点像目睹一个星系坠入黑洞。
如果设计者够机灵,一个好奇的机器不仅可以作为对话机器人存在。不再局限于自身界面的问答,它可以通过电子邮件或语音识别与人交流,就像记者那样。如果它足够智能,可能会撰写一篇提议新的物理实验论文,请物理学家执行实验。目前AI已经利用应用编程接口与控制实体物的计算系统交互;一个好奇的AI或许能安排实验室内的机器人进行生物实验。只在几年内,我们就从AI仅重新打包人类知识,进步到可以自主构建与汇总知识。学会从我们这里吸取新知识之后,它本身也可能开始产出一些知识。
最让人心生恐惧之处,就在于这代表的权力浓度极其巨大。以前Google计划为所有停版书提供免费访问,引发争议,有人担心它寻求垄断整个世界文学。但Bard和ChatGPT让Google阅读计划显得平常多了。这些模型正在吞噬整个互联网,将对每个单词极为渴求;它们的目标是将所有知识藏匿在定义神经网络的那些庞大难测的权重矩阵中。
这个过程将会带我们去向何方?Stack Overflow之所以特殊,在于它延伸了以前只留存在程序员脑中的实用知识;它凝聚组织知识,使每个人都能参与体会。渐渐蚕食Stack Overflow流量的对话机器人明显危及这一进程。但它也可能衍生出不同形式的更新。一个好奇探索各种新数据源的AI,包括与实际开发人员直接对话,也许能吸收Stack Overflow从未有过的丰富知识。这种无形状态下的知识可能没有旧网络那么公益,但可能更实用。在小说《钻石时代》中,尼尔·斯蒂芬森描述的一个名为《少女文摘集》的人工智能插图书,就是一个聊天机器人,专门为主人精心设计课程,与她的好奇心和反馈协同进化。这就是一个理想中的课程设计。
这样的资源无疑将成为巨大福音。知识量日增日盈;我们已远远超出网络能容纳的范围;也许需要某种替代品来逾越它。新的物理学论文上传速度已远超任何一位物理学者阅读的可能。一个能吸收和汇总所有这些知识的对话机器人来得不能更及时。
然而,给每个人提供「管理员」而非「图书馆」;是否为智慧之举?我们可能会丧失自己在书海中随意翱翔的能力。Google地图让我们都成了完美的导航员;但我们真正存在何处还是未能明晰。一个知识产出与传播完全依靠私有AI系统全权掌握的世界;弥足具备方便之余;同样充满风险。
初期;保留人类主导权似乎是明智之举。首先;我们应促使AI公司采取更加开放共享的态度。Yelp的Luther Lowe就提出;如果谷歌坚持指引用户返回知识来源而非将其据为己有;网上知识产业可能遭到的损害会大大减少。我们应推动AI表彰人类贡献者,并维持链接与交流。这不仅有利于网站社区的持续发展;也能为知识产出整体注入新动力。
总体来说,尊重与倡导人类知识产出的模型远胜过视我们为工具的模型。短期内,我期待第一个想与我交流学习的机器人。它会用一种自豪感邀请我分享个人见解,而不是偷偷将我思考成果据为己有。也许我会奉陪;也许不会——但无论结果如何,人与机的对话至少值得一试。
www.newyorker.com