为什么大模型领域更稀缺的是文科生
01
目前,业界评判一个大模型“好不好”的主流方式,是让它运行各种评测基准(Benchmark)。无论是MMLU、HumanEval还是其他各种榜单,它们大多围绕数学、代码、逻辑推理和客观知识问答来设计题目。这些评测集追求的是客观、可量化、可重复,即使存在一些主观评测集,为了效率和成本,也常常采用更强大的模型(比如GPT-4)来进行自动化评估。
在这种评判体系下,当我们说一个模型“更强”时,实际上往往是在说它更擅长做数学题、写代码,或者掌握了更多可验证的客观知识。这就像我们用一套标准化的“智商测试”来衡量模型的“智力”。
但吊诡的地方在于,当你跳出科技互联网圈的自嗨,去看看普通人真正在用这些模型做什么、讨论什么的时候,画风就完全变了。还记得春节 R1 的刷屏吗?大家津津乐道的,很少是它解开了哪个 IMO 或 ACM 难题,反而是一些充满人情味儿的回答,一些抖得恰到好处的机灵,或者干脆就是能把天聊舒服了的那种感觉。说白了,用户在社交媒体上晒出来的,更多是模型的“有趣”和“懂我”,而不是它智商有多高。
这就很像一个悖论:我们用一套极其“理工科”的标准去锤炼和衡量一个目标是服务于形形色色人类的工具。我们希望它能写诗、能共情、能理解笑话里的潜台词,但我们的考试卷上却主要是数理化。结果就是,我们可能在无意中,把模型往一个“高智商低情商”的纯粹工具方向上推。
02
为什么会这样?我觉得根子可能还是在于这个领域目前的话语权结构。大模型这波浪潮,冲在最前面的、定义游戏规则的,主要是算法工程师和科研人员。他们的思维范式天然就倾向于可量化、可验证、逻辑清晰的东西。这在技术攻坚阶段当然是核心优势。但当技术开始需要面对真实世界里那些模糊的、感性的、充满文化差异的需求时,这种单一视角就可能变成一种局限。就像你让一群最顶尖的结构工程师去设计一座歌剧院,他们能保证它绝对安全、结构优化到极致,但未必能保证它的声学效果和艺术美感同样顶级,因为那需要不同的知识体系和感受力。
那么,模型要变得更“好用”、更“像人”,光靠算法和算力这两把刷子,是不是就够了?看起来未必。模型的进化,很大程度上也依赖于喂给它的“精神食粮”——也就是训练数据。而高质量的数据,绝不仅仅是事实正确那么简单。它需要包含语言的韵味、情感的层次、文化的背景、审美的取向。
这些东西,恰恰是“文科生”(学文学、历史、哲学、艺术、社会学等等的)们日常浸淫和研究的对象。他们对语言的细微差别更敏感,对人类情感的复杂光谱更有体察,对不同文化语境下的“雷区”和“G点”更有意识。让他们来参与定义“好内容”、筛选和标注体现人类智慧与情感的数据,甚至设计更符合人类交流习惯的交互方式,可能比单纯依赖工程师的理解要靠谱得多。
所以,现在说大模型领域缺“文科生”,可能不只是一种黑色幽默,或者某种“政治正确”的呼吁。而是真的指出了这一技术在走向成熟、走向更广泛应用时,一个亟待弥补的结构性短板。我们投入了巨大的资源去提升模型的“左脑”(逻辑、计算能力),现在可能需要同样,甚至更多地关注如何健全它的“右脑”(情感、直觉、创造力、同理心),以及如何让这两个“半脑”更好地协同工作。
这当然不容易。感性的东西很难量化,人文的价值很难在短期内直接换算成利润。但如果我们想要创造的,不只是一个更强大的信息处理工具,而是一个能真正融入人类社会、提升我们生活品质的 AI,那么,让那些研究“人”是怎么回事的智慧,更深度地参与到塑造模型的过程中来,恐怕就是无法回避的下一步了。
03
那么,我们需要什么样的“文科生”?
在我看来,一个理想的文科生至少需要具备几种关键特质:首先,这个人得有独立的审美和判断力。对什么样的语言是好的、什么样的内容是有价值、有吸引力的,得有自己的一套成熟的见解和标准。这不仅仅是抽象的“品味”,更是对语言文字、叙事逻辑、情感表达、文化内涵的深度理解。但光有判断力还不够,他/她还需要懂得如何与模型有效沟通,能将这种近乎直觉的判断,转化成大模型能够理解和执行的指令,也就是现在常说的提示工程(Prompt Engineering)的能力。这就像一个优秀的导演,既要有艺术眼光,知道想要什么样的画面和表演,也要懂得用演员能明白的语言去指导他们实现。
其次,需要具备对文字高度的敏感度和辨识力。能够敏锐地捕捉到不同模型、甚至同一模型微小迭代下,其输出在风格、语气、价值观乃至微妙“个性”上的差异。这种敏感度使得他们能快速摸清一个模型的表达习性及其能力的边界,有效地识别出哪些是值得学习和发扬的“闪光点”,哪些又是需要修正或规避的“坏毛病”。这有点像经验丰富的调音师,能听出乐器最细微的音准偏差和音色瑕疵。
更进一步,理想的人选还需要具备对模型宏观理想态的定义和拆解目标的能力。也就是说,能够清晰地构想并描绘出,我们期望模型最终呈现出的理想“人格状态”或“对话风格”应该是怎样的。这涉及到定义模型的“性格”基调、需要遵循的“价值观”原则,或是要模仿的特定“风格”。并且,更关键的是,要能将这些相对宏观和抽象的目标,拆解成在模型训练、微调或评估时可以操作、可以衡量的具体特征和规则。这无异于为模型精心设计“人设”,并规划出达到这个人设所需遵循的路径图。
04
被低估的护城河:高质量数据及其生产体系
最后抛出一个个人的暴论:在当前大模型的激烈竞争中,对于大多数并非处在绝对领先地位的公司而言,将核心资源过度倾斜于追赶算法本身的迭代,其长远战略价值可能不如深耕“数据”本身。
这听起来似乎有些反直觉,毕竟算法是驱动引擎。但现实情况是,顶尖或接近顶尖的模型架构,往往会因为开源、技术扩散等原因,逐渐演变为某种程度上的公共基础设施。你可以看到,强大的底座模型会不断涌现,供行业选用。然而,开源的通常只是模型架构,真正能体现差异化、决定模型实际表现“血肉”的——那些高质量、有特色、经过精细加工和标注的数据集——往往是各家机构最核心的、从来不会开源的资产。
这意味着什么?如果你无法确保自身算法始终保持在世界第一梯队,那么随着时间的推移,你大概率会(无论是主动选择还是被动接受)基于某个强大的开源模型来构建你的应用。在这种场景)下,即使你在算法层面投入巨大精力进行优化,可能几个月后,随着基础模型的又一次重大迭代,你之前的努力很容易就被“代差”所覆盖,难以积累起可持续的竞争优势。这就像在一条飞速奔跑的传送带上做雕刻,你的技艺再精湛,传送带本身的前进也可能让你的作品很快显得过时。
相比之下,高质量、有特色的数据集,以及——这一点可能更为重要——一套能够持续生产、迭代和管理这种数据的成熟体系、方法论和专业团队(这正是前面提到的“理想文科生”可以发挥巨大价值的地方),才是真正能够沉淀下来、穿越模型迭代周期的核心资产。无论底层的模型架构如何演变,优质的“燃料”以及高效“提炼燃料”的能力,其价值是恒定的。
因此,数据工作的价值,尤其是在定义“什么样的数据是好的”以及如何系统性地获取这些数据方面,可能被远远低估了。它不仅仅是基础性的“标注”工作,更是一种结合了领域知识、人文理解和战略眼光的系统工程。或许,在大模型时代,对很多参与者而言,真正的护城河并非来自算法上的微小领先,而更多地源于你所拥有的、独特的、高质量的数据资产,以及你创造这些资产的独特能力。