从Surge, Scale聊到我对数据行业的总体看法
Scale被Meta投资后,非常多人来咨询我对数据行业的看法。硅谷101在6.23这期视频中邀请我分析了几个关键问题,包括Alex为什么愿意加入Meta(感兴趣的朋友可以看看视频
b23.tv)。昨天西元
@西元Levy 又问我对Surge的看法,正好借此机会,我把大家最关心的几个问题系统整理一下,一并分享出来。
⚡️1. 关于数据行业,大家有两个常见的误解:
第一个误解是,AI行业不需要人工标注数据了。但实际上,即便在强化学习的时代,高质量的人类数据依然非常重要。过去几个月,国内自媒体有一大批唱衰Scale的言论,认为有了强化学习就不需要人工标注数据。但Surge的revenue直接用真金白银证明了这种说法是错误的。
第二个误解是,认为数据行业就是血汗工厂的人力密集型行业。但事实上它是一个很有技术含量的科技行业。Surge的CEO Edwin在访谈里提到了一些关键点:如何衡量数据质量,如何衡量工作质量,如何让平台高效运转,以及如何了解frontier model所需要的数据类型和格式。
⚡️2. 为什么数据标注依然是门好生意?
高质量的人工数据标注依然是一个极好的business,但竞争极其激烈。
首先,要在数据领域取得成功,公司必须以技术为核心导向。不管是Surge还是Scale,创始人都是MIT毕业的,员工也都是能够与大模型公司需求对话的人才。
其次,高质量数据的价格遵循非线性增长逻辑。高质量数据的价格可能不是普通数据的两倍,而是十倍、百倍的关系,很多人没有理解这一点。
第三,从公开信息可以看到,Meta同时使用了Surge和Scale,但在这种情况下,Meta还是选择对Scale进行大笔投资。这说明美国领先的模型公司非常重视人工标注的高质量数据,并不像自媒体圈狂欢时说的有了强化学习就不需要人工数据了。
第四,Edwin在talk中提到的许多要点——比如需要build的产品、API,需要与客户直接对话、快速响应数据需求——这些都是业内人士一直知道,但外界很少提及的practice。想做数据必须做最高质量的数据,这样才能赚到钱,而且能赚到非常多的钱,这一点其实跟大模型本身是一样的。
⚡️3. Surge和Scale的区别是什么?
首先,在谈区别之前,Surge和Scale是非常像的两家公司。都是MIT出身的技术背景创始人,团队都充满了MIT、哈佛、斯坦福的名校生。业务也都非常专注做数据,优先从产品技术角度去解决质量问题。创始人也都对人才质量有自己的理解和追求,Edwin在访谈中强调了高人效,Alex冒着政治不正确的风险提出不要DEI,要MEI (merit, excellence, and intelligence)。
那么,为什么Surge可以提供比Scale更高质量的数据?核心是因为数据需求在不停变化,Surge出现时正好赶上大模型浪潮,从第一天就专门针对大语言模型做优化。而Scale是从自动驾驶时期开始的,经历了从自动驾驶到电商分类,再到大模型,还包括国防部的各种项目等多次转向。
其次,Surge的处理能力其实是不够的,吃不下那么多订单。客观来说,现在整个行业对数据的需求太大了,以至于你能提供多少高质量的数据,模型公司就能吃下多少。即便Surge的处理量再翻十倍,行业还是能消化得下。
在Scale被Meta投资之后,Surge现在处于一个很好的位置,成为最大的第三方中立数据服务机构。但因为这个市场非常巨大,还在非常早期,变数会很多。Surge现在可能也想融资扩张。
Scale和行业内其他公司肯定也会继续有生意可以做。局面可能是这样:比如最优质的数据是100分,但实际上没有人能做到,Surge可能做到80分,Scale可能是75分。当80分的数据量不够时,并不是说行业就不需要75分的数据了。大家都在非常努力地想把数据再往前推进一点,而且这个标准随着大模型能力的提高在更加快速的的提高。
⚡️4. 谁能成为下一个(或XX领域的)Scale或Surge?
关于数据的话题,我还有一个观点要补充:最优秀的解决数据问题的团队,不是因为解决不了其他问题而退而求其次的团队,而是相信数据本身有价值的团队。
之前和不少国内VC交流,或者我了解的很多创业公司的做法,是想现在靠提供数据服务来养活自己,之后再做别的。我认为抱着这种想法的团队肯定做不好数据。