即刻App年轻人的同好社区
下载
App内打开
熊猫ai甘蔗
158关注1k被关注2夸夸
building printverse.ai,前scale ai高管
ex-AWS/Uber/Linkedin v: iyangcheng
熊猫ai甘蔗
6天前
特朗普竞选总统3次,每次都有7000万左右的人投他也有同样数量的人投了对手。
那么问题来了,投不投特朗普是共识还是非共识?
30
熊猫ai甘蔗
6天前
从Surge, Scale聊到我对数据行业的总体看法

Scale被Meta投资后,非常多人来咨询我对数据行业的看法。硅谷101在6.23这期视频中邀请我分析了几个关键问题,包括Alex为什么愿意加入Meta(感兴趣的朋友可以看看视频b23.tv)。昨天西元@西元Levy 又问我对Surge的看法,正好借此机会,我把大家最关心的几个问题系统整理一下,一并分享出来。

⚡️1. 关于数据行业,大家有两个常见的误解:

第一个误解是,AI行业不需要人工标注数据了。但实际上,即便在强化学习的时代,高质量的人类数据依然非常重要。过去几个月,国内自媒体有一大批唱衰Scale的言论,认为有了强化学习就不需要人工标注数据。但Surge的revenue直接用真金白银证明了这种说法是错误的。

第二个误解是,认为数据行业就是血汗工厂的人力密集型行业。但事实上它是一个很有技术含量的科技行业。Surge的CEO Edwin在访谈里提到了一些关键点:如何衡量数据质量,如何衡量工作质量,如何让平台高效运转,以及如何了解frontier model所需要的数据类型和格式。

⚡️2. 为什么数据标注依然是门好生意?

高质量的人工数据标注依然是一个极好的business,但竞争极其激烈。

首先,要在数据领域取得成功,公司必须以技术为核心导向。不管是Surge还是Scale,创始人都是MIT毕业的,员工也都是能够与大模型公司需求对话的人才。

其次,高质量数据的价格遵循非线性增长逻辑。高质量数据的价格可能不是普通数据的两倍,而是十倍、百倍的关系,很多人没有理解这一点。

第三,从公开信息可以看到,Meta同时使用了Surge和Scale,但在这种情况下,Meta还是选择对Scale进行大笔投资。这说明美国领先的模型公司非常重视人工标注的高质量数据,并不像自媒体圈狂欢时说的有了强化学习就不需要人工数据了。

第四,Edwin在talk中提到的许多要点——比如需要build的产品、API,需要与客户直接对话、快速响应数据需求——这些都是业内人士一直知道,但外界很少提及的practice。想做数据必须做最高质量的数据,这样才能赚到钱,而且能赚到非常多的钱,这一点其实跟大模型本身是一样的。

⚡️3. Surge和Scale的区别是什么?

首先,在谈区别之前,Surge和Scale是非常像的两家公司。都是MIT出身的技术背景创始人,团队都充满了MIT、哈佛、斯坦福的名校生。业务也都非常专注做数据,优先从产品技术角度去解决质量问题。创始人也都对人才质量有自己的理解和追求,Edwin在访谈中强调了高人效,Alex冒着政治不正确的风险提出不要DEI,要MEI (merit, excellence, and intelligence)。

那么,为什么Surge可以提供比Scale更高质量的数据?核心是因为数据需求在不停变化,Surge出现时正好赶上大模型浪潮,从第一天就专门针对大语言模型做优化。而Scale是从自动驾驶时期开始的,经历了从自动驾驶到电商分类,再到大模型,还包括国防部的各种项目等多次转向。

其次,Surge的处理能力其实是不够的,吃不下那么多订单。客观来说,现在整个行业对数据的需求太大了,以至于你能提供多少高质量的数据,模型公司就能吃下多少。即便Surge的处理量再翻十倍,行业还是能消化得下。

在Scale被Meta投资之后,Surge现在处于一个很好的位置,成为最大的第三方中立数据服务机构。但因为这个市场非常巨大,还在非常早期,变数会很多。Surge现在可能也想融资扩张。

Scale和行业内其他公司肯定也会继续有生意可以做。局面可能是这样:比如最优质的数据是100分,但实际上没有人能做到,Surge可能做到80分,Scale可能是75分。当80分的数据量不够时,并不是说行业就不需要75分的数据了。大家都在非常努力地想把数据再往前推进一点,而且这个标准随着大模型能力的提高在更加快速的的提高。

⚡️4. 谁能成为下一个(或XX领域的)Scale或Surge?

关于数据的话题,我还有一个观点要补充:最优秀的解决数据问题的团队,不是因为解决不了其他问题而退而求其次的团队,而是相信数据本身有价值的团队。

之前和不少国内VC交流,或者我了解的很多创业公司的做法,是想现在靠提供数据服务来养活自己,之后再做别的。我认为抱着这种想法的团队肯定做不好数据。
736
熊猫ai甘蔗
9天前
听跟随者谈“为什么做”的时候总有一种中学语文的阅读理解感。太多规整的逻辑分析,但基本都是正说反说不影响结论。 因为a存在,所以要做b和因为a不存在,所以要做b 并存
00
熊猫ai甘蔗
11天前
唱衰一家公司除了有理有据之外,还是要看看背后的团队。强有力的团队很大概率能找到破解对“注定失败”的论据的方法。
00
熊猫ai甘蔗
12天前
写在Figma上市日:被忽视的技术成功典型

几小时后,Figma将在纽交所上市,股票代号FIG。有必要说一说Figma的联合创始人Evan Wallace,他2021年离开Figma之前一直担任CTO。如果现在大家都说想找十倍工程师,我觉得Evan可以称之为百倍工程师,或者用另一个词——他是一个Transformative Engineer。他能把之前大家不敢想或者觉得不可能的事情,通过工程的方式变得可能。

Figma虽然被很多人认为是商业成功或产品成功,但它核心其实是非常典型的技术成功。正是基础技术构建让这个产品能够超越时代,做出基于Web的多人协同设计工具。

从Evan的blog中可以看到他当时在Figma做的一些事情。Figma是第一个真正大规模使用WebAssembly的app,当时这个技术刚刚出来,还没有人用它构建过大型软件。现在很多硅谷投资人都写过,Figma早期跟他们pitch时,几乎所有人都觉得浏览器的性能不可能做这么heavy的东西——在浏览器里做设计软件。

但Evan自己写了整个渲染引擎,用WebAssembly+WebGL技术实现。这个难度有多大呢?相当于一个人干了顶级大厂UI framework几百人的活。Figma还自己实现了字体编辑系统,支持所有语言,包括从右到左、从左到右的文字,而且必须让设计师满意,字体渲染精度要求非常高。在这个过程中,Evan甚至需要自己去修复浏览器的bug,包括Firefox、WebKit、Chrome。

同时因为Figma是协同软件,于是Evan又自己做了一套底层协同的网络协议。

当然还要提一嘴,离开Figma后,Evan还做了esbuild,让web开发的打包速度比之前提高了百倍,带动了用高性能语言重写web工具链的新浪潮。

现在AI工程和AI代码能力变得更强大了,但我不希望AI代码能力最后带来的只是多了一千倍的vibe coding的简单网页,而是希望有更多的人能够像Evan这样去做真正的技术突破,把之前大家认为不可能的东西变成可能。
2759
熊猫ai甘蔗
12天前
无穷不等于全面。比如整数集就是无穷大。有理数也是无穷大,0-1之间的无理数也是无穷的。

从个人吸收能力而言,中文高质量网络ai相关信息也可以认为无穷大。依然不全面
21
熊猫ai甘蔗
17天前
我觉得还是所谓的创投圈大佬们太短视了,把未成年人顶在前面不出来说说话。卖信息显然是不可持续的,流程看起来还不是opt-in。

Max_means_best: AdventureX前成员告诉你为什么要避雷AdventureX 写在最前面: 你好,我是Max,AdventureX 24前组织成员之一。 本文并非针对AdventureX 25的小伙伴们,里面也有我很多的朋友,甚至去年一起经历过连续熬夜加班的战友。 我曾以为,下面要说的人和事,会随着时间在我心里慢慢消弭。 因为把这些写出来,于我无益,甚至可能招致报复。 但过去两天发生的种种,让我觉得,必须有一个知情人站出来,把真相公之于众。 哪怕因此粉身碎骨,在所不惜。 我决定写这篇帖子的原因很简单: 今天刷到了我的朋友,也是我尊敬的前辈橘子老师的社交媒体帖子。(图1️⃣,截止发稿,这篇已经被疯狂举报删除了) 我觉得我需要站出来分享一下我所知道的真相。 我相信这两天大家已经有所耳闻关于R同学的争议。 1️⃣关于售卖选手信息 : 售卖选手信息,实际上在去年的AdventureX 24就已是常规操作。 这种行为在圈子里屡见不鲜,但AdventureX是我见过第一个,敢把“出卖用户隐私”这件事公开拿出来,甚至在采访里当作“商业化成果”洋洋自得地写进稿子里的组织。 这种对法律的蔑视和对参与者的背叛,令人不寒而栗。 2️⃣关于性骚扰 : 如果说公然违法暴露了其商业上的无良,那么R同学在个人品行上的表现,则彻底撕下了“青年领袖”的伪装。 我没有亲眼见过他的性骚扰行为,但在活动期间,一件事让我彻底看清了他的为人。 当时我们人手不足,一位核心成员便喊来了她的两个妹妹来帮忙。 结果一天晚上,R同学当着她其中一个妹妹(称呼为A)的面、在非私密场合,用极其轻浮的语气,公开谈论这位核心成员的个人情感生活。 其言论内容和方式,不仅是对当事人的极大不尊重,也让A和我感到非常不适。 (图2️⃣,该聊天记录已获得当事人许可) 此外,网络上流传的截图中所指控的内容,我亦从其他渠道有所耳闻(图3️⃣) 这些被曝光的过往,与他在AdventureX期间的行为如出一辙,都清晰地指向了一种惯性的、对他人尤其是女性缺乏基本尊重的行为模式。 一个人的行事风格是有迹可循的。 当多起独立的事件都指向同一种恶劣品行时,我们有理由相信,这并非偶然,而是其本性的真实暴露。 更有意思的是,当我指出“公开售卖选手信息是违法行为”时,他们新来的PR同学,竟然在即刻上公开质问我,是不是因为今年被踢出团队,才“恶意抹黑”(图4️⃣) 看到这些条评论,我只觉得可笑。 我就想说,你但凡花五分钟读读相关法律,都会明白自己和你的老板犯了什么事。 既然你不懂,那我就给你免费上一课。 你的问题至少有四条,我来给你捋一捋: 第一条:非法买卖、提供个人信息,涉嫌构成侵犯公民个人信息罪。 你们将包含大量选手简历、联系方式、教育背景等信息的“梦想家数据库”以数万块的价格出售给赞助商,这已经不是简单的民事侵权了。 根据《中华人民共和国个人信息保护法》第十条,任何组织和个人不得非法收集、使用、加工、传输他人个人信息,不得非法买卖、提供或者公开他人个人信息。 你们的行为,已经涉嫌“侵犯公民个人信息罪”。 第二条:未获取有效“单独同意”,处理敏感信息程序涉嫌违反《个人信息保护法》。 你们的数据库里包含了选手的简历、联系方式、社交媒体链接,这些都属于法律明确规定的“敏感个人信息”。根据《个保法》第二十八、二十九条,处理敏感个人信息必须取得个人的“单独同意”。 你们在报名表里用一行小字模糊授权,就心安理得地将这些信息打包售卖,这在法律上是完全无效的。 第三条:涉嫌非法跨境提供个人信息,无视国家数据安全。根据你们公开的“Affinity共创计划”,你们与包括境外组织/高校在内的合作方进行数据共享,将他们的申请者信息同步到“梦想家数据库”。 这构成了个人信息的跨境提供。 根据《个保法》第三章的规定,信息出境必须满足获取“单独同意”、通过国家网信部门安全评估等一系列严苛条件。请问,你们做到了哪一条? 第四条:涉嫌过度收集个人信息,处理目的与最初承诺完全不符。 选手们是出于对黑客松的信任和热情,才将个人信息交给你们。 他们同意的是“参赛”这一目的,而不是让自己的简历和梦想成为你们货架上明码标价的商品。 你们的行为,涉嫌违背了《个保法》第六条规定的“处理目的应明确、合理,并与处理目的直接相关”的原则。 我言尽于此。 但在这里,我希望AdventureX的组织者们,特别是R同学。 能站出来公开回应几件事: 第一,请公开账目。 今年和去年的活动到底拿到了多少赞助?这些钱具体花在了哪里?那去年活动超出的十多万预算,又是怎么多出来的?请拿出发票和明细,而不是用一句“均摊”来糊弄曾经为爱发电的伙伴。 第二,请解释你的傲慢。 是谁给你的勇气,如此独裁、如此武断地制定规则,并要求所有人无条件遵守?又是谁给你的权力,在选手稍有异议时,就立刻威胁取消其资格?一个本该开放、包容的社区,为何会变成你满足个人控制欲的“一言堂”?并且还觉得所以公开他人的隐私信息是你作为主办方的权力。 第三,请停止威胁。 当大家基于事实,正当地指出你们的问题时,为什么你们的第一反应不是反思和修正? 而是用“均以记录”、“均会进行处理”的语气进行恐吓?为什么要去联系在网上发帖的受害者,将他们的合理质疑定义为“无端抹黑”,并威胁要“追究责任”? 第四,请阐明你们的“公益”性质。 你们一直以“公益”、“非营利”的形象对外宣传,吸引了大量抱有理想主义的青年。那么,请问运营AdventureX的法律主体究竟是什么?它是否注册为民办非企业单位或非营利组织?如果不是,你们为何要用“公益”的外衣包装自己?出售“梦想家数据库”所得的款项,是进入了组织对公账户,还是创始人个人腰包?这笔钱的性质是捐赠、赞助还是商业收入? 第五,请公开数据库的买家清单。 你们将“梦想家数据库”的访问权限出售给赞助商。能否公开一份完整的、购买了此项服务的赞助商名单?你们是否与每一位买家都签署了符合《个人信息保护法》要求的、具有法律约束力的数据处理协议,明确限定了数据的使用范围和目的?你们又如何确保这些买家不会滥用甚至二次转卖这些宝贵的个人信息? 第六,请证明数据来源的合法性。 你们的“Affinity共创计划”从其他合作组织处汇集、吸收申请者信息。 请问,你们是否获得了每一位来自合作渠道的申请者的明确授权,允许你们将其个人信息转移至“梦想家数据库”并进行二次处理? 对于这些跨境、跨组织流转的数据,你们能否提供相应的、符合法律规定的授权证明? 最后,我想在此郑重声明:以上我所陈述的一切,皆为我亲身经历或有可靠信源的真实事件。 我对我说的每一个字负责,并愿意承担由此带来的一切法律责任。 并且我想反问AdventureX 25点的团队以及R同学本人:对于上文所提及的种种行为——从混乱的管理,到对合作伙伴的欺瞒,再到公然违法售卖个人信息你们,敢承担起你们应负的责任吗? 我曾是AdventureX 24的外联组成员并且第一次活动期间全程在杭州线下工作。 我们全程为爱发电,甚至我用自己的关系为活动拉来了Dify、Founder Park等多家合作/赞助商。 但是我现在和其他离开的成员们一样,不想再提起AdventureX了。 祝好。

00
熊猫ai甘蔗
21天前
前几天在X上刷到Modal创始人Erik Bernhardsson的一个推文,起初是回复工程师到底应不应该是多面型。Erik见过的最好的工程师既可以做内存分配这种非常系统级的工作,也可以做CSS这样的前端工作。

这与很多人的观点相反。很多人认为他们见过的人擅长一件事就不擅长另一件事。为什么会出现这个差别?这里涉及到统计学上一个叫做伯克森悖论(Berkson‘s Paradox )的现象。

具体到工作中,擅长A和擅长B应该是正相关的,但由于市场的薪酬分配机制:如果两个人在A技能上差不多,在B技能上差得比较远,那他们大概率不会在同一家公司。相同薪酬能招到的人,至少要么擅长A,要么擅长B,要么A和B都能做但都不是那么出色。因为既擅长A也擅长B的人不会加入普通公司,而既不擅长A也不擅长B的人也不会被录用。

所以在非顶尖公司中,通过市场筛选后,大家能看到的人往往只擅长一件事情,而不是两件事情都擅长。明明正相关的两件事,因为采样原因变成了负相关。

这种现象导致很多没有在行业最顶尖团队待过的人形成根深蒂固的认知偏差。大家会觉得擅长工程的人就做不好市场,或者技术好的人就做不好产品,做后端大牛就缺乏审美,设计师就没有逻辑。然而在整个人群中,这些素质反而是正相关的。
15
熊猫ai甘蔗
1月前
Meta的大手笔才是充分利用“大厂”优势。如果大而抠,那不是白“大”了
02