即刻App年轻人的同好社区
下载
App内打开
甜菜欣欣
119关注625被关注0夸夸
硅谷AI创业者,前谷歌工程师,哥大本科💙
CVPRw最佳论文,全网20万订阅。
英文推特: tiancaixinxin
置顶
甜菜欣欣
4月前
我们发布了世界上第一个【对Objaverse 3D模型进行质量评分】的数据集,已经有两百多下载啦!它包含了10000件人工标注的物体,和我们训练的AI来标注的五十万个物体。
Objaverse++论文已发表在计算机视觉会议CVPR workshop,实验证明了使用筛选出的高质量的数据,能训练出比原数据集更好的3D生成模型。

这个数据集有什么用?
无论你是科研人员还是中小企业,如果你想用AI生成3D模型,现有的开源数据集质量参差不齐。即使目前蕞大的Objaverse,里头很多扫描入库的模型并不适合生成鲜艳的表面纹理和清晰的拓扑结构。你可以使用我们的额外数据标注,筛选出Objaverse里质量较高的部分,用更少的算力训练出更好的AI。

如何下载这个数据集?
GitHub @ TCXX

请大家多多支持,分享给可能需要的朋友们~
63
甜菜欣欣
1天前
谷歌论文引用过100,野生的小水怪炼成~
谢谢大佬们带飞。从辅助到一作再到老板作,数字背后是成长
00
甜菜欣欣
4天前
进入产品迭代期,最爽的一点就是及时的正反馈:
1️⃣ 给首页改个UI,第二天开始注册用户提升30%。
2️⃣ 新增一种支付方式,用户咔咔咔用新方式付费。
3️⃣ 上线新的ai模型,留存提升两个百分点。
像是在玩一个大型模拟经营游戏,太上瘾了~
20
甜菜欣欣
7天前

熊猫ai甘蔗: 从Surge, Scale聊到我对数据行业的总体看法 Scale被Meta投资后,非常多人来咨询我对数据行业的看法。硅谷101在6.23这期视频中邀请我分析了几个关键问题,包括Alex为什么愿意加入Meta(感兴趣的朋友可以看看视频https://b23.tv/j4oAuYu)。昨天西元@西元Levy 又问我对Surge的看法,正好借此机会,我把大家最关心的几个问题系统整理一下,一并分享出来。 ⚡️1. 关于数据行业,大家有两个常见的误解: 第一个误解是,AI行业不需要人工标注数据了。但实际上,即便在强化学习的时代,高质量的人类数据依然非常重要。过去几个月,国内自媒体有一大批唱衰Scale的言论,认为有了强化学习就不需要人工标注数据。但Surge的revenue直接用真金白银证明了这种说法是错误的。 第二个误解是,认为数据行业就是血汗工厂的人力密集型行业。但事实上它是一个很有技术含量的科技行业。Surge的CEO Edwin在访谈里提到了一些关键点:如何衡量数据质量,如何衡量工作质量,如何让平台高效运转,以及如何了解frontier model所需要的数据类型和格式。 ⚡️2. 为什么数据标注依然是门好生意? 高质量的人工数据标注依然是一个极好的business,但竞争极其激烈。 首先,要在数据领域取得成功,公司必须以技术为核心导向。不管是Surge还是Scale,创始人都是MIT毕业的,员工也都是能够与大模型公司需求对话的人才。 其次,高质量数据的价格遵循非线性增长逻辑。高质量数据的价格可能不是普通数据的两倍,而是十倍、百倍的关系,很多人没有理解这一点。 第三,从公开信息可以看到,Meta同时使用了Surge和Scale,但在这种情况下,Meta还是选择对Scale进行大笔投资。这说明美国领先的模型公司非常重视人工标注的高质量数据,并不像自媒体圈狂欢时说的有了强化学习就不需要人工数据了。 第四,Edwin在talk中提到的许多要点——比如需要build的产品、API,需要与客户直接对话、快速响应数据需求——这些都是业内人士一直知道,但外界很少提及的practice。想做数据必须做最高质量的数据,这样才能赚到钱,而且能赚到非常多的钱,这一点其实跟大模型本身是一样的。 ⚡️3. Surge和Scale的区别是什么? 首先,在谈区别之前,Surge和Scale是非常像的两家公司。都是MIT出身的技术背景创始人,团队都充满了MIT、哈佛、斯坦福的名校生。业务也都非常专注做数据,优先从产品技术角度去解决质量问题。创始人也都对人才质量有自己的理解和追求,Edwin在访谈中强调了高人效,Alex冒着政治不正确的风险提出不要DEI,要MEI (merit, excellence, and intelligence)。 那么,为什么Surge可以提供比Scale更高质量的数据?核心是因为数据需求在不停变化,Surge出现时正好赶上大模型浪潮,从第一天就专门针对大语言模型做优化。而Scale是从自动驾驶时期开始的,经历了从自动驾驶到电商分类,再到大模型,还包括国防部的各种项目等多次转向。 其次,Surge的处理能力其实是不够的,吃不下那么多订单。客观来说,现在整个行业对数据的需求太大了,以至于你能提供多少高质量的数据,模型公司就能吃下多少。即便Surge的处理量再翻十倍,行业还是能消化得下。 在Scale被Meta投资之后,Surge现在处于一个很好的位置,成为最大的第三方中立数据服务机构。但因为这个市场非常巨大,还在非常早期,变数会很多。Surge现在可能也想融资扩张。 Scale和行业内其他公司肯定也会继续有生意可以做。局面可能是这样:比如最优质的数据是100分,但实际上没有人能做到,Surge可能做到80分,Scale可能是75分。当80分的数据量不够时,并不是说行业就不需要75分的数据了。大家都在非常努力地想把数据再往前推进一点,而且这个标准随着大模型能力的提高在更加快速的的提高。 ⚡️4. 谁能成为下一个(或XX领域的)Scale或Surge? 关于数据的话题,我还有一个观点要补充:最优秀的解决数据问题的团队,不是因为解决不了其他问题而退而求其次的团队,而是相信数据本身有价值的团队。 之前和不少国内VC交流,或者我了解的很多创业公司的做法,是想现在靠提供数据服务来养活自己,之后再做别的。我认为抱着这种想法的团队肯定做不好数据。

00
甜菜欣欣
17天前
一早就收到用户邮件询问,网页版的某个功能为什么没手机版。
自从用ai一个月上线以后,完全没想到会有人付费。。理想情况下,应该优先完善手机版。但我手机端开发水平几乎为0,所以都是用网页版把前后端测通,再把网页前端的代码移植到手机端。
我现在水平也长进了,能debug出ai也不会的bug了,真是欣出于ai而胜于ai啊!
20
甜菜欣欣
18天前
我的假说是,如果你整个数据集都是基于特定的知识,比如说一些专业的医学或法律术语,并且彼此是统一的,那么就相当于把这些知识以优于RAG的稳定度植入了模型

提示词爱好者: 其中的逻辑maybe是: 训练量/数据量 > 阈值 触发 拟合 导致 学会 名字=你 整个过程是不可控的 但是能解决某些特定场景的需求maybe

00
甜菜欣欣
18天前
过去三个月我的资本利得是(如果还在大厂当程序员)劳动利得的两倍多。。
但我一周还是工作六七天,基本都在写代码😵‍💫
00
甜菜欣欣
29天前
已布局谷歌,英伟达,Meta,Anthropic,xai
30
甜菜欣欣
1月前
LLM训练的有趣观察:知识注入和小语种💡
Posttrain阶段注入新知识是可行的。我发现这个现象非常偶然,在我做数据集的时候,有好几次AI问我叫什么我都回答同一个名字,结果训练出来的AI就会默认所有用户都叫这个名字。
就是注入效率可能有点低下。一个知识在pre-train阶段注入的话, 会很有效地改变生成概率的分布。 但是如果是finetune的话,相当于你需要把关于这一个知识的各种可能的问法都做一遍问答数据。
接下来我想实验在人类偏好对齐的阶段能不能注入新的知识,效率怎么样。

还有就是不同语言之间的训练助力,之前听说过但这次亲身体验。当我们去训练LLM在某一个语种的能力,跟它比较相近的小语种的能力也会得到提升,这时如果我们想训练邻近的小语种, 只要配比比较少的数据去激活就可以了。
我们的产品,我没料到会有很多欧洲的用户,用法语、德语、意大利语能聊出非常长的对话,说明模型效果还不错,但当时我们小语种的配比是非常低的。
当然训练也有失败的时候。我们训了半天波兰语训不动,才发现原来波兰语是在斯拉夫语系里的,跟英语离得有点远。吃了没文化的亏,窝连夜开始学语言学😂
02
甜菜欣欣
1月前
2012年的欣欣:手搓二叉树!千行代码实现力学模拟!给我一张白纸,我就能写出整个程序!

2025年的欣欣:呜呜呜Cursor你看看这个for loop写得对不对😭
30