Songv的个人主页

即刻App年轻人的同好社区

下载

App内打开

Songv

494关注1k被关注0夸夸

终身学习

Songv

20天前

对于做笔的人，人类要记录信息不是需求，在记录过程中犯了错误需要改才是需求。
当然如果能能更好的满足记录信息的需求也可以不要做笔了。

5 00

Songv

6月前

越焦虑越学习😭起床就开始

6 21

Songv

7月前

一个flag：在春节之前把这篇一直想写的数据系统新浪潮文章写完，也算为2024年的工作画上句号。

Songv: 为模型服务的数据系统正在从0开始发展： 1. 传统机器学习领域虽然已经发展了多年，但是由于算力和架构的限制，对数据的消耗能力非常有限。大模型时代pre training, post training 阶段数据的消费能力是非常惊人的。特别是在大家尝到1 epoch的甜头以后，对于数据的需求上涨了成千上万倍。 2. 如何在短时间内生产这么多数据来供应模型训练就成了很大的问题。其中最重要的是计算和存储。先说计算，近几年如此大规模的计算需求基本发生在互联网公司的数据仓库链路中，承担ETL，数据建模，adhoc查询等需求。Spark也在这些IO密集型，重shuffle，aggregate的场景中胜出，所以生态基建和普及率是最高的。也正因为此成为了各家模型公司的主要数据计算引擎。但也明显有水土不服，早期版本无法使用GPU，pyspark 昂贵的序列化反序列化代价，虽然都已经补上，但异构集群困难的自定义调度，昂贵的容错代价等还是阻碍了它接管所有计算场景。 3. 一众像ray一样提供更底层任务/数据编排调度的框架弥补了Spark的不足，在这种map算子占绝大多数的轻分布式计算场景中获得了先机。我觉得ray.data被推崇的主要原因是开放了task的调度接口，以及放弃对job级别幂等性保障而全面转向到min batch带来更低的心里使用成本。 4. 但是年轻的ray.data问题还非常多，经常被我吐槽还是一个toy project。缝合的类型系统洞非常多，经常出现写出去读不回来的尴尬处境。一些为了避免OOM的提前资源切分又做的很粗，在追求性能的场景下成为累赘。聊胜于无的auto scale和backpressure机制等都让它看起来无法胜任超大型的任务。但也正是因为这个生态位的短缺，ray.data正被很多大模型公司赶着上架。

5 10

Songv

10月前

招1-2名实习生：
- 大模型公司数据团队，多模态(video/audio)方向
- 算法背景主要会来做 pretrain 数据实验和优化 pipeline labeling 模型效果相关工作
- 工程背景主要会来做分布式数据处理框架的优化以及数据 pipeline 的优化相关工作
- base 北京(暂不考虑远程)，实习时间6个月及以上
- 希望 coding 基本功扎实，最好简历里能附带可以证明自己 coding 能力的信息

不想暴露个人信息没写公司名字，简历或者细节咨询都可以直接加我wx 或者发邮件:
- wx: Songvvvvvvvv
- gmail: miraculouscodersong@gmail.com

8 10

Songv

11月前

为模型服务的数据系统正在从0开始发展：
1. 传统机器学习领域虽然已经发展了多年，但是由于算力和架构的限制，对数据的消耗能力非常有限。大模型时代pre training, post training 阶段数据的消费能力是非常惊人的。特别是在大家尝到1 epoch的甜头以后，对于数据的需求上涨了成千上万倍。

2. 如何在短时间内生产这么多数据来供应模型训练就成了很大的问题。其中最重要的是计算和存储。
先说计算，近几年如此大规模的计算需求基本发生在互联网公司的数据仓库链路中，承担ETL，数据建模，adhoc查询等需求。Spark也在这些IO密集型，重shuffle，aggregate的场景中胜出，所以生态基建和普及率是最高的。也正因为此成为了各家模型公司的主要数据计算引擎。但也明显有水土不服，早期版本无法使用GPU，pyspark 昂贵的序列化反序列化代价，虽然都已经补上，但异构集群困难的自定义调度，昂贵的容错代价等还是阻碍了它接管所有计算场景。

3. 一众像ray一样提供更底层任务/数据编排调度的框架弥补了Spark的不足，在这种map算子占绝大多数的轻分布式计算场景中获得了先机。我觉得ray.data被推崇的主要原因是开放了task的调度接口，以及放弃对job级别幂等性保障而全面转向到min batch带来更低的心里使用成本。

4. 但是年轻的ray.data问题还非常多，经常被我吐槽还是一个toy project。缝合的类型系统洞非常多，经常出现写出去读不回来的尴尬处境。一些为了避免OOM的提前资源切分又做的很粗，在追求性能的场景下成为累赘。聊胜于无的auto scale和backpressure机制等都让它看起来无法胜任超大型的任务。但也正是因为这个生态位的短缺，ray.data正被很多大模型公司赶着上架。

10 03

Songv

11月前

最近这半年陆陆续续接到好几个朋友的电话想咨询一下和大模型相关的问题，有技术相关背景的朋友，也有完全和这个圈子不相关做实体产业的长辈。和他们聊了聊，关心的问题比较集中，主要是模型的能力边界，模型如何结合自己的场景以及如何快速落地。

其中有一些感受：
1. 这一轮新的机器学习浪潮在多种模态上都有了显著的提升。不仅仅是大家熟悉的LLM，VLM和e2e audio，Gen image/video/audio等提升都很大，并且是有解锁一些新的能力和场景的。所以想把它们使用好，要获取的上下文会非常的长，并且要对其中要点进行充分的理解又避免不了结合训练方法和训练数据进行学习。这中间出现了需要由人来弥合的鸿沟。

2. 结合1想要给朋友解释清楚也不是一件容易的事情。如何用简练的语言和一些结合他背景的比方先把上下文先灌给他是挺难的，但这件事情上人会比LLM更有优势，人拥有了更多对沟通对象的了解，比如你们之前共同经历所积累的黑话等。再上下文构建完成以后，就需要以此为基础带着他一起推理，这个阶段更需要对模型有高屋建瓴的理解，也常常会倒逼着我去思考一些更本质的问题。

3. 通过这样的交流感受最大的是刚开始完全不了解所带来的焦虑感，以及大致了解清楚以后的释然，放心焦虑开始思考如何更好的使用这么强大的工具。

33 28

Songv

12月前

做模型：
工作强度=卡数/人数
工作强度增速=卡数增速/人数增速😭

卡数增速远大于人数增速时，差不多就要成神仙了

3 00

Songv

12月前

脑洞

几年以后，研究大模型可解释性的研究员发现，在某个参数量以后，模型内部逐渐分化形成了像人类器官结构一样的组织形式。
其中看似杂乱无章的神经元，在数以亿计的消融实验中被发现某一些组群可以像基因片段一样控制模型进行稳定的性状表达。
人类开始抛弃scaling low，对大模型动“基因”手术，一个个fp32被显微镜下放大，最终总算找到了控制LLM repeat的 Layer16.Q4.78-99 segment。

11 11

Songv

1年前

轮到我了，被c memory leak折磨的日子开始了

8 11

Songv

1年前

大数据领域确实被计算引擎异化的厉害，最近面试让手写一个 map-reduce 版本的 word count，能顺畅的写出最简单版本的只有1/5，现在还没有把 sort shuffle 写对的。面试者基本都是985， 5-6年大厂经历，到底是他们的问题，还是我筛简历的问题🥲

9 01