即刻App年轻人的同好社区

下载

知骤

79关注196被关注0夸夸

👨🏻‍💻字节算法工程师，野生产品练习生
💻本行推荐系统，大模型和agent产品探索中
✍🏻对世界真相的观察、思考、解构

知骤

11天前

感谢@张小珺和@小宏带来这么棒的访谈！
全长3h+我听了两遍，非常精彩、接地气、令人振奋的访谈，收获颇丰。

潦草地做了些笔记与大家分享：
创业base：非一线城市创业
- 离资本远、信息渠道少
- 更专注，更专注关注海外信息

创始人能力：
- 培养交叉能力、多面手：代码、运营、产品
- 训练产品能力方式：写博客介绍+安利产品

产品商业化：
- 产品商业化选择很重要
- 区分产品思维和销售思维
- 反直觉：用户在注册时是最有耐心的时候，反而可能是最好的付费时点
- 更早地做商业化

融资：
- 资本是工具，对待工具要敬畏
- vc是一种很贵的融资方式（对于创业成功而言）
- 融太多的钱，要讲更大的故事，可能反而不利于早期创业，会导致不理性决策

出海：
- timing非常重要，远比设立海外base、找海外背景联创重要
- 最重要的是决心和勇气
- 做本地化，海外市场不同地区差异大

做Monica：
- 做ai产品需要回答的问题：为什么打开你，而不是chatgpt/豆包/元宝？
- 用户需要，但大厂出于某些原因现阶段没做或者不愿意做的事情，就是值得做的事情
- 很多事情，大家都知道一定会发生，但是知道什么时候会发生很关键
- 品牌影响是在科技公司中被低估的因素，比如deepl/founder的影响力对产品发行的影响
- api不是好生意。原因为切换成本低，可以极致地供客户比较

ai发展：
- ai产品与传统互联网产品不同在于：目前仍处在技术红利期，技术迭代快，对组织迭代要求高
- 模型技术浪潮，利好大公司、小公司（+独立开发者）
- 商业模式探索一般，仍是传统的订阅，广告在探索中
- 如果模型迭代放缓，用户可感知的进步放缓，那么工程效率就将变得关键
- 新时代安迪比尔定律：下游应用总是能有更复杂的需求把模型带来的提升给吃掉，比如模型上下文长度的提升就被现在的agent应用给吃掉了
- 「产品先于pmf」现象
- 模型能力的提升让用户可感知很重要，ds爆火很大程度就是因为用户第一次看到了模型的「深度思考」
- 可感知例子：chatgpt对话bot、标注信息源头缓解幻觉问题、深度思考、agent让人机协作从同步变成异步

ai产品分类：
梳理变化：表单 -> 对话bot -> 带记忆（个性化）的对话bot -> 带记忆且能干活的bot
- 主场景补充，比如perplexity.ai，解决早期chatgpt不能联网的问题
- 模型进步导致产品的明显进步，模型即应用，多聚集在多媒体产品上，比如pika、vigle
- 模型能力在垂直应用场景的外溢，比如cursor、windsurf、devin
- 抓住模型能力在某个场景的外溢，造个壳子解决边缘问题，优化体验

创业通用knowhow：
- timing非常重要，抓住时间窗口非常重要
- 找到好的用户访谈机会（最好能有大量用户）非常重要
- 找需求：独立开发者的成功产品一定是pmf的
- 一体两面看问题：弱项是强项定义的
- 经验不仅要ab看，还要aa看：红利期/时间窗口内，会导致同样的做法结论不同
- 做对了仍要思考：1.是否还能做更好 2.是否只是窗口期的成功
- 不要对大有执念，不要锚定成为下一个字节去做
- 团队建设：形成共识机制+保持有正向反馈
- 最疯狂的想象，最激进的执行
- 不要单纯用逻辑方式思考（可能会让创业悲观），要对黑天鹅事件保留心理空间，要用全局、博弈、多参与者的角度综合思考
- 第一性原理：选择一个垂直领域，这个领域业务流程有点复杂且当前还没有被很好解决，你坚信后面一定可以被很好解决。好好做产品，等pmf到来

其他有意思的点：
- 品味真的很重要，特别是小众且优雅的爱好。Red因为喜欢Pink Flyod乐队拿到融资。
- cursor爆火：源于外行带火，内行才慢慢发现好用

95. 对Manus创始人肖弘的3小时访谈：世界不是线性外推，做博弈中的重要变量

张小珺Jùn｜商业访谈录

18 05

知骤

11天前

安利李宏毅老师的Agent课程：www.youtube.com
可以作为快速入门Agent的课程来看，课程内容不算硬核，非技术同学也可放心食用。

如果觉得时间不够，也可以快速浏览下我做的笔记：
Agent：人类只给目标，ai自己想办法达成
- Goal：reward，人为给定
- Observation：当前状态
- Action：根据当前状态采取行动，改变环境从而产生新的Observation
类比RL框架：learn to maximize reward，需要对每一个任务训练一个模型

LLM-based agent
- Goal：prompt
- observation：环境转化成语言（或图片），拼接到prompt中
- action：一段文字描述，并转成指令

优势：
- llm-based输出action更加灵活，可以使用各种工具
- typical agent需要定义reward，有大量magic number；llm-based agent不需要reward

ai agent发展历程：
- 浏览器图像输入，CNN处理，输出按钮点击
- World of Bits: An Open-Domain Platform for Web-Based Agents (ICML, 2017) proceedings.mlr.press

- 古早语言模型
- Mind2Web：arxiv.org
- WebArena：arxiv.org

- 用AI训练模型
- AIDE: The Machine Learning Engineer Agent arxiv.org
- AutoKaggle: A Multi-Agent Framework for Autonomous Data Science Competitions arxiv.org

- AI co-scientist
- research.google

- llm agent
- 2023年：autogpt
- 2023年：斯坦福小镇（群体智能）、Minecraft的ai npc
- openai operator/claude compute use：让ai使用电脑，举例：
- goal：订披萨
- observation：浏览器状态
- action：点什么键等

交互方式：
- 回合制
- 即时：模型执行过程中，外界环境改变，这时模型需要能够快速反馈更改执行策略。比如语音对话场景。
- 实时语音模型survey：arxiv.org

llm agent（没有任何模型被训练）关键能力：
1、memory
read模块做与当前情景相似search，search出相关的memory（见P1）
与RAG一样，唯一区别是RAG存在memory中的内容是别人的经历/全网信息
- benchmark：StreamBench，arxiv.org
- knowhow：正面例子比负面例子有用得多

完整架构：
read
write：只记录重要的事情（可以也是一个ai agent）
reflection：对过去记忆整理（可以也是一个ai agent），也可以建立一个知识图谱
- GraphRAG：arxiv.org
- HippoRAG：arxiv.org
（见P2）
更多论文：
- MemGPT：arxiv.org
- Agent Workflow Memory：arxiv.org
- A-MEM: Agentic Memory for LLM Agents：arxiv.org

2、tool
常见工具：
- 搜索引擎
- python代码
- 其他软件服务
- 其他ai模型

怎么使用工具？
- function call
调用现成函数：见P3
- MCP

调用其他ai模型：
详见P4
询问llm这段音频说了啥。system prompt中需要包括左边这一系列可调用语音模型的介绍。
llm会生成调用各个语音模型的python代码，执行即可得到最终答案

工具很多怎么办？
和memory一样做search，工具选择模块！见P5
- arxiv.org
- arxiv.org

AI自己打造工具：见P9
- TroVE: arxiv.org
- LATM: arxiv.org
- CREATOR: arxiv.org
- CRAFT: arxiv.org

工具是否会犯错？
- 工具知识与模型本身知识差别越大，模型就越不容易相信
- 模型对自身知识的信心越高，就越不容易被动摇 arxiv.org404.10198v1
- 模型更容易相信ai生成内容（较于人为内容）arxiv.org401.11911
- 模型更容易相信更新发布的内容 aclanthology.org
- 文章来源不会影响
- 文章排版方式会有影响

3、planning
根据observation做规划 arxiv.org305.04091
根据observation实时更改规划
见P6、P7

llm做规划能力：
- arxiv.org201.07207
- benchmark：PlanBench arxiv.org206.10498 arxiv.org305.15771
- benchmark：TravelPlanner arxiv.org402.01622
- 让llm能使用现成的solver工具，正确率大大提升 arxiv.org404.11891

强化ai agent的规划能力
- 与实际环境互动，bfs/dfs暴力搜索。见P8
- 暴搜+做剪枝 arxiv.org407.01476
- 有些动作覆水难收：虚拟环境内演练，需要有world model来模拟真实环境可能的反馈 arxiv.org411.06559
- 过度深度思考的危害：arxiv.org502.08235

63 374

知骤

14天前

推荐系统建模，pointwise/listwise是需要考虑建模对象维度的相对的概念

在推荐场景中，若干item消费组成一次request（刷），若干request消费组成一次session

当前重排中常见的，request维度做listwise建模，在session维度看也没那么listwise，也很pointwise

不要迷信「绝对」，而要多辨析「相对」

3 00

知骤

14天前

时代行舟，不进则退

今天听一个llm4rec的分享，当听到传统推荐算法是指代深度学习模型时有点恍惚。
不得不感慨下这十年技术发展得是真快，传统和先进的定义总是在不断地变化与更新。

十年前，深度学习还是个时髦的词汇，我们口中的传统方法都还是支持向量机、决策树这类老古董机器学习算法。
而现在，曾经叱咤风云的以CNN、RNN、GAN为代表的深度学习模型也都已经退化成了传统方法，取而代之的是统治一切的LLM。

这是一个有意思的变化，历史也终将螺旋上升。十年前，因为深度学习算是机器学习的范畴，所以我们都使用「传统机器学习方法」这样的词汇来与深度学习方法相区分。而今天，因为Transformer也算是深度学习的一部分，所以我们也习惯性地使用「传统深度学习方法」来与transformer架构的llm相区分。

时代行舟，不进则退。
代码还要继续看，论文还要继续读，否则我们也会变成新生代口中的「老古董」和「老登」。

2 00

知骤

14天前

阶段性总结下LLM在推荐系统领域应用的可能性（LLM4Rec）：

1. LLM作为世界知识，为推荐模型提供先验信息。比如：
1. 根据用户画像预测用户兴趣
2. 为文本提供emb表示

2. 推荐大模型
1. scaling up，切transformer架构，堆叠更多参数，更长序列入图
2. 生成式模型：类似llm做next item预估

3. 交互式推荐：拥有推荐能力的agent
1. kill time app：作为主动场景，帮助用户更主动、更快速地向推荐系统反馈
2. save time app：类似ai搜索，好的产品形态没想好

4 00

知骤

23天前

牛马的自我修养

过火车站闸机时，条件反射地掏出了工卡...

3 00

知骤

23天前

分享一篇我最近写的读书笔记——《亲密关系》：qcnzqu5768nu.feishu.cn

公众号版本：mp.weixin.qq.com

文章中的理论基于《亲密关系》，不过我在此基础上，根据我自己的理解与感悟，做了一些魔改。

亲密关系是我一直很感兴趣的话题，我坚信每一段亲密关系的聚与散，背后都会有其可解释的逻辑，而这种逻辑一定是可归纳与抽象的，于是便有了以上这篇文章。对人性的解构本身就是一件令人着迷的事情。

p.s. 原著写得超棒，安利大家去读原著，能够帮助你重新理解亲密关系的。

3 00

知骤

1月前

交流的对象一定要刻意保持多样性，才能带来真正的新知收获，否则可能只是加深固有的刻板印象。

多样性交流的好处：
1. 新的输入能时刻提醒我们对很多「奉为圭臬」的基础认知保持质疑。特别是在工作中很多没有标准答案的开放问题中，没有一以贯之的真理。

2. 新的输入能促使我们deep dive，即从事物更底层、更本质地角度去思考，从而产生更深刻、更全局的认识。

3. 双向交流中，输出自己的想法，也能督促我们整理自己的认识，重新思考自己对于这件事情的认知结构，从而纠错或者纳新。

检验方法：交流中，是否持续地有「原来这样做不是理所应当的」「卧槽原来还可以这么玩」的思想瞬间💡

4 10

知骤

1月前

飞猪agent、coze space、心响、心流、Genspark ai slides、Trae的新feature、sand.ai开源的新模型。。
看不过来，真的看不过来😵‍💫

15 61

知骤

1月前

产品安利：ima.copilot
试用了一周，ima确实是很好用的知识库管理产品，目前我的使用场景主要有：

1. 文献管理软件（P1）：全平台同步、标签分类、总结与摘要帮助速读和粗筛，比Mendeley之流实在是好用太多了。

2. 日常资料收纳：日常特别是在微信中分享的资料，一键保存到ima，之前一直没有找到比较好的收纳软件。ima支持对个人知识库的内容进行总结与检索。

3. 优质内容收藏夹：在微信中读到的优质公众号文章，也可以一键同步到知识库，算是微信自身收藏功能的plus版。

4. 发现更多资料（P2）：有很多其他人创建的共享知识库，方便找到更多优质内容。

4 01