以解何的个人主页

即刻App年轻人的同好社区

下载

以解何

74关注220被关注0夸夸

📖复旦统计&GMIM
💼某HF搬砖中｜base上海
🔦关注AI模型&AI应用&互联网
🐒分享个人观点&欢迎交流
vx：HYJyh1823

以解何

9天前

求助ai infra的专家，如果有人能回答下面的问题pls dm，或者如果你认识有人能回答这个问题，pls dm，回答问题和推荐专家均可有偿

一、逻辑说明
我在尝试估算「1T tokens/s 推理」对应的加速卡需求。
基本推导：
Input:Output ≈ 3:1。
Input → Prefill TPS = PeakFLOPs / FLOPs per token。
Output → Decode TPS = PeakBW / Bytes per token。
理论卡数 ÷ 冗余因子 = 实际需求。
问题是：Prefill 和 Decode TPS 的取值区间跨度过大（10x–100x），导致估算结果失真，需要业界经验来收窄范围。

二、核心困惑
Prefill TPS：受 N_active 影响，不同模型差距巨大（GPT-5的模型激活参数可能在100B，但claude模型因为是dense model可能达1000B, 差距过大）
Decode TPS：受 d_model、上下文长度 T 影响，每个因素跨度 6x–8x，叠加精度的2X差异，导致decode tps理论值上下界相差100X
Utilization：目前估算 prefill 0.35–0.65，decode 0.25–0.55，但不确定是否贴近实际。

三、问题清单
1.Prefill TPS
主流模型（GPT-5/Claude/Gemini）的 N_active 实际范围通常是多少？
2.Decode TPS
实际部署中，d_model 与上下文长度 T 的典型范围（p50/p90）是多少？
3.Utilization
Prefill 0.35–0.65，decode 0.25–0.55 这些数值是否符合业界经验？

0 00

以解何

16天前

感觉AI用久了自己学东西的扎实度其实是下降了
思考了一下感觉是AI可能太依赖于相关性抽取知识，有点像一个个抽屉取出来知识
但真实知识应该是树状的，除了语义相似关联，更关键的是概念的关联（可能是knowledge graph)

3 00

以解何

1月前

Google宣布Nano Banana上线不到一个月生成5B张图

我的一些想法
目前用户应该以技术爱好者和一些独立设计师为主，带来的收入增量不大，实际收入估计~100M
Nano Banana后续有望带动GCP收入提升5%，为Google广告增效，兑现周期约6-12个月
瞄准3.5B的企业创意市场，营销、文娱、游戏行业采用Nano Banana生成创意素材后逐渐迁入GCP生态，带动存储等其他负载迁入，对GCP收入提升可达5%以上
Google广告正通过垂直整合Nano Banana等生成式AI能力，将广告素材创作环节内化于投放平台。该战略旨在根据营销目标和产品数据，大规模生成并优化海量创意素材，从而驱动Performance Max等自动化广告产品的效果提升，最终吸引广告主投入更多预算
相比此前的文生图产品，Nano Banana拓宽了应用场景并降低了使用难度，这是因为Google原生多模态的路线赋予Nano Banana更完善的世界理解和更准确的文本遵循

2 10

以解何

1月前

RL环境的构建重要性与日俱增，结合了姚顺雨写的ai下半场，the information的报道和prime intellect的发文，还有sherwin wu的podcast总结如下，抛砖引玉一下（如果谁懂这方面希望多多交流）

强化学习中此前依赖专家标注数据，但始终难以scale, 目前业界重心转移向构建环境以支持模型的交互式训练

原理上环境设计的好，模型能生成数据-自我评分迭代能力，形成持续改进的飞轮。这个飞轮过程中环境运行、合成数据的生成和模型基于合成数据改进是这一轮模型训练infra扩建的核心原因之一（相比人工标注数据，领域和数据量级上都得到了扩展）
环境构建复杂，容易出现模型“钻空子”的问题（reward hacking），需要大量工程设计
具体公司战略
OpenAI：合成数据 + 专家评分（RFT），派 FDE 深入客户，把真实业务系统变成环境
Anthropic：26年计划投入$1B打造大规模模拟环境，强调安全性、可控性和对齐
xAI：直接把人类交互当环境，强化模型的通用社会化能力

0 00

以解何

1月前

AI对购物的影响

我对购物的拆分是供给需求和供需匹配
其实广告业务的目的是提高供需匹配。广告投放决策者试图在最有可能有需求的地方投放广告。
最开始是靠人群分类，有了互联网和手机，能收集个人行为数据，对需求的预测变得更精准，但这里更多是行为结果来判读。AI带来的影响其实是对需求背后的原因理解的更深刻，那么可能推荐出不同的但更满足底层需求的产品。

广告的生成端其实是帮助生产者传递产品的价值所在, 即能满足什么需求。AI带来的改变是能根据用户的喜好直接生成广告，直击个体需求。

广告投放的权力结构，在于谁能吸引用户的注意力。最开始的时候纸媒/电视占据了大家的注意力，后来是信息搜素和娱乐场所（google, meta），再往前搜素的需求仍然有，但可能转移到了OAI，娱乐的需求暂时可能meta满足的更好，但也可能存在纯AI社区更好满足了大家的娱乐需求。

在关键词广告时代，人们为关键词竞价，到了AI推荐，人如何影响AI推荐呢？

0 00

以解何

3月前

为什么AI还没能替代实习生

先给结论，目前AI Agent没法替代实习生的本质原因，是工作链路中信息获取权限不足（Cloudflare等不允许Agent访问信息），而不是分析、输出能力不足
权限决定Agent的可用性，未来围绕权限管理/绕过，将诞生新的投资机会。权限是AI时代的数据收税权

最近我司实习生都纷纷离职，于是作为最年轻的ft我又开始承担一定的dirty work, 那我肯定是要尽可能奴役AI帮我干活，但是实际用下来，还是离完全替代实习生差一点，我判断能完全替代实习生这个时间窗口大概还有半年

我司实习生的日常工作大概是：录会，整理新闻/研报和根据数据修改model

【录会：微信权限获取不了，小众平台操作不顺】
录会的流程大概是：每天根据关注重点筛选需要录制的会定时去录制，之后语音转文字、总结存档。
* 录屏这个环节，理论上RPA能解决，但判断“何时结束录屏”目前没找到特别通用的触发机制。目前考虑结合窗口状态自动判定，仍在开发中，但认为此环节可解决
* 通义语音转文字有API，可用
* 信息写入Notion也有现成API或zapier集成
问题出在源头：获取会议列表

我们的会议主要在acecamp和微信群里通知
* acecamp我让chatgpt agent登陆上去，指定了几个关注的人要求看往后三天有哪些活动要举办，我的chatgpt agent卡在了不知道怎么点击活动这个tab, 而是因为这个平台没怎么见过，通用能力和instruction following能力还需要提高。证据是twitter和小红书chatgpt agent点击都没什么问题。
* 微信群不能获取很正常，不仅是微信的权限更严格(毕竟chatgpt都看不了微信公众号文章)，更在于说聊天群的记录能否开放是一个ethcial problem

【整理新闻/研报：总结能力够，获取权限卡】
流程是：从高频source获取新闻→AI总结→按固定格式输出。
总结、结构化处理能力AI完全没问题。
问题出现在“付费source抓取”：
* the information：ChatGPT agent登录即被Cloudflare拦截；RSS方式也因类似原因失败
* 当前替代方案是：转发至邮箱 → AI读取 → 自动存档。认为逻辑上可行，也仍在开发
这部分不是AI能力问题，是“agent有没有权限访问”问题。

新闻和研报给我的启示是谁能提供绕过Cloudflare的稳定agent网关，谁可能拥有AI时代的“权限层操作系统”

【数据调model：经验门槛高，暂无法替代】
这块我没完全测试，但直觉上agent还差不少。
调model这类任务中，涉及的数据筛选、维度判断、非结构逻辑都比较强。之前chatgpt agent“Internal Banking Bnechmark”很高，似乎投行junior被替代指日可待，但实际上我和投行朋友交流后觉得：
* 快捷键、excel操作这种能替代
* 实际操作中一些非标准化的项目如何纳入标准化框架，增长率具体数据的逻辑思考和数字调整更偏向于经验型，目前的ai agent没有到这个水平
我个人的判断是高级白领的工作仍然需要更多的隐形知识获取（人写数据不能scale,大概率还是模型RL完成）
但是IMO金牌事件其实提高了我对这类高级白领任务的完全解决的概率预估
因为IMO能拿金牌其实是证明了自然语言逻辑自洽能够让ai学会在缺乏即时奖励的时候也能训练出很高的水平
只是从知道能做到到具体做到的路径和时间无法预测

最后提一嘴这个星期看到的新闻，salesforce不让OAI集成slack里的信息，这本质上就是大公司对权限的控制医院非常强，slack也想推自己的AI，提高用户slack的使用时间，而不是为OAI做嫁衣

类比早期新闻网站 vs 搜索引擎：前者不愿开放全文，后者靠流量逼迫；现在可能正在重演。
所以未来可能出现两种解决：
1. 某个agent平台足够强势，倒逼平台开放（如早期微信生态下的小程序）
2. 平台开放部分权限，换取分润或数据使用协议（Agent API economy）

总结来说，权限，是当前AI agent替代链条中的最大变量，也是最值得关注的投资入口：
* 谁在做“权限桥接层”？（绕过cloudflare、浏览器控制、模拟点击）

而对于人类来说，思考工作中什么是不可替代的而不是盲目在每个点上试图提高效率会更有用
Demis评论说顶尖的程序员在指定架构、提出问题、如何以有用方式指导这些编码助手以及检查他们生成的代码是否良好方面，仍然会拥有巨大的优势
我认为金融从业者，明白什么是能move the market的重要方面，和能获取更多信息权限（可能依赖connection)才是真正的edge, 也是金融从业者应该努力的方向

#AI工作流

4 12

以解何

8月前

有人知道MLA是否能用于训练效率改进吗
论文原文只说了改进推理，但是NSA论文里说了训练推理都有帮助
此前看到MLA第三方解读说的是训练推理都有帮助
如果第三方解读是真的NSA改进幅度不大啊
如果MLA只是推理的话NSA还是大进步

2 20

以解何

8月前

Fact
XAI发布Grok 3, 从benchmark跑分结果和Andrej评价来看，水平约等于OAI o1 Pro模型（o3分数微弱高于Grok, 但没发布而且OAI也不打算发布了）

训练分为两阶段，第一阶段是100k H100训练122天，第二阶段扩展到200k H100上训练了92天

benchmark上还需要第三方验证，但估计问题不大computer use和知识迁移能力等benchmark XAI并未公布，需等待第三方测评结果

lmsys排名第一，但这个榜反映的是人们的偏好，不是能力的直接映射，主要受益于能力强且响应速度更快

具体应用上，Deep research模式和PPLX Deep research水平相当，不及OAI

定价上Grok 3分为Premium $16/M和SuperGrok $30/M, 分别对标ChatGPT $20/M和$200/M 的订阅

Musk宣布一周后发布语音模式
-------------
解读
XAI 19个月从0到SOTA，展示了模型能力非常快速的改进水平，XAI正式和OAI并列成为第一梯队

XAI 产品定价和估值上都大幅低于OAI，如果OAI GPT-5不能带来显著改进，要么产品订阅量下滑要么下调产品定价，全年总利润承压，下一轮融资也会很困难

幻觉和垂直领域可用性并没有因为规模扩大得到解决

0 00

以解何

11月前

今天测试了一下deepseek
一道复数题 o1-preview和claude都不会
deepseek做对了

叠加国内擅长挖掘需求设计解决方案
很看好2025国内AI agent应用爆发

4 00

以解何

12月前

网上又传scaling law到头，说是ilya认证了…
ilya说是pretraining平台期，接下来要scale the right thing. o1算是test time scale，一种scale的方向，SSI自己scale什么方向ilya没说。

媒体这么写很正常，为了流量
做投资的要是自己不思考就完蛋了

1 00