即刻App年轻人的同好社区
下载
App内打开
莫唯书Mark
1k关注4k被关注5夸夸
☯️万物皆虚 万事皆允
🎬抖音/TikTok/DeepMusic
🤖从ML开始做了10年AI
📖探索科技与人文的真谛
🔗公众号:莫思Moss
置顶
莫唯书Mark
5月前
我们似乎总陷入同一种错觉:为即将到来的一年设想天翻地覆的剧变,却对接下来十年间,那些细微改变累积而成的深远重塑视而不见。此刻,站在2026年的开端,我们恰恰身处这“高估”与“低估”的缝隙里。潮水并未如预言般汹涌淹至,但它润湿大地的深度,已远超我们的想象。

2026新年寄语:我们总是高估一年而低估十年

20
莫唯书Mark
1天前
AI时代,价值将如何流动?

过去一百多年,人类的信息传递方式经历了四次根本性的跃迁。

从电报、电话、互联网到今天的人工智能,每一次跃迁都定义了一个新的基础信息计价单位。电报时代是字符,电话时代是通话时长,互联网时代是兆字节(MB),AI时代则是Token。

虽然这四种单位背后的技术形态完全不同,但都有一条贯穿百年的演进规律反复上演。当你看懂这条规律,才能理解下一波真正的机会在哪里。

1.基建率先登场

每一次信息革命的开端,都是基础设施的大规模建设。电报背后是海底电缆,电话背后是铜线和交换机,互联网是基站和光纤,AI背后则是数据中心和算力集群。这一层的玩家是时代的修路者,他们最先吃到红利,因为无论后来谁赢都得先付钱给基础设施。

1866年,第一条跨大西洋海底电缆开通,彼时发一个字符要花十美元,天价成本催生了东方电报公司,使其成为19世纪最具影响力的跨国巨头之一。1915年,AT&T打通了全美第一通跨大陆长途电话,三分钟通话费用高达二十美元。凭借独家线路资源,它垄断了全美八成以上的电话业务,霸主地位维持了半个多世纪。2007年,中国移动凭借移动通信基建的全面普及,超越微软登顶全球市值最高科技公司。

今天,英伟达的市值已突破五万亿美元,光模块、HBM存储、高端PCB、液冷散热、电源设备等产业链都迎来了爆发式增长。上游卖铲子的红利,在过去一两年已经被市场充分认知。

但历史告诉我们,第一层的赢家往往不是笑到最后的。AT&T后来因垄断问题被拆分,中国移动的股价至今未能重回2007年的高点。基础设施层的高光时刻通常出现在建设高峰期,而在到达峰值之后接力棒将随即传递到下一层。

2.压缩改写一切

信息革命的核心普惠逻辑是信息单位成本的极致贬值,百年来每一代信息单位的价格都会以超乎想象的速度崩塌,电报从十美元一字符跌到几美分,长途电话从七美元一分钟跌到六美分,互联网流量从几十块1MB跌到几毛钱1G。真正推动价格暴跌、让技术走向大众普及的正是赛道里的压缩派,他们不修路,却让路上的每一辆车都能拉更多的货。

电报时代,商人们率先发明了电报密码体系,用单个字符、单词替代冗长语句,从此开启了人类历史上第一次大规模信息压缩竞赛。后来西联电报公司又推出了多路复用技术,让单条电缆可同时传输多路电报信号,大幅提升基建利用率,最终在19世纪末垄断了全美八成以上电报业务。

电话时代,行业效率革命的核心是自动交换机与长距离信号放大器。前者彻底淘汰人工接线模式,将人力边际成本归零。后者突破信号传输距离限制,大幅降低长途通信的基建损耗。而真正吃透这波技术红利的是AT&T的核心设备供应商西部电气,它在1996年上市时创下了当时美国史上最大IPO纪录。

互联网时代,视频压缩算法、数据包轻量化、传输协议优化持续摊薄流量单价,让同样的资费能承载千百倍的内容传输。运营商们被迫一轮轮降价,流量单价从几十块一个G跌到几毛钱。

而如今的AI时代,以DeepSeek为代表的MoE混合专家架构、模型量化压缩、推测解码、上下文优化等技术,让Token的使用成本以每年几十倍的速度下降。这一层玩家的核心价值从来不是单纯的技术突破,他们通过极致提效把整条产业链的成本压到地板之后,才能打开全新应用场景的可能性。

3.入口拿走最大蛋糕

如果说基建层奠定基础,压缩层降低门槛,那么入口层就是拿走行业终极利润的最大赢家。这一层的玩家不一定做重资产投入,也不必非要攻坚硬核算法,却牢牢卡在基础设施与终端用户之间,掌控着用户的选择权并定义产品的最终使用方式,截留了整条产业链最大的价值差价。

电报时代的路透社是最典型的入口赢家,它不铺设一寸电缆、不投入一台电报设备,只是批量采购电报公司的字符资源,将碎片化的通信能力封装成标准化的新闻资讯服务,再批发售卖给全球报社和金融机构。其最终赚取的稳定利润,远超手握基建的电报公司。

电话时代的商业逻辑如出一辙,黄页平台整合全网电话资源,向商户收取曝光费用,坐收流量红利。长途分销商批量采购AT&T的低价通话分钟数,拆分零售给企业客户,依靠信息差和流量整合稳定套利,成为整个电话产业中最赚钱的连接供需两端的中间商。

互联网时代,这套价值分配逻辑被放大到极致。微信把一毛钱一条的短信变成了近乎免费的网络消息,彻底颠覆传统通信行业。但节省下来的通信成本并未留存于用户手中,而是转化成了平台的广告、电商、支付等海量商业价值。运营商的管道承载了全网的字节流动,但中间的绝大部分商业价值最终被终端入口尽数截留。

4.新时代的机会

纵观三代革命,产业格局高度统一。基建层收割早期增量,压缩层推动行业普及,入口层垄断长期价值。而每一轮价值交接的核心拐点,永远是压缩技术成熟、信息成本触底,用户大规模普及、入口价值开始凸显的时刻。

当前的AI算力基建还在高歌猛进,但天花板已经开始显现,当上游硬件的增量空间逐步收窄,周期属性就会愈发明显。与此同时,发生在第二层的AI效率革命正在极速推进,各类压缩、优化技术持续打爆Token成本,未来AI应用和服务的开发门槛、用户使用成本将会双双断崖式下跌。

一旦成本不再是阻碍、算力不再是稀缺资源,AI行业未来最大的变量就将是谁能成为用户与AI之间的核心入口。大厂坐拥海量用户与完整生态,具备天然优势。创业团队则更灵活,能够深耕垂直场景,精准解决细分痛点。

历史早已证明,入口层的终极赢家往往并非最早的技术先驱,而是最懂用户、最懂场景、最擅长整合碎片化服务的落地者。就像路透社不是最早的新闻机构,谷歌不是第一个搜索引擎,却都凭借极致的入口整合能力成为时代的终极赢家。

三层接力的规律告诉我们,要理解当下产业发展脉络的关键是站在哪一层。因为每一层都有赢家,但每一层的逻辑完全不同。基建层比拼资本周期判断与供应链管控能力,压缩层比拼算法创新与工程落地效率,入口层比拼用户洞察与生态整合能力。

当你看懂了从电报到AI的百年价值流动规律,就拿到了时代演进的完整地图。赛道无优劣,层级定格局,最终能站在地图上的哪个位置,就取决于你的认知、资源、选择和胆识了。
00
莫唯书Mark
3天前
叙利亚风味
00
莫唯书Mark
3天前
在OpenClaw和Hermes先后引爆AI Agent赛道之后,很少有人预料到一个看起来更安静的产品会在两周内收割两万四千颗星标,并以每天两到四千的增速持续霸榜Github,它就是OpenHuman。

如果只看功能列表,它好像只是把你的Gmail、Notion、GitHub、Slack、日历等一百多个服务接入进来,每二十分钟自动抓一遍数据存进本地的“记忆树”,然后你就可以跟一个真正了解你的AI聊天了。

过去几年,主流AI Agent的产品逻辑都是“你教AI”。你需要亲手配skill、写prompt、调工作流、连API密钥。它就像一只需要长期训练的电子宠物,你用得好不好完全取决于愿不愿意花时间“养”它,最终只有极少部分能自己搭建运行环境的人才能真正驾驭它。

OpenHuman则完全不需要你教,你只需要一键授权,它就会开始自动同步你的邮件、日程、代码和文档,过不了多久它就已经知道你是谁、在做什么项目、跟谁合作、卡在哪里了。这正是OpenHuman产品定位的精髓,当整个Agent赛道还在比拼“谁能帮你干更多活”时,OpenHuman率先转向了“谁更懂你”。市场的反馈则说明了一切,OpenHuman只花一个周末就拿到了1万颗星标,同样的成绩OpenClaw用了62天,Hermes用了10天。

很多AI产品把自己定义为助手、工具或代理。OpenHuman则不然,创始人团队给它的定义是“一个完整的桌面端个人AI系统”。这两者的差异是根本性的,工具是你可以随时替换、随时丢弃的东西,系统才是你离不开的底层基础设施。

传统AI工具的边界很明确,你打开一个聊天界面→提问→得到回答→关闭窗口。OpenHuman的核心交互则是“常驻”,它每天24小时在后台运行,每20分钟自动更新你的数据,即使你不跟它互动,它也会安静地更新记忆、梳理关系、准备上下文。它能作为真实参会者加入在线会议,全程旁听、记录要点,会后你问它刚才说了什么,它张口就来。你关掉电脑后它还在处理,等你再次打开时它已经把会议纪要整理好了。

AI行业的一个默认逻辑是你用得越多,它越了解你,你就越依赖它,它就越能通过你的数据赚钱。但OpenHuman做了一个激进的产品选择,它所有的记忆都存储在本地数据库中,同时同步成兼容笔记软件的可读文本文件。你可以打开、浏览、编辑、删除,AI有什么记忆,你说了算。

官方文档里有一句话:你无法信任一段你无法阅读的记忆,当AI开始掌管你的个人信息时,信任是第一道且最难逾越的门槛。OpenHuman通过本地存储加完全透明的设计,直接把这道门槛的钥匙交到了用户手里。

OpenHuman最受关注的是它的“记忆树”设计,大多数AI的记忆方式很朴素,在系统提示词里写一句“如果觉得有用就记下来”,然后存到一个文档里,下次用户问到时就去搜一下。这个方式的致命问题是AI只能边用边记忆,你过去的信息它不知道,而且记忆是不可读、不可修改的。

OpenHuman的记忆则是一个三层结构,第一层按数据源独立管理原始信息,第二层按人物、项目、话题聚合,第三层进一步压缩成跨主题的长期记忆摘要。这正好对应了大脑处理信息的方式,你看到什么、正在处理什么和长期知道什么。

这套记忆结构的精妙之处在于它并非简单的“存储”,当你问“上周跟客户的方案进展”时,AI可以直接从第一层定位相关邮件,经过第二层聚合关联信息,再由第三层输出有来龙去脉的回答。它真正做到了理解你和客户之间的关系、项目的上下文和进展的脉络,并且每一个记忆节点都同步成了可读的文本文件,用户可以直接打开修改,AI会在下次检索时自动修正。这不只是技术上的创新,更是对用户体验的深度思考。

OpenHuman还有一个容易被忽略但非常实用的产品设计:智能压缩。它会在每一次工具调用、网页抓取、邮件正文被送入大模型之前先加一层压缩,把网页代码转成纯文本、缩短长链接、自动去重和摘要。官方数据显示这项设计最多可以降低百分之八十的Token消耗,更低的使用成本意味着用户可以用得更随意、更频繁而不用担心“花太多”。

OpenHuman的产品哲学并非凭空而来,它的创始人在采访中提到,他曾试图帮父亲设置一个开源的AI Agent,结果在API密钥、配置文件和从未打开过的终端之间挣扎了三个小时,最终两人都放弃了。这个经历让他意识到目前几乎每个强大的AI Agent都是为那些能够自己搭建运行环境的人设计的,绝大多数人只能在场边观望。

为了让AI Agent能真正走向普通人,他们从一开始就提供了原生的Windows安装包,而不是默认只支持macOS或服务器用户。你无需手动配置API秘钥,也不用面对命令行界面,每一步都在回答同一个问题:你怎么让一个从没打开过终端的人,也能拥有一个真正懂他的AI助手?

当然,OpenHuman并非没有挑战。当它连接了你的邮箱、GitHub、日历和聊天记录后,几乎能知道你的一切,此时你的隐私安全完全取决于开源代码的可信度和自己的安全意识。项目目前处于早期测试阶段,bug和不稳定性仍然存在。在自动化能力和长流程执行方面,它相较于专注于从经验中学习、持续进化的竞品仍有差距。此外,产品完全免费、开源和数据本地化,商业模式的可持续性将是一个未来必须面对的问题。

真正的产品壁垒从来不在技术参数,而是你是否愿意把自己的生活交给它。至少在这一点上,OpenHuman已经跑到了其他产品前面。
211
莫唯书Mark
4天前
Andrej Karpathy:一位天才的错位选择与AI战场的终极转向

2026年5月19日,一条只有68个单词的推文让整个AI圈炸了锅。

OpenAI联合创始人、前特斯拉AI总监、斯坦福CS231n课程创始人Andrej Karpathy宣布加入Anthropic,这条消息用一位推特网友的话来说就是“梅西穿上了皇马的球衣”。

这不是普通的人事变动,Karpathy可能是这个星球上极少数同时站在AI研究、大规模工程落地和大众科普三个制高点的人。他的选择比任何财报和融资新闻都更能说明一个问题,AI的第一阶段竞赛已经结束了,下半场正在以一种意想不到的方式展开。

Karpathy的职业履历本身就是一个“AI发展史”的缩影,2015年他是OpenAI的创始成员,那时深度学习才刚刚开始爆发,一个非营利研究小组就是当时最前沿的地方。2017年马斯克把他挖去特斯拉,他想看看前沿研究能不能真正落地,让几百万量产车跑上他的算法。2022年他短暂回归OpenAI,彼时ChatGPT刚刚引爆全球,他想亲眼看看规模化之后的大模型研究到底是什么样子。

再之后他离开OpenAI,创办了AI教育公司Eureka Labs。他曾说“教育是我的心病,我想用AI做世上最好的教育”,一个拥有四百多万粉丝、能把Transformer拆解得像搭积木一样直观、让无数人入行的人,说出这句话无疑是真诚的。但他在播客里也说过另一句话:“我大概从去年12月起,就没有亲手敲过一行代码了。”一个写了二十年代码、亲手设计了特斯拉视觉系统的人,却发现自己从执行者变成了“指挥AI的代理”,这种感觉是“精神错乱”的。

这正是他加入Anthropic的关键背景,他骨子里是一个研究者和布道者,他需要一个能让他安心做研究的地方,而不仅仅是另一个商业加速器。

Karpathy的“叛逃”,是他过去几年抉择的自然延伸。OpenAI和Anthropic虽然同源,但已经走出了完全不同的道路。OpenAI在公司变大后,内部拥有更强的研究员文化,但也存在着明显的“鄙视链”和管理问题。它更像一艘高速运转的商业巨轮,一切都在围绕产品迭代和营收增长加速。

相比之下,Anthropic的首要任务是确保“变革性AI有助于人类和社会繁荣发展”,对于Karpathy这种级别的研究员来说,这种“安全优先”的氛围更对胃口。

此外有两个细节值得注意,首先Karpathy在公开场合提到Claude的次数越来越多,而且总是带着欣赏的语气。他曾在播客中说,他很喜欢Anthropic在Claude个性设计上花的心思,认为这是一种对AI本质的认真态度。其次是他在OpenAI期间多次感到无法坦率地表达观点,而Anthropic在这方面的政策相对宽松。

事实上,Karpathy并不是第一个从OpenAI出走去Anthropic的人,Anthropic的创始团队本身就是2021年从OpenAI集体出走的产物。当时OpenAI在商业化和产品化的路上越走越快后,一部分更看重“纯粹研究”或“安全优先”的研究员开始用脚投票。Karpathy只是这场早已开始的“路线分化”中最新、影响力最大的一个节点。

Karpathy此次加入Anthropic后将负责组建一支全新团队,核心使命是利用Claude模型本身来加速预训练研究,简而言之就是让AI来优化AI的训练过程本身。这个方向有一个流传已久的正式名称,递归自我改进(RSI)。其核心逻辑是AI系统通过不断优化自身的训练过程,实现能力的迭代跃升。

数十年来,RSI更多地存在于学术论文和思想实验之中。但Anthropic联合创始人Jack Clark在5月4日发长文预测,到2028年底AI实现递归自我改进的概率约为60%。5月13日,Meta FAIR前研究总监田渊栋的新公司Recursive Superintelligence也正式官宣,核心方向就是RSI。

Karpathy是少数能同时跨越大模型理论和大规模训练实践的研究者,他在特斯拉构建的“数据引擎”本质上就是一套工程化的“模型自我改进”流水线,这正是RSI从理论走向工程实践所需要的关键拼图。

Clark的论点是AI研发中99%的脏活累活(数据清洗、实验调参、性能优化)已经落入当前模型的能力范围,即便AI暂时缺乏颠覆范式的创造力,仅靠自动化工程部分就足以显著加速迭代,这正是Karpathy所擅长的领域。

所以Anthropic能挖来Karpathy绝非偶然,在Karpathy官宣加盟之前Anthropic已在企业市场完成关键反超。据Ramp最新报告,Anthropic的企业客户采用率已超过OpenAI,达到34.4%。年化收入(ARR)突破300亿美元,历史上首次超越OpenAI。

Anthropic最近还在公开招一位年薪210万的AI布道师,Karpathy的到来几乎是对这一战略的终极补强。他一个人就顶一支开发者关系团队,是AI圈里极少数兼具“技术可信度”与“大众影响力”双重光环的人。一个有声望的研究员的加入往往会带动一批人重新评估自己的职业选择,所以这很可能是Anthropic即将迎来一波人才涌入的信号弹。

Karpathy的选择也是当下AI行业从“模型能力竞赛”转向“递归自我改进”的一个缩影,当预训练撞上数据墙,当模型能力的提升变得越来越昂贵,下一阶段竞争的关键就在于谁能靠更好的工程闭环让AI加速自身的进化。Clark在他那篇文章中算过一笔账,人类研究员的效率天花板大概在4倍加速,而AI只用一年就从2.9倍跃升到了52倍,未来这个差距只会越拉越大。

这是一场从“用人力堆算力”到“用智能换智能”的范式转移,当一家公司开始把“让AI研究AI”作为核心战略,它就已经不再把同行当作对手了。

它的对手是时间,是人类认知的边界,是“人”作为研究者的那条并不宽阔的天花板。
00
莫唯书Mark
5天前
00
莫唯书Mark
5天前
I/O大会背后是谷歌悄然铺开的巨网

看完今天凌晨谷歌这场产品发布会,我最强烈的感受不是哪个功能有多惊艳,如果你只盯着模型跑分、视频编辑效果或那副智能眼镜,就会因为一片树叶而错过了森林。

谷歌正在完成一个根本性的战略转向:把AI从“你主动打开的工具”变成“你无需感知的底层环境”,它没有在任何一个单点上碾压对手,但却悄然铺开一张巨大的网。

一、模型:从更强到更能用

Gemini 3.5 Flash无疑是这场发布会的明星,相比3.1 Pro它在编码、Agent和工具调用能力上全面超越,价格却便宜了40%。输出速度比其他前沿模型快4倍,在Antigravity中优化后甚至能快12倍。

这背后是一个清晰的战略选择,谷歌不再把最强的模型藏着当招牌,而要把“足够强且足够便宜好用”的模型推成主力。Flash系列本来就是轻量快速版,现在它比上一代的旗舰还能干,这意味着谷歌真正理解了开发者市场的痛点。模型能力不是有就行,还得要用得起、用得上,只有跨过从“秀肌肉”到“可大规模部署的公共服务”的鸿沟,市场才会用真金白银买单。

Gemini Omni Flash则指向另一个方向,视频多模态模型。它能保持视频中某一段不变,只修改其他部分。比如你拍了一段弹钢琴的视频但对结尾不满意,就可以让AI重写而手指动作不乱,这比从零生成要实用得多。谷歌没有在视频生成质量上与Seedance 2.0硬刚,而是选择了“像素级编辑”这个更贴近真实需求、也更能发挥其生态优势的切口。

二、产品:AI的全面渗透

在产品方面谷歌和OpenAI的路子完全不同,ChatGPT是从0到1做一个新入口,谷歌则主要是在已有的十亿级产品里做AI化改造。

Ask Maps就是一个典型案例,你可以用自然语言跟地图对话:“我孩子掉进了池塘,婚礼30分钟后开始,该去哪买裙子?”这种问题以前根本没法搜,现在谷歌把地图、商家信息、路径规划、实时数据全部打通,让AI替你推理并给出个性化和场景化的答案。

Ask YouTube同样如此,你不再需要翻视频,直接问“怎么教三岁小孩骑自行车”,它就会给你整理好的要点、最相关的片段,甚至直接跳到对应的时间点。谷歌正在把搜索从一个关键词匹配系统,变成一个能理解、能摘要、能委托的智能代理。

Docs Live则大大降低了创作门槛,你无需打字就可以直接对Gemini说你想写什么。说乱了没关系,它会自己整理,你中途改口也能在输入端直接替换。它把“写作”这个高认知负担的任务,变成了“说话”这种低负担的自然行为。

Daily Brief的定位是个人信息管家,它会每天翻你的邮箱、日历、任务清单并给你一份摘要,还会提醒你下一步该做什么,这背后是对你个人数据的深度理解和全家桶的生态绑定。

NotebookLM与Gemini的打通更是知识工作者的福音,你可以丢一堆资料进去让它生成带动画的讲解视频、卡片、测验,还能导出PPT。你在Gemini里创建的笔记会自动同步到NotebookLM,知识管理的门槛被进一步拉低。

三、Agent:从你操作到它干活

这是整场发布会的主线,Antigravity 2.0从一个IDE插件进化为真正的Agent工作环境,包括全新的桌面应用、CLI和SDK,开发者还能把谷歌的驾驭工程搬到自己的服务器上。现场演示了同时用93个子Agent并行跑,在12小时内从零构建了一个可运行的操作系统,总成本不到1000美元。

Gemini Spark是对标OpenClaw的个人Agent,它跑在云端虚拟机上,24小时不间断。你关掉电脑,它还能替你去翻文档、查邮件和聊天记录,从中抓出关键信息并按你的风格起草派对计划。它甚至能从Google Drive里翻出业主协会章程,提醒你周五下午前不能在院子里布置充气城堡。

Android Halo则是Agent的UI层级,过去安卓是为App设计的,Halo开始为Agent设计。Agent在后台做什么、做到哪一步、要不要你确认都能在状态栏顶部显示。你不需要打开任何App就能感知Agent的存在,这将带来从“你操作”到“你监督”的交互范式根本转变。

四、搜索:25年来最大升级

现在的搜索框里不再只能打字,你还可以丢图片、文件、视频进去,AI会跨模态理解并主动帮你补全问题。AI Overviews和AI Mode的合并还能让你从搜索结果页自然过渡到对话式追问。

Search Agents是真正的新物种,你可以在搜索里创建Agent,让它7x24小时在后台帮你盯着。比如跟踪市盈率小于15的股票,一旦有变动就推送给你。

最震撼的是,搜索现在可以直接生成交互式UI。比如你问“黑洞如何影响时空”,它会直接生成一个可以拖拽参数的3D可视化页面。这背后是Antigravity在驱动,它会实时生成并运行代码,最后把渲染效果嵌入到搜索中。

五、电商基础设施:AI开始替你花钱

这是全新板块,也是最容易被低估的。UCP(通用商务协议)是一套让Agent自己去买东西的通用规则,类似HTTP之于网页。亚马逊、Shopify、沃尔玛、Target都已加入,连Meta、Salesforce、Stripe也进了技术委员会,这帮竞争对手难得坐到一桌共同构建新的行业标准。

AP2(付款授权协议)在让你得以给购物Agent设三道护栏:具体品牌、具体商品和金额上限,三个条件全部满足才能下单。每笔交易都有防篡改的数字授权书,这在一定程度上解决了“AI乱花钱”的信任问题。

Universal Cart是真正的杀手级应用,它是一个跨商家、跨服务的智能购物车,将于今年夏天在美国上线。你在搜索、聊天、看视频、读邮件时都能顺手往里加东西,然后购物车自动帮你比价、找折扣、检查兼容性。比如你先往加了一块主板,系统发现它和你之前买的CPU不匹配还会主动提醒你更换。

六、视觉生成与科研:补齐创意与科学的工作流

Google Pics、Stitch、Google Flow、Flow Music构成了创意工具的全家桶。从图片编辑(目标分割、元素单独编辑)到UI设计(实时语音协作),从视频特效(保留动作只改环境)到音乐生成(一段动机变完整编曲),Google正在把创作者的整个工作流全部包揽。

更被低估的是AI科研,Gemini for Science包含假设生成器(多Agent论证科研假设)、计算发现引擎(并行生成代码变体,压缩实验时间)、科学技能包(整合30多个生命科学数据库),Weather Next提前3天预测了梅丽莎飓风,Isomorphic Labs用AI加速研发的新药已进入临床前阶段,Code Mender能自动发现代码漏洞并修复,这些都是谷歌长期积累的科研实力在AI时代的释放。

七、设备与芯片:AI的物理载体

Android XR眼镜目前有两条路线:带显示屏的(今年晚些时候扩大测试)和今年秋天要发的音频版本(无屏幕,靠声音交互)。现场演示中,你只需对眼镜说“带我去上周跟朋友见面的地方”,Gemini就会设好导航,并主动问你要不要顺路买常喝的冷萃咖啡,然后自己在外卖App下单。最后你还能用眼镜拍合照,让Gemini把照片变成卡通风格并加个大飞艇,这一切在你拿出手机之前就完成了。

TPU第八代则首次采用双芯片路线,其中TPU 8t主攻训练,算力接近上一代的3倍。TPU 8i主攻推理,延迟极低,每秒可生成近1500个token。相比其他厂商对英伟达的依赖,这是谷歌独有的硬件底气。

八、安全与信任:SynthID成为行业标准

发布会上最令人意外的消息是OpenAI、Kakao、ElevenLabs都宣布将采用谷歌的SynthID水印技术,英伟达去年已经加入,Sony Pictures、Reuters、TikTok也在路上。在AI生成假内容泛滥的今天,内容溯源已是基础设施级的刚需。曾经的竞争对手能放下芥蒂来合作,说明谷歌在这个信任层上成功卡位。

九、商业模式:从免费互联网到AI订阅基础设施

整场发布会下来,信息量大到让人有些缺氧。但当这些AI功能真正开放给几千万、几亿人使用时,一个最现实的算账问题就摆在了面前:这笔庞大的算力开销,谷歌要怎么挣回来?

过去二十多年,谷歌代表的是一种典型的免费互联网模式。用户用注意力和数据换服务,谷歌用广告和分发来赚钱,这套模式让谷歌得以成为互联网时代最强的基础设施公司。但大模型推理的成本,和查询一次搜索结果完全不在一个量级。长上下文记忆、多模态生成、跨应用Agent、企业级自动化,这些能力背后都是持续运行的算力消耗。

这就是为什么整场发布会下来,看似讲的是体验升级,背后指向的却是订阅、企业合同、算力账单和长期服务费。免费入口当然不会消失,那仍然是谷歌获取用户、数据和生态位置的基础。但在这些入口之上,谷歌正在叠加一个新的智能服务层:更强的模型、更长的记忆、更深的系统权限、更复杂的任务执行以及更稳定的企业级服务。

Gemini Spark发布的同时,谷歌也调整了订阅价格体系。换言之,Google正在从免费互联网服务公司变成AI订阅基础设施公司。用户愿意为搜索付费吗?通常情况下不会。但如果是一个能替你全天候处理邮件、统筹任务、分析报表、接管智能家居,甚至还能帮你写代码开发App的“超级全能助理”呢?这正是今年Google I/O迫切想要验证的核心商业命题。
01
莫唯书Mark
6天前
对于AK的最新动向,我的评价是情理之外意料之中,在不确定中保持一线的前沿手感和发展前瞻性将变得尤为重要
00
莫唯书Mark
7天前
豆包的成功、困境与另一种可能

作为国内唯一一个日活过亿的AI助手,豆包无疑是字节跳动过去十年产品方法论的极致体现,它用了不到两年半的时间就走完了抖音、今日头条曾经走过的路。但走到半路时,却发现脚下的赛道变了。

一、字节方法论:顺人性、重数据、快迭代

豆包的崛起,几乎复刻了字节所有爆款产品的成长路径。产品名字要朗朗上口,图标要亲民,声音要像知心朋友,交互要自然好上手。这些细节背后是对“人”的深刻洞察,相比冷冰冰的效率工具,大众用户更想要一种有温度的陪伴。

这套方法论的核心,是顺应人性而非挑战它。用户懒,就让操作变得更简单。用户喜欢新鲜,就不断产出新奇玩法。用户需要被取悦,就让AI学会撒娇、生气、甚至被“逼疯”。于是当抖音博主把豆包训练成毒舌点评员、穿搭翻车教练时,流量爆发了。正如当年抖音所经历的一样,字节最擅长的就是捕捉这些用户自发创造的玩法,迅速放大,形成传播。

另一个关键能力,是用工程手段来弥补当下模型的不足。模型不会读图,就用传统题库补位。模型分不清网站可信度,就手动标注信息源......这些脏活累活构成了豆包体验领先的隐形护城河,当对手还在卷模型参数时,豆包已经把产品细节打磨到像素级。

最后是组织能力的溢出,字节多年积累的中台体系、算力调度、产品孵化机制,让豆包得以站在巨人的肩膀上。当别人还在从零搭基础设施时,豆包已经在做A/B测试、优化启动速度、调整声线了。

这套组合拳打下来,让豆包在国内一众AI产品中遥遥领先,似乎证明字节那套方法论在AI时代依然有效。

二、边界显现:AI不是互联网产品

但豆包的增长,也暴露出这套方法论在AI时代的两个根本性困境。

首先是规模不经济,互联网产品的逻辑是用户越多,边际成本越低,价值越高。当下的AI产品却恰恰相反,用户越多,推理成本越高,收入却不必然增长。豆包虽日活过亿,但每多一次调用字节就要多付一笔算力账单,而用户付费意愿低,广告模式又面临体验与商业化的冲突。DAU这个在曾在移动互联网时代百试百灵的指标,在AI领域似乎却成了甜蜜的负担。

其次是数据飞轮失效,抖音越多人用,推荐越准。推荐越准,用户越离不开。但豆包面临的问题是绝大多数用户只是简单聊天或直接点预设问题,很少主动反馈,模型难以从这种低质量的互动中学习迭代。更糟糕的是,当用户提出复杂任务(如长文档处理、数据分析)时,要是模型能力不够,产品体验就会崩塌。而“笨”这个标签,正在侵蚀豆包好不容易建立起来的用户心智。

这意味着,字节在移动互联网时代赖以成功的“数据飞轮”逻辑,在AI产品上似乎玩不转了。当用户规模不再自动带来模型能力的提升,反而可能因为非核心用户的涌入稀释了有效反馈信号,这会让产品优化更难。

三、拐点已至:入口神话破灭

豆包遭遇的根本性挑战,是AI行业的底层叙事正在发生转移。过去两年,行业普遍相信聊天机器人将成为超级入口,就像微信之于移动互联网。但现实是,豆包的单用户日均使用时长始终在十分钟左右徘徊,远不及抖音曾经的增速。

更大的冲击来自技术路线的转向,今年以来最激动人心的突破并非来自ChatGPT式的对话机器人,而是Anthropic的编程智能体。它们能自主写代码、操作电脑、完成复杂任务,这种“能干活”的AI正在打开比“能聊天”广阔得多的市场。企业愿意为能提效的工具付费,却未必乐意为一个陪聊助手买单。

豆包的目前尴尬在于它用字节方法论成功做到了用户规模第一,但当用户真正需要它完成复杂任务时却还不够聪明。而聪明这件事,不仅要靠产品细节、工程补丁和用户洞察,还需要底层模型的根本突破,而字节目前在这条战线上还算不上领先。

四、另一种可能

当然,以上描述的所有困境都建立在同一个隐含假设上:豆包是一个超级应用,一个需要用户主动打开、深度使用并可能为之付费的聊天机器人。但如果它从未打算成为“AI时代的微信”,而是瞄准“AI时代的操作系统”,那么评价它的标准就完全不同了。

操作系统不需要每个用户每天使用数小时,它只需要被“预装”在尽可能多的设备上,比如手机、平板、汽车、智能音箱、甚至眼镜等新的智能硬件上。用户不主动打开没关系,只要在需要时能被唤醒,比如语音助手、快捷指令、通知栏卡片。用户规模不再是成本负担,也是吸引开发者入驻的土壤。

每当用户授权豆包执行一个任务(如订餐、设闹钟、查天气),系统可以自动记录结果和用户满意度。这些行为数据,将比“你吃了没”更有训练价值。如果第三方应用能接入豆包的技能接口,开发者的调试数据、调用成功率、报错日志都会成为模型持续迭代的燃料。

聊天机器人的停留时长天然有限,但如果能嵌入手机底层、成为所有应用的统一交互界面,用户就不再需要“打开豆包”这个动作。他们只需在任何一个界面说“嘿豆包,帮我……”,入口就从单一图标变成了环绕式服务,使用频次和场景丰富度会指数级上升。

此外,操作系统可以收授权费(向设备厂商收取预装费)、能力调用费(向第三方应用按次数收费)或是增值服务费(用户购买高阶技能),这将比纯粹的广告或会员订阅更适合AI产品的成本结构。

当然,这条路线也充满挑战。比如端侧模型如何兼顾体积、功耗和速度?第三方开发者凭什么愿意接入豆包?字节能否建立起一个更活跃的技能市场?这些问题没有现成答案。

五、被误读的豆包手机

此前字节曾与中兴合作推出豆包手机,市场反应较为平淡,似乎很快就被遗忘。外界普遍认为这是一次失败的硬件跨界,但如果我们把这件事放在AI OS的战略意图下看,就会得出完全不同的结论。

字节可能从未想过靠卖手机赚钱,豆包手机真正的目的是用来验证AI OS能否在真实设备上跑通。它要测试的是豆包能否作为系统级助手接管用户的语音唤醒、应用跳转、跨应用任务,能否在有限的端侧算力下完成常见操作,能否与第三方应用建立初步的意图分发机制。

尽管豆包手机的生命周期很短,销量也不大,但它产出了字节最需要的东西:真实设备上的AI OS运行数据、功耗测试结果、用户对系统级助手的接受度以及一套可复用的端云协同部署方案。

所以,豆包手机的使命更像是一个侦察兵,它告诉字节AI OS可行,但需要更强的端侧芯片、更完善的开发者生态、以及更耐心的资本投入。

现在回过头看,豆包App的大规模投放和DAU的快速破亿也许并非盲目追求日活,而是在为AI OS培育用户习惯。让数亿人先学会“和豆包聊天”,当用户习惯了豆包的声音、交互、人格后,未来再推出预装豆包OS的新设备时,迁移成本就几乎为零了。

所以也不难理解为什么OpenAI也会选择要做自己的AI手机,尽管它的底层架构和交互逻辑会和我们熟悉的智能手机完全不同,尽管很多人不解为什么要做一件如此重资产重投入的事情,但这正是一件从长期来看难而正确的事情。

也许最终的解法不止这一个,但这也是所有AI玩家正在求解的同一道题。
76
莫唯书Mark
7天前
AI提效的最大陷阱就是把它当成一个数字游戏

过去一年,几乎每个技术团队都在追逐一个数字:AI生成代码的比例。仿佛只要这个数字上去了,团队就“拥抱AI”了。但如果你真的去问那些业务负责人,他们往往会耸耸肩表示:代码是多了,但交付时间没变短,业务价值也没增加。

这并非个别现象,当一个指标流行起来,它就容易变成一种组织内耗。大家开始为了指标而工作,而不是为了结果。AI生码率测量的是AI最容易替代的那部分工作,比如胶水代码、单元测试、简单逻辑。这些代码往往量大但价值密度低,你让AI写十万行这种代码,还不如让工程师用一周时间把核心算法优化10%。

更危险的是代码一旦写出来,维护成本就产生了。无论是不是AI写的,每一行代码本质上都是负债,直到它被证明对业务有价值。AI则加速了这种负债的生产,以前你一个月只能写一万行代码,现在一周就能写十万行。如果这些代码的方向错了,你就是在以十倍的速度挖坑。

另一个被过度追捧的概念是Vibe Coding,即用自然语言描述想法,AI帮你生成应用。这种模式在个人项目、快速搭建原型上很爽,可一旦进入企业级存量系统就完全失效了。因为企业的核心应用可能已有十几年的技术债务,有复杂的业务逻辑,有严格的稳定性要求。AI生成的代码就像在危房里用预制板加盖了一层,看起来很新,但地基根本撑不住。

为什么企业级系统这么难?因为软件工程的瓶颈从来不在编码,而在完整的交付链路里。实际项目中写代码的时间往往只占一小部分,其余更多的时间花在了需求澄清、方案设计、跨团队沟通、联调测试、返工修复上面。AI可以把编码环节的效率提得很高,但如果你不在其他环节上下功夫,整体效能就不会有质的飞跃。

布鲁克斯法则认为在一个落后的项目中增加人力只会让它更落后,因为人与人之间的沟通成本会呈几何级增长。但AI Agent的出现带来了一些变化,它可以无损地获取上下文,可以从存量代码中抽取知识,还能在不同团队之间传递信息而不产生沟通摩擦。当沟通不再是瓶颈,并行开发的效率才真正被释放。

类似的,把质量、测试、安全等环节尽可能提前到开发早期也因为AI变得可行,过去这些很难落地是因为需要巨大的前期投入。现在AI可以帮助梳理覆盖率、生成测试用例、还原系统规格,让成本降到了可以接受的范围。

但这些工具和指标还只是表象,真正决定组织效能的是定义业务价值的能力和分配职责的方式。

定义业务价值就是判断一个功能上线后到底有没有解决真实问题,软件的长期价值90%来自“灵魂”和“骨架”,其中灵魂是业务价值,骨架是核心模型,比如数据结构、状态机和接口契约,剩下的10%才是界面、细节和优化。在AI时代,一旦能把业务价值和核心模型定义清楚,Agent就可以基于清晰的规格自动生成剩下的部分。很多团队把大部分精力花在那10%上,却对占大头的90%含糊其辞,结果就是AI生成再多代码也只是在雕刻一座没有地基的雕塑。

分配职责则意味着要重新思考人的位置,很多企业迷信“全栈工程师”,觉得一个人什么都会就什么都能做。但全栈人才天然稀缺,更务实的做法是把核心岗位收拢为两个角色,一个负责从业务意图到用户界面,融合产品、交互和前端,另一个负责从数据结构到系统稳定性,融合架构、后端和AI开发。两者之间用清晰的接口契约对齐,这样沟通链路就能从多层变成两层,摩擦大幅下降,效率自然提升。

其实说到底AI就是一面放大镜,它既会放大你的能力,也会放大你的错误。AI只能帮你更快地到达,但方向只能由你自己定。
02