即刻App年轻人的同好社区
下载
App内打开
shimu
32关注5k被关注3夸夸
眉间放一字宽
shimu
8天前
D49 | 今天,我们开源了个AutoResearch工具

Thoth是什么?Thoth是一套AutoResearch的harness工具。 人在睡觉时,它自动根据任务去跑;人醒来时,只需要看一眼「前端面板」,进度一目了然。Thoth 解决了 AI 执行的「执行失控症」:任务会断、状态会盲、结果会假、方向会偏。它是一套开源插件,原生支持Claude Code和Codex,让 Agent 持久运行、全程可视、机械验收、长程一致。让 AI 说到做到、干完干对。地址:github.com

D49 | 今天,我们开源了个AutoResearch工具

10
shimu
13天前
忙碌一天回到家已经是凌晨,打开笔记本处理下剩余工作。听到沙发上有声音,回头一看猫在扒拉,转头继续工作。持续听到声音,再回头一看,原来已经拉💩到了沙发上(罩着罩子)……人麻了,只好起身去收拾洗掉两层罩子和沙发表面并除臭……

全部搞完洗澡躺下人难受了,我创业啥苦都没这么难受过。难受到现在脑子里还在想为啥我这么难受?

我必须发出来舒缓下。如有打扰请见谅。
83
shimu
13天前
Quick Q&A about AI Startup 2

我在24年底时写过一篇Quick Q&A about AI Startup,当时收到一些行业朋友来问AI创业、投融资相关的事情,索性就快速输出了一些判断。今天回过头来看,大部分仍可以坚持当时的观点。最近又收到比较多的询问,因此Q&A 2就来了。

Q: 你怎么看最近比较火的A2A概念?

A:和一年前看法一样是个伪概念。它有两层逻辑硬伤:
说未来世界会有非常多的差异化Agent(数量级甚至超过人类),因此A2A的网络很重要。这里面是忽略了基座大模型的进化,过分夸大了skill、harness等。这个问题和当初OpenAI匆忙搞Agent Store是一样的。基座大模型的进化,使得未来单一Agent能处理的任务会越来越复杂,不太会有专门处理某个单一任务的Agent,那么Agents之间的差异就不会大,比人类要小非常多。这样一想,是不是不需要A2A的互联网?或者最多是需要局域网而已。而且大模型的发展趋势就是不断把外部数据、能力内化的过程,出口是单一的,搞那么多交互过程反而是与Transformer黑盒的特点背道而驰;即便未来有A2A的网络,而且它还很重要,那么掌握了基座模型的公司,为啥不会自己做呢?因此,如果想投机搞一把A2A、Skill store之类的概念,我不懂,但至少逻辑是通顺的。如果以此为出发点来创业,可以再深入思考下。

Q: 你怎么看Agent创业?

A:大部分Agent创业是可以归属到投机方式的,那最好要快进快出。因为和基座大模型的引力相比,Agent创业方向的核心优势是速度快,得做到预判下一版甚至两版大模型的迭代方向来做(最近Claude源码泄漏直接把创业难度提高到预测下两版),最近一两个月立项搞harness agent创业的就很难了,产品上线打了三四个月会发现基座大模型迭代了,要么把Agent的能力内化吃掉了,要么原有那套工程优化不适用了,得重头再来。除了速度要快,本质上PK的是营销水平,这个就要思考下了。

Q:你怎么看Loopit连续融资的新闻?

A:我思考的结论:这个所谓“下一代AI抖音”的方向,可以视作上面投机方式的打法(非贬义),也就意味着要提前想清楚,后面谁会来接盘,怎么实现快进快出。背后思考是:这个产品形态商业模式艰难。首先无法向用户卖token;其次里面的很多小互动游戏无法向用户收费;那么最终剩下广告,可以问问从23年开始到现在做AIGC内容产品的公司,能挣多少广告费?这个产品形态很难变成社交媒体,本质上和每隔几年主流社交媒体上就流行一阵的meme玩法一样(一直都有的匿名AMA就是,还有23年火过一阵的各种模拟器)。形成社交媒体需要内容能立人设,形成粉丝关系(人的本性),人设包括外表、言论,才华是现代社会里人设比较不重视的了,何况是造meme小游戏的才华。外表和言论分别被短视频、推特的巨头把持。我不认为这个东西变成AI生成可以玩几下的互动就会改变。如果不是社交媒体,就变成了玩法驱动的产品,这类有很多的先烈了不一一举例,AI无非是加速了成为先烈的速度;这类产品没有技术壁垒。这个连harness都没有,只是套上Claude,扒热点meme批量搞内容生成然后投流,最终投资人的钱都贡献给了社媒巨头和LLM。这类产品据我了解就有七八个,还有上市公司做。烧完一波难以留下什么,所以综合结论是:快进快出,找好接盘;我觉得字节内部如果清醒的话不会花资源搞这个方向的,之前学着搞AI陪伴也是“类抖音”流式体验那一波已经吃了经验了。那堆产品里应该目前剩下Minimax的Talkie还能活着挣钱,因为用的自己的模型,有毛利,其他套壳的应该都搞不下去。

Q:你怎么看世界模型?

A:从科研角度,世界模型有不同的方向或者叫定义,有人尝试去统一总结叫预测下一个状态(不管是在虚拟世界还是物理世界)。但总体来讲,模型的训练方式无非就两种:纯video-based,是否引入3D数据、采集真实物理数据进来训练不是最关键的,最关键的是纯video的形式,训练的数据量、模型参数量有多少,因为引入的其他数据毕竟在数量级上还差得太远。那在这个角度,Google和字节显然优势巨大,搞这块的创业公司未来很难竞争;非纯video-based的,以虚拟世界的3D数据(包括游戏引擎相关的、3D高斯的等)或物理世界的采集数据(虽然也可以是视频形态,但重点是采集)来作主要训练数据。这个最大的问题就是数据量少,搞这个方向的创业就需要从数据飞轮到模型训练到产品商业化都具备,所需资源和能力要求是很高的,这样来看其实能做这块的公司不多,绝不是搞下训练demo就可以干的。所以最近世界模型很热,但不能盲目跟风;我们(Seele AI)尝试了第三条路,这条路我们从科研上已经论证了,跑出的demo在物理一致性、实时交互效果上要优于上面提到的路线2,部分优于路线1(但整体比不过Genie3,毕竟资源数量级差了好几个)。差不多近期会做一些研究成果公布。

Q: 你怎么看具身智能概念?

A:这个不用我回答了,已经有人把基座大模型的Agent装到具身里了,所以大模型可以做,不需要额外搞那么多具身智能(脑子不用,机械部分还是非常需要的)。反而关节物理、制造等才是门槛壁垒,硬件赛道的胜负手在硬件上,不能弄反了;Q: 那到底在基座大模型之外,有什么大机会?A:我一直认为对于大模型而言,差异化只有模态。你选定的创业方向里,模态是否能有优势、有壁垒?这是值得好好思考的问题。当然,不是说模态没有差异化就不能搞,回到本文开头的,那是投机,要快进快出,核心能力是营销。可不能往AGI去搞了。如果选择有差异的模态去做,那么就需要耐得住寂寞了,选的模态肯定是当下比较冷门小众关注点少的、区别于基座大模型的。但同时,也需要在执行动作上加一些投机,这个就属于增长了。

最后

再往后看,AI创业的分化大概率会越来越明显:一类继续走投机路线,靠速度、营销和窗口期赚钱;另一类则要在模态、数据、硬件或其他真正难以内化的能力上建立壁垒。前者拼的是节奏感,后者拼的是耐心和基本功。两条路都能走,但最怕的是嘴上讲AGI,实际做的却是一个没有壁垒的短周期生意。这次还是先用Q&A的方式,快速把最近被问得比较多的几个问题写下来。很多地方其实还可以继续展开,后面如果大家还想聊A2A、Agent创业、世界模型,或者AI创业、投融资相关的问题,欢迎进群交流。

Quick Q&A about AI Startup 2

03
shimu
13天前
下一代抖音,把人要笑死
21
shimu
19天前
最近在一边读加缪,一边搞ai。嗯,挺荒诞的。

D37|OpenClaw 组织落地的难点与解法

00
shimu
2月前
D8|这是我们内部用的框架,你直接拿去用

Build Seele AI with AI.今天是我们AI办公实验的第8天。前几篇发出来后,后台收到不少留言。有人问“你们到底是怎么推进的”,有人问“能不能给点能抄的”。说实话,看着这些留言,我挺开心的——说明大家真的在动手做,不是只看热闹。那今天就把我们内部正在用的东西交出来。

多图多文,请到公众号查看. p.s. 即刻啥时候可以直接方便写长文啊@kyth @瓦恁

D8|这是我们内部用的框架,你直接拿去用

40
shimu
2月前
这篇文章的分析和预测,到今天刚好10天,阿里成立了token事业部。林的离职就是反映出阿里在战略上此前忽略了token

shimu: 大家好。 这两天,阿里林俊旸离职的消息,在圈内动静很大。 聊瓜我不太擅长,但这件事能折射出阿里一些问题,是值得思考的。 先说结论吧,我认为是:阿里AI战略上出了问题。 为什么这么说?我们不妨跳出离职事件本身,代入一下AI基座模型牌桌上那些还有大量筹码玩家的视角,阿里、腾讯、字节、Google、OpenAI、Claude等等他们在关注什么? AI基座大模型有三个事情很重要: 01 模型战争,本质是一场长期战争 从2022年开始大中小厂一起卷模型,如今只剩少数玩家。24年、25年,我和投资人探讨一个问题:业界很多声音说Scaling Law带来的模型性能增长斜率已经放平了。我的判断一直没变:模型能力还有巨大的提升空间。 原因很简单:过去模型吃掉的主要是互联网上能被搜索引擎抓到的公开数据(也就是几家巨头手里的存量)。但还有海量“沉默的数据”尚未被消化,比如现在大火的龙虾,吃的是:用户本地数据、个人生活轨迹里那些未被电子化的信息,这些数据里当然也包括多模态。 那在这个前提下,大厂之间模型竞争“你追我赶”其实是很正常的事情。阿里通义千问的模型能力在25年时还是国内第一领先,但在后面逐渐被赶上且速度不及预期、甚至被反超,这并非不可接受。毕竟短期领先,从来不是最重要的。要知道OpenAI作为行业先行者并且资源也是数一数二的,模型能力也被反超过,直到现在在很多方面也落后Claude。 一时的领先落后没那么重要,关键在于清晰的战略和持续长久的投入,就像Google的追赶甚至反超一样。所以,我们完全可以期待通义千问半年、一年后的表现,因为出问题的不是基模本身。 02 AI行业最大的KPI误区:DAU 我个人一直不认同:用DAU作为AI相关业务的KPI,这非常传统互联网,尤其是做基模的公司。但很奇怪,很多公司都在这么做,比如24年的minimax当时1000万DAU的目标,甚至OpenAI现在还会去说。在国内就更明显:豆包、千问、元宝几乎都在看这个指标。 但对于基模来讲,真正应该看的KPI,一定是token消耗量(这点下面会说)。基模的愿景是成为AI大模型时代的水、电、煤,那token消耗量就是用水、用电、用煤量。追求DAU的KPI就会导致公司追求海量个人用户,但现实是:普通用户现在对AI的使用深度其实还不够。很多人只是问问题、写东西、偶尔生成内容。这确实能带来声量,但对模型的进化帮助有限,甚至可能是噪声。 也许大模型进化到下一阶段,载体就不是App形态呢?到那时,DAU带来的价值可能就只有品牌名字了。 所以,目前阿里千问App的DAU增长赶不上字节的豆包,在我看来现在没那么重要,全球60多亿人口,中国十多亿人口,AI应用才刚刚开始。 更何况微信都还没下场呢。国内大厂的AI竞争,严格来说才刚刚开始。 03 真正的胜负手:生态(即token消耗量) 真正决定胜负的,其实是生态。与其说林俊旸的离开是因为上面两点的短期乏力,不如说生态的失位,才是根本原因。 特别是龙虾火爆之后,minimax、moonshot、智谱接入之后带来的token消耗量暴涨,这意味着在全球开发者、自媒体中的影响力暴涨。阿里、字节、腾讯在干什么?没有第一时间去接入龙虾的生态窗口,这是很严重的战略失误。 大模型时代,全球开发者都可以创新,你无法预判下一个爆火的idea出自哪里。对基模来讲,重要的是能第一时间靠上去。 但可惜的是,阿里通义千问虽然在开源社区上做得很好,但是在生态连接上却不好。从24年到现在,巨大的基模相关的机会点:coding、agent、openclaw,可以说没有一个和通义千问是强相关的,这自然会导致在这些大机会点引发的token消耗量暴涨之时,模型能力增长变慢了。 生态爆发,会直接改变模型格局。Coding和Agent时期,带来Claude的暴涨,Gemini也乘势而起,给了OpenAI很大的压力,乃至现在美国大模型出现大乱战(最近马斯克狂批Claude的各种策略,何尝不是希望乱拳把老二拉下马自己上呢),而Openclaw这波生态,让minimax、moonshot、智谱的token消耗量直接完成了一次逆袭。当然从长期看,如果没有基模持续进化,这些公司很快也会面对大厂的价格战。 但是对阿里来说,真正的问题来自于战略判断:长期对生态机会的把握缺失,是比一个模型版本的落后、一个技术人才的流失,更值得警惕的问题。 写在最后: AI行业有自己的优势,机会窗口出现得非常快, 也许半年、一年,巨大的机会就会出现。 只是窗口期越来越短,所有人都在拿放大镜看。 只因身在其中,你不能只做一个优秀的观众。 @Xinyang @yanjun @瓦恁 @kyth

01