谷歌Gemma 4来了,利好豆包手机这类AI工具,会弱化手机App
昨天一位老同事兴奋地跟我说,谷歌开源模型Gemma 4已经能在他手机上本地跑起来了,还能识别图片和声音。 这件事让我想到了去年火过一阵的豆包手机,当时它的跨App自动操作功能让人特别期待,本来可以类似于今年OpenClaw一样成为一个帮人干活的好助手,但是因为各大手机APP的抵制,再加上Token成本、运行速度的现实问题,这类产品还是没能真正普及。 谷歌这个模型的发布,让我看到了豆包手机这种在手机内部运行的AI助手再次崛起的可能性,后续也许要从两条路一起看。 一条路,是等手机厂商自己发力,像小米、华为这些厂商都在做本地AI、系统级助手的探索,他们有硬件、有系统、有合规优势,步子会走得稳,但也会相对保守。 另一条路,则是个人开发者冲起来,更快、也更大胆地去试错。就像OpenClaw那样,由个人开发者几个月做起来的项目,没有大厂的合规包袱和流程限制,在隐私保护、成本控制这些点上,反而更容易跑出不一样的突破。
在使用模式上,这类助手其实也有两条路线可以走: 一种是全自动接管模式,让AI直接帮你做事,但这条路阻力很大,不光权限复杂,还会遇到其他APP不配合、生态不开放的问题。 另一种就是陪伴式模式——手机还是你自己在操作、自己做主,AI就在旁边默默看着、陪着你,在合适的时候给点提醒、建议、安慰,不抢控制权。 畅想:超越App,手机维度的数字搭档 1. 核心定位:“外挂感官”与“情绪容器” 这个AI不再是一个点开、问问、关掉就走的APP,它是你手机系统里的一个常驻观察者。 • 跨场景陪伴:刷短视频刷到空虚时,它能根据你的使用时长提醒你:“已经刷40分钟了,要不要去阳台站一会儿?” • 社交辅助:在微信里纠结怎么回复老板或另一半时,它能感知当前对话,贴心建议:“按你平时的风格,这样说有点生硬,加个表情会柔和很多。” • 知识沉淀:所有比价、阅读、会议记录,都会慢慢沉淀成你的个人知识库,时间越久,它就越懂你。
2. 技术实现架构:三层感知模型 要实现这种深度陪伴,技术上必须从“单次问答”转向“持续实时感知”。 A. 视觉感知:看懂你在做什么 利用屏幕读取和系统底层能力,实时“看”你的手机界面。 一直截图很耗电,所以只在页面发生明显变化时才分析画面,转成文字理解场景,不存原图,省电又省空间。 B. 语音交互:自然跟你聊天 放弃“喊唤醒词才能说话”的老模式,实现无缝对话。你可以一边玩手机一边跟它聊,它能根据屏幕内容实时接话,语气也跟着场景变。 C. 本地记忆:长久记住你的一切 在手机本地把你的行为、对话、浏览记录自动整理成结构化记忆,比如:某款跑鞋→价格499→去年收藏过同款,下次遇到相关内容就能立刻关联上。
3. 目前最难的三个技术难题 难度一:权限限制 现在安卓和iOS对隐私管控很严,长期后台感知屏幕、占用芯片资源很容易被系统杀掉。个人做的话,需要借助工具提升权限,保证AI不会被随意关闭。 难度二:记忆串台 短时间内频繁切换APP,AI可能会记忆混乱,比如回邮件时突然提到淘宝商品。解决办法是按应用划分场景,不同APP用不同对话逻辑,互不干扰。 难度三:手机发热卡顿 持续开多模态感知会让手机发烫、降频。所以要做两套模式:平时低功耗只记录文字,你主动提问或遇到复杂画面时,再全力运行。
跨APP AI助手:我自己去年的实践
以上内容并不只是畅想,我自己其实是有一些实践基础的。
去年夏天发现豆包APP(不是豆包手机)的通话功能可以在切换到其他APP继续使用,我自己也尝试AI编程了一个类似App。其实并不复杂,只要在手机上授予这个APP屏幕直播的权限以及后台语音权限,就可以实现这样的功能(使用其他APP,然后同时可以跟豆包APP语音对话)。
按照现在的AI编程工具能力来讲,几个小时就可以把原型做出来。但是,如何让这个AI助手在耗电方面、在反应速度方面、在记忆方面表现更好,那就需要更长时间努力了。当时我调用云服务器上的AI能力,卡顿是非常明显的。
现在有了谷歌这样的模型,可以把大部分的AI处理能力放到本地执行。
我没有觉得要100% 的本地执行,一些复杂的事情还是可以在云服务上执行。