即刻App年轻人的同好社区
下载
App内打开
mingsheng1
65关注511被关注0夸夸
曾经微博首位产品负责人,现在某电商公司AI应用产品总监。
下班玩🦞,例如搞IM、日记…
计算机系毕业,本不喜欢编程,现在每天AI编程。
mingsheng1
06:39
谷歌Gemma 4来了,利好豆包手机这类AI工具,会弱化手机App
昨天一位老同事兴奋地跟我说,谷歌开源模型Gemma 4已经能在他手机上本地跑起来了,还能识别图片和声音。 这件事让我想到了去年火过一阵的豆包手机,当时它的跨App自动操作功能让人特别期待,本来可以类似于今年OpenClaw一样成为一个帮人干活的好助手,但是因为各大手机APP的抵制,再加上Token成本、运行速度的现实问题,这类产品还是没能真正普及。 谷歌这个模型的发布,让我看到了豆包手机这种在手机内部运行的AI助手再次崛起的可能性,后续也许要从两条路一起看。 一条路,是等手机厂商自己发力,像小米、华为这些厂商都在做本地AI、系统级助手的探索,他们有硬件、有系统、有合规优势,步子会走得稳,但也会相对保守。 另一条路,则是个人开发者冲起来,更快、也更大胆地去试错。就像OpenClaw那样,由个人开发者几个月做起来的项目,没有大厂的合规包袱和流程限制,在隐私保护、成本控制这些点上,反而更容易跑出不一样的突破。
在使用模式上,这类助手其实也有两条路线可以走: 一种是全自动接管模式,让AI直接帮你做事,但这条路阻力很大,不光权限复杂,还会遇到其他APP不配合、生态不开放的问题。 另一种就是陪伴式模式——手机还是你自己在操作、自己做主,AI就在旁边默默看着、陪着你,在合适的时候给点提醒、建议、安慰,不抢控制权。 畅想:超越App,手机维度的数字搭档 1. 核心定位:“外挂感官”与“情绪容器” 这个AI不再是一个点开、问问、关掉就走的APP,它是你手机系统里的一个常驻观察者。 跨场景陪伴:刷短视频刷到空虚时,它能根据你的使用时长提醒你:“已经刷40分钟了,要不要去阳台站一会儿?” 社交辅助:在微信里纠结怎么回复老板或另一半时,它能感知当前对话,贴心建议:“按你平时的风格,这样说有点生硬,加个表情会柔和很多。” 知识沉淀:所有比价、阅读、会议记录,都会慢慢沉淀成你的个人知识库,时间越久,它就越懂你。
2. 技术实现架构:三层感知模型 要实现这种深度陪伴,技术上必须从“单次问答”转向“持续实时感知”。 A. 视觉感知:看懂你在做什么 利用屏幕读取和系统底层能力,实时“看”你的手机界面。 一直截图很耗电,所以只在页面发生明显变化时才分析画面,转成文字理解场景,不存原图,省电又省空间。 B. 语音交互:自然跟你聊天 放弃“喊唤醒词才能说话”的老模式,实现无缝对话。你可以一边玩手机一边跟它聊,它能根据屏幕内容实时接话,语气也跟着场景变。 C. 本地记忆:长久记住你的一切 在手机本地把你的行为、对话、浏览记录自动整理成结构化记忆,比如:某款跑鞋→价格499→去年收藏过同款,下次遇到相关内容就能立刻关联上。
3. 目前最难的三个技术难题 难度一:权限限制 现在安卓和iOS对隐私管控很严,长期后台感知屏幕、占用芯片资源很容易被系统杀掉。个人做的话,需要借助工具提升权限,保证AI不会被随意关闭。 难度二:记忆串台 短时间内频繁切换APP,AI可能会记忆混乱,比如回邮件时突然提到淘宝商品。解决办法是按应用划分场景,不同APP用不同对话逻辑,互不干扰。 难度三:手机发热卡顿 持续开多模态感知会让手机发烫、降频。所以要做两套模式:平时低功耗只记录文字,你主动提问或遇到复杂画面时,再全力运行。
跨APP AI助手:我自己去年的实践
以上内容并不只是畅想,我自己其实是有一些实践基础的。
去年夏天发现豆包APP(不是豆包手机)的通话功能可以在切换到其他APP继续使用,我自己也尝试AI编程了一个类似App。其实并不复杂,只要在手机上授予这个APP屏幕直播的权限以及后台语音权限,就可以实现这样的功能(使用其他APP,然后同时可以跟豆包APP语音对话)。
按照现在的AI编程工具能力来讲,几个小时就可以把原型做出来。但是,如何让这个AI助手在耗电方面、在反应速度方面、在记忆方面表现更好,那就需要更长时间努力了。当时我调用云服务器上的AI能力,卡顿是非常明显的。
现在有了谷歌这样的模型,可以把大部分的AI处理能力放到本地执行。
我没有觉得要100% 的本地执行,一些复杂的事情还是可以在云服务上执行。
22
mingsheng1
2天前
OpenClaw 一天上百次调用,聊聊 AI记忆该怎么做

这几天对着Claude Code、OpenClaw源码反复琢磨,又统计了自己OpenClaw的真实调用数据,越梳理越清晰一个核心道理:AI能不能记事儿,从来不是单纯的技术难题,本质是成本能否扛住、产品定位是否匹配的问题。

很多人用AI只图“好用就行”,很少深究:同样是能聊天的AI,为啥有的记不住事,有的能跟着你长期干活?同样是写代码、做自动化的干活型AI,记忆方式的差别为啥能大到天壤之别?先上一组真实数据,看看我的AI使用强度到底有多高——

OpenClaw后台定时任务统计(不含手动对话):
3月24日:52次
3月25–27日:46次
3月28–29日:44次
3月30日:48次
3月31日:49次
4月1日:48次
4月2日:45次

平均每天后台自动调用约45–50次,涵盖多城市天气播报、工作日股价查询、服务心跳检查、家庭日记增量同步、万年历与日期查询等。再加上主动对话,每天平均72次。后台任务+主动对话+内部工具调用,一天轻松突破100次。

这样的调用强度,让“记忆”这件事的成本爆炸风险被无限放大。而OpenClaw之所以能做到强记忆,核心是它从一开始就不是常规项目——作为亿万富翁玩票性质的项目,它用“钞能力”打破了普通AI的成本枷锁,也走出了完全不同的产品路径。

先分清两类AI:定价与定位,天差地别

市面上的AI助手,看似都能聊天对话,实则分属两种完全不同的产品逻辑,定价、记忆能力、使用上限,从根上就不一样。

一、聊天消遣型AI:免费/低价,记忆只是“锦上添花”

像ChatGPT标准版、Gemini、豆包、元宝、文心一言这类,主打日常问答、闲聊、简单文案生成,是典型的“消遣型”。
它们的模式高度统一:

定价极低甚至免费,靠海量用户分摊成本;

人均日使用次数极少,大多在3~6次;

记忆能力普遍薄弱——大部分只有单会话上下文,关掉对话就“清零”;长期记忆要么没上线,要么只对少量付费用户灰度开放。

核心逻辑很直白:低价/免费→必须严控成本→记忆能省则省。对这类AI来说,基础问答够用就好,强记忆反而会成为成本负担,完全没必要。

二、干活生产力型AI:收费更高,记忆是“刚需”

而Cursor、Claude Code、Copilot这类,定位是写代码、做工程、跑复杂自动化任务,属于“干活型AI”,是真正的生产力工具。
它们的特点也很鲜明:

收费明显更高,多为按月订阅,单价远超普通聊天AI;

用户使用更频繁、任务更重,对对话连续性、长期记忆的要求极高;

记忆必须成为核心能力,不然根本没法跟进复杂项目。

但即便如此,这类平台依然会设置上下文额度、调用次数限制——因为就算是付费用户,无限放开强记忆,成本也会彻底失控。

所以规律很明显:越能干活的AI,越贵;越贵的AI,记忆才敢做得稍强,但仍有明确边界。

同样是干活AI,记忆设计差距为何巨大?

即便都定位为生产力工具,不同产品的记忆思路,也完全不在一个维度,核心差异体现在三类设计范式上。

1. 编辑器插件型(以Copilot为代表)

记忆范围极窄,仅包含当前编辑文件+最近几轮对话;

几乎没有跨会话、跨天记忆,重启编辑器就“失忆”;

适合单次代码编写、临时小任务,完全不适合长期项目跟进。

2. 会话助手型(以Claude Code为代表)

依赖用户手动维护一个项目说明文件,启动时把所有内容全塞进上下文;

没有智能检索、没有索引、没有时间权重,只是简单的静态文本;

随着内容增多,文件越来越大,不仅容易卡顿,还会疯狂消耗token,成本直线上升;

本质是“人工管理的静态笔记”,而非真正的动态记忆系统。

3. 长期个人助手型(以OpenClaw为代表)

记忆是系统级能力,自动采集、自动归档、自动检索,全程无需用户干预;

支持跨会话、跨天、跨任务持续记忆,能长期跟进你的各类需求;

内置压缩、召回、权重机制,兼顾记忆效果和成本消耗;

最关键的是,你可以自主配置模型,使用上限完全由自己掌控。

OpenClaw的核心差异:自部署+自选模型,掌控成本与上限

这也是它和所有SaaS型干活AI最大的区别——它不是封闭的订阅服务,而是可自主部署、自由搭配模型的工具。

你可以根据不同场景,灵活选择模型:

用便宜的小模型处理日常调用、心跳检查、基础数据查询,大幅降低成本;

遇到复杂思考、记忆整理、深度任务时,再切换更强的大模型保证效果;

调用次数、记忆强度、上下文大小,全部由你自己决定,没有平台限流、额度限制、功能阉割。

对我这种一天调用超100次、后台24小时跑定时任务的用户来说:

封闭SaaS型AI要么太贵,要么限制太多,根本无法长期稳定使用;

只有自部署+灵活选模型的模式,才能在“强记忆”和“低成本”之间找到平衡,适配我的高频使用需求。

也正因为如此,OpenClaw的记忆机制必须做得更克制、更精细——它的使用强度和上限,本就比普通AI高一个档次,容不得半点浪费。

高频调用下,记忆的成本到底藏在哪?

很多人误以为AI记忆就是“存点文本”,其实背后是一整套成本链路,每一环都离不开真金白银的投入。

1. 加工记忆的成本

每一段记忆都需要提炼、压缩、结构化,才能适配AI的理解逻辑。这个过程中,每一次提炼、每一次转换,都会消耗大量token,也就是实打实的成本。

2. 存储与检索的成本

随着记忆数量越来越多,索引搭建、数据检索、数据库维护的开销都会持续上升。记忆越丰富,检索的复杂度和成本就越高。

3. 塞入上下文的成本(最关键)

这是记忆成本的核心大头。每次调用AI,都要把相关记忆内容塞进上下文里,调用越频繁,上下文长度就越长,token消耗就越夸张,成本自然水涨船高。

这就解释了为什么:

免费聊天AI不敢做强记忆,成本根本扛不住;

收费干活AI也不敢无限放开记忆,否则会陷入成本危机;

只有自部署的OpenClaw,能通过精细化的记忆架构,在“强记忆”和“低成本”之间找到最优解。

最后说句实在的

看遍各类AI助手的设计逻辑,再对照自己一天上百次的真实使用量,结论其实很直白:AI记忆的差距,从来不是“聪不聪明”,而是“配不配得上你的使用强度”。

聊天AI:免费/低价→用户使用轻量→记忆弱,基础需求够用即可;

普通干活AI:收费更高→使用更重→记忆稍强,但受平台成本限制,有明确边界;

OpenClaw这类自部署工具:自选模型、自主控成本→使用上限更高→记忆必须搭建完整架构,兼顾效果与成本。

没有绝对完美的记忆机制,只有最适配你使用方式的那一种。当你真正把AI当成24小时在线的私人管家,就会明白:记忆从来不是一个孤立的功能,而是支撑整个AI产品的底层架构。
12
mingsheng1
3天前
元宝水平的确是有点差呀。
刚才把一段聊天记录给他,一开始说没看到聊天记录,跟他说已经发给他了,他给我一顿胡编。
这个对话总结完全是扯淡,一点真实成分都没有。 ​​​
41
mingsheng1
3天前
人与人是不同的,AI Agent也是不同的

这几天AI圈比较热闹的事,Claude Code 的代码被泄露出来了。我也好奇去翻了翻,和两个月前翻看过的OpenClaw对比,再结合自己了解的一些AI项目,有一个感受:同样是 AI Agent,AI 编程助手和我们平时用的 AI 搜索、AI 客服,在设计思路、代码实现上完全不是一个路子。

它们虽然都叫“智能体”,但一些是帮你深度干活、长期跑任务的“搭档”,另一些更像是快速回答、一次性服务的“问询台”。

比较关键的几个差异:

它是跑在你自己电脑上,还是跑在服务器上?

是只给你一个人专用,还是一堆人共享?

是只回答问题,还是能真正替你操作、调度、执行一整套流程?

这些看似很小的实现细节,决定了一个 AI Agent 到底能做什么、适合什么业务、值不值得落地。

因为这次看源码,我系统性地梳理了一下:
现在市面上的 AI Agent,到底可以分成哪些类型?
先搞懂 4 个关键点,就能看懂所有 AI Agent

1. 反应快不快
有些AI Agent要秒回,有些可以几分钟、几个小时甚至几天给结果。

2. 一次要干多久
有的问一句就结束,有的要连续干几天。类似我此前提到的机场问询台vs高管助理。

3. 成本贵不贵
就是客服,卖机票的、卖演唱会门票的、卖酒的......可接受成本差别迥异,背后的模型类型和调用次数也就不一样。

4. 过程能不能出错
写代码,过程出错无所谓,试探几次结果对了就好;客服不可以,你不能让AI给一个客户说三套话术。

就这四条,足够你判断任何一个 AI Agent 适合不适合你的场景。我把常见 AI Agent 分成 8 类:

1. 总调度型 Agent(老板型)

它不做具体执行,而是负责:
分任务、派活、协调其他 AI、盯进度、处理意外。
适合复杂业务、跨系统流程、大型自动化运营。

2. 代码与文档型 Agent

专门写代码、改 Bug、生成报告、处理法律或财务文档。
特点是:过程可以出错但是结果要符合验收标准,逻辑要强、能读长内容。
典型代表就是 Claude Code 这种 AI 编程工具。

3. 情报整理型 Agent

帮你盯行业新闻、扒竞品动态、汇总舆情、生成日报。
要求信息真实、不乱编、速度快。

4. 客服行政型 Agent

就是我们最常见的 AI 客服。
特点是:快、便宜、标准化、不乱说话。
一次性问答为主,不做深度决策。

5. 导购推荐型 Agent

根据你的喜好推荐商品、旅行方案、保险配置等。
需要多轮聊天、记住偏好、引导需求。

6. 内容创作型 Agent

写文案、想标题、做脚本、搞创意。
一些底线不能突破,在此之上不要求百分百精准,但风格要对、表达要顺。

7. 学习陪练型 Agent

用来培训员工、教技能、带新人、做复盘。
可以长期陪伴、慢慢提升,不追求立刻出结果。

8. 经营增长型 Agent(业务常用)

帮商家看数据、做诊断、提运营建议、自动上活动、投广告、优化预算。
直接和营收挂钩,所以数据要准、建议要靠谱。

这次看完 Claude Code 我一大体会是:
AI 真正的未来,不是更会聊天,而是更会干活。不是回答问题,而是替人执行。

AI 搜索、AI 客服很有用,但它们属于“轻量型、一次性”的 Agent。而像 Claude Code 这样的 AI 编程助手,代表的是另一类更强大、更深度、更长期的工作模式。

还有很重要的一点,Claude code内含的逻辑就是知道AI会犯错,他们的代码表达了他们的理念:AI 会遗忘、会写错、会幻觉。所以整个系统不是“让 AI 不犯错”,而是“让 AI 犯错也能兜住、自动修好”。

人无完人,重要的是人岗匹配,以及多人协作机制。AI、AI Agent也不完美,要找到适合你特定场景的模型和Agent模式。
00
mingsheng1
3天前
刚才听一个关于AI采购的播客,听了一会不想听了,因为太夸张了。采购流程降低到几毫秒,你咋不说几纳秒呢?
我认可AI在采购流程中的价值。例如信息的抓取、分析,以及对于产品的评测。但是这种把时间降低到几毫、成本接近为零的说法,就属于大忽悠了。 ​​​
20
mingsheng1
4天前
穿Prada的女魔头又要上演第二部了,我跟AI助手聊了聊:
电影里所有“精明、干练、专业、高级”,全都是表象

真正的底层逻辑只有一句:

时尚杂志 + 时尚编辑 = 奢侈品品牌的高级销售与形象背书团队。

普拉达、香奈儿、迪奥这些品牌,负责造高价商品

杂志、主编、编辑们,负责造高级感、造梦、造身份认同

两者一配合,就能让普通人觉得:
“买这个包,我就变高级了。”

所以:

米兰达所谓的“品味、眼光、权威”,本质是品牌赋予的话语权

杂志所谓的“引领时尚”,本质是引导消费

安迪所谓的“成长、干练”,本质是学会了怎么更高效地帮品牌讲故事、卖东西

她们越专业、越苛刻、越精准,
就越能让品牌的东西显得值钱、值得疯抢。
10
mingsheng1
4天前
跳出工具做AI:从“人操作软件”到“AI调度一切,人只做总指挥”

年初我曾写过一篇展望,核心判断一直很清晰:
一味往现有工具里堆砌AI助手,走到极致也只是优化,算不上真正的变革。
走过这三个月,行业的走向让我更加笃定这一点。

放眼当下,不少产品仍在沿用旧思路:

Office、WPS 内置AI写作、智能总结

修图、设计工具加上AI生成与智能美化

各类文档、聊天、数据平台纷纷标配内嵌AI助手

就连一年前的AI编程工具,也只是在IDE侧边挂载助手,短时对话、小范围改码

这些都属于同一套逻辑:在工具内部做AI。
路径始终是:人打开软件 人操作工具 AI在旁辅助。
AI被局限在单一应用之内,只能完成碎片化、短周期的辅助工作,一旦涉及跨工具、长流程、复杂协同的任务,便难以承接。

其实行业在一年多前就出现过一次重要转向:
Copilot 走向 Agent,从固定工作流转向具备自主行动能力的智能体。
业内普遍意识到,AI不应只被动响应,更要主动推进任务。
可即便进入Agent时代,绝大多数仍只是工具内智能体——
名字看似前沿,本质仍是升级版助手,依旧没有跳出单一软件的边界。

真正的进化,不是让AI更精通某一个工具,而是把AI放到所有工具之上。

思路需要彻底翻转:
不再是人逐个操作工具、AI随行辅助;
而是让AI作为统一的智能中枢,主动调度、串联、协同各类工具,自主推进长期且复杂的任务。
人不必再深陷执行层,不用在不同应用间反复切换,也不必逐一下达细碎指令。

人的角色,将真正升级为总指挥:
只负责设定目标、把控结果、做出关键决策,剩下的执行、调度、衔接、迭代,全部交由AI完成。

现实约束:模型能力与成本的平衡考验

想要实现“AI统一调度、跨工具长期执行”的效果,对模型能力有不低的要求,通常需要使用行业内表现靠前、能力成熟的SOTA模型,才能支撑复杂规划、工具串联、长上下文理解与稳定决策。但现阶段这类模型整体供给有限,调用成本也偏高,想要面向大量用户普及推广,还需要解决这些现实问题。

如果出于成本、供给或其他限制,改用效果一般的模型,整体体验会明显下降:任务规划容易出现偏差、工具调用不稳定,复杂流程执行成功率也会降低。这样一来,不仅很难体现出“AI调度一切”的价值,还会影响团队对项目的信心,甚至动摇大家对AI Agent实际落地的预期。这也是“工具之上的AI”从理念走向规模化应用,必须面对的现实瓶颈。
---

AI编程领域的变化,就是最直观的缩影:

一年前:AI只是IDE旁的短时助手,对话几分钟,工作几分钟

如今:AI跳出IDE边界,调度整个开发环境,承接长周期任务、全流程工作

这一领域的演进,也映照出整个行业的未来。

当下随处可见的内嵌AI,本质上都是AI发展初期的阶段性形态。
它们提升了单点效率,却没有真正把人从重复操作中解放出来。

下一阶段的核心机会,其实可以用一句话总结:
不在工具里做AI,而在工具之上做AI;
不是人使用工具,而是AI替人调度一切,人只做总指挥。
03
mingsheng1
5天前
AI 编程不知如何开始?从个人资讯小助手开始吧

一些朋友跟我聊 AI 编程,不知道该怎么起步。我的建议很实在:先别在工作里尝试,至少不局限在工作,先给自己做点小东西。

工作场合限制比较多,数据安全、权限、合规这些问题都要考虑,还没动手就容易被卡住,打消学习的劲头。个人项目就很自由,没有太多束缚,敢尝试也敢修改,更容易入门。

今天就分享一个适合新手的 AI 编程小项目,做一款属于自己的资讯小助手。我把内容分成两部分,一部分是几小时就能做完的基础核心流程,另一部分是后续可以慢慢优化的进阶内容,循序渐进,上手比较轻松。

一、基础版:四步核心流程,快速搭建可用版本

这部分是项目的核心,不用复杂操作,跟着步骤做,短时间内就能让整个系统跑起来,适合新手先上手体验。

1. 资讯获取

获取资讯的方式有很多,新手可以任选一种开始,不用贪多:

通过 RSS 订阅,抓取博客、新闻站点的更新内容,来源稳定也干净;

调用各类 API 接口,比如搜索接口(例如阿里云、腾讯云的)、基金信息、黄金价格相关接口,有免费的也有收费的,按需选择就好;

写简单程序模拟浏览器访问网页,直接抓取网页上的资讯;

也能借助微博龙虾助手这类对话工具,提取社交平台里面的有用信息。

2. 资讯存储

存储方式不用搞得复杂,怎么方便怎么来:

如果资讯量不大,直接存到本地文件里就行,TXT、JSON、CSV 格式都可以,操作门槛不高;

后续资讯量多了,需要频繁查询、去重,再存到数据库里,方便后续加工调用。

3. 资讯加工

这一步是 AI 发挥作用的环节,把杂乱的资讯整理成实用内容:

遇到英文资讯,用 AI 翻译成中文,方便阅读;

检查资讯的新颖性,过滤掉已经存过、重复出现的内容;

分析资讯和自己兴趣的相关度,筛掉不关心的内容;

AI 生成简洁的摘要,再按内容重要程度排个序。

4. 资讯呈现

呈现形式以实用好读为主,不用追求花哨:

可以做成简单网页,也能直接推送到聊天工具的对话框里,随时能看;

支持纯文字展示,也能搭配图片、视频,文字还可以用 Markdown 格式排版,阅读更清晰;

加上基础的交互功能,比如转发、复制、语音朗读、查看链接即可。

把这四步做完,一个可用的资讯小助手就搭建完成了,整体操作难度适中,新手也能顺利完成。

二、进阶版:慢慢优化迭代,让小助手更顺手

基础版跑通之后,不用着急一步到位,慢慢优化细节,就能让小助手用起来更贴合需求,这部分也不用赶进度,抽空调整就好。

1. 打通全流程,加入个性化反馈

把资讯获取、存储、加工、阅读、后续处理这一整条链路打通,实现自动化运行,不用手动一步步操作。
同时在阅读时加入简单反馈,比如标记喜欢、不感兴趣、重要程度等,让系统逐步了解你的偏好,后续推送也会更贴合你的需求。除了这种格式化的反馈,也可以加一个类似于对话的自然语言的反馈。这种就可以让AI进行处理和跟进了。

2. 技术难点与处理方式

迭代过程中会遇到一些实际问题,处理思路也比较直观:

AI 幻觉问题:可以要求 AI 仅基于原文生成摘要,不做额外延伸;关键信息保留原文片段,重要内容附上原文链接方便核对。

资讯新颖性:通过链接、标题或内容特征做去重判断,减少重复内容推送。也可以结合AI分析来给不同资讯的新颖性打分。

界面易用性:信息结构清晰,操作步骤简洁,优先适配手机阅读,整体体验会更友好。

3. 信息安全与合规

这个项目主要是个人自用,不涉及公司数据,整体安全风险相对可控,但仍有几点需要留意:

网页抓取和接口调用时,注意防范恶意代码注入等风险;

妥善保管 API Key、Token 等凭证,避免泄露带来不必要的损失;

遵守站点规则与版权要求,合理使用数据。

4. 成本与模型选择

如果关注长期运行成本,可以做简单区分:

编写调试代码时使用的模型;

日常翻译、摘要、相关性判断等任务使用的模型。

根据任务轻重选择合适的模型,有助于控制使用成本。

三、关于“这算不算编程”?

有人会说,这不就是写脚本吗,也算 AI 编程?
在我看来,这当然算编程。
日常工作里很多场景需要的正是这类自动化处理、信息整合、流程串联,不一定都要复杂架构或算法。
能够解决实际问题、提升效率,并且完整实现一套逻辑,就是很有价值的编程实践。

总结

这个资讯小助手项目,门槛适中,见效也比较快,基础版本几小时就可以跑通,使用感受自己也能直观体会到。
它不涉及敏感信息,同时有一定扩展空间,可以从简单版本逐步迭代完善。
对于想入门 AI 编程的人来说,是一个比较合适的起点,既能完整了解一套 AI 应用的流程,也能在实践中积累经验,方便后续运用到工作和生活中。
注:很多事情也未必需要从零开始,可以让你的AI助手去网上查询开源项目引入一些。
14
mingsheng1
6天前
聊一聊语音输入进行AI编程的感受

身为AI产品经理,我接触AI编程已经有一年半的时间了。这段时间里,看着各类工具不断迭代,功能一点点完善,最近在语音交互这块的使用体验,让我有了不少的感触。

在过去,大部分AI编程工具都是纯文字交互,有的甚至只有命令行,没有语音交互相关的功能,我也一直是靠着打字和AI沟通需求。
去年做一些探索性项目时,我特意尝试了语音输入输出的方式,自己对于ASR、TTS这些事情也有了一些体感。
近期,越来越多AI编程工具陆续加上了语音交互功能,我开始常态化使用,慢慢摸出了这套交互方式的好用之处,还有一些很实际的小问题。

对比下来,语音输入解决了我长久以来的痛点。之前打字的时候,不管是电脑端还是手机端,输入速度都跟不上思考的速度,敲一段需求总要耗费不少时间,还经常出现错别字,尤其是同音词类似词的歧义,比如“离开”和“立刻”、“全不”和“全部”,总要反复修改挑选,本来连贯的思路,被这些细碎的操作打断,特别影响状态。

现在有了语音输入就不一样了,当下的语音识别技术能结合语境自动纠错,不用再纠结字词对错,表达起来格外流畅。心里想到什么需求、有什么细节想法,直接说出来就行,打字可能只能勉强梳理一两百字的需求,用语音轻轻松松就能说四五百字,能把需求的背景、细节偏好、甚至一些临时想到的补充点都完整传递给AI,思维不会被输入方式拖累,这是打字很难实现的顺畅感。

当然,使用过程中也发现了现阶段的小不足:很多AI编程工具目前只支持语音输入,却没有配套的语音输出功能。有时候AI返回大段代码说明或是需求反馈,盯着屏幕看久了,眼睛会觉得累,期待能有语音播报辅助接收信息。

但这里也藏着一个很有意思的效率矛盾,也是我这段时间摸索出来的小经验:语音和文字的输入输出效率,其实是完全相反的。

语音输入的优势很明显,快且流畅,能完整承载想法;可语音输出恰恰相反,效率远不如文字。文字可以一次性呈现几百上千字的内容,我们阅读速度快,扫一眼就能抓住核心重点,需要细看时也能逐字琢磨;但如果让语音逐字逐句朗读大段内容,反而会显得拖沓,听久了容易分心,甚至会觉得是种负担,远没有看文字来得高效。

所以我去年在做几个AI探索项目的时候总结了一个小技巧:不用追求语音和文字内容完全一致。屏幕上的文字保留完整版本,方便查阅、复制、细致核对;如果做语音输出,只需要做精简的概要版就好,提炼核心结论、关键改动点,快速抓住重点即可,不用把屏幕上的每一个字都朗读出来,这样既兼顾了信息的完整性,又不会让信息接收变得低效。

其实用语音做AI编程,算不上什么颠覆性的改变,只是一种更贴近人类自然表达习惯的交互方式。从早年打字和AI沟通,到现在用语音顺畅表达,再到慢慢摸索出适合自己的输入输出搭配方式,也是AI工具一步步贴近使用者需求的体现。没有什么夸张的变革,只是这样小小的使用体验优化,慢慢让体验变得更顺畅。
22
mingsheng1
7天前
SNS引入AI推荐,更深刻理解内容的本质,而不过于依赖行为统计

最近在 X(原Twitter)上,有个小现象值得一说。

X 平台产品负责人 nikitabier 转发了工程师 Yuki Obuchi 的帖子,称赞道:
“干得漂亮,Yuki。你改变了世界!”
事情本身很简单:一位日本网友发的关于烧肉的帖子,通过平台 Grok 大模型分析后,没有花钱推广、没有官方运营助推、也没有大V特意转发,就自然地被大量不同国家、不同语言的用户看到,还引发了很多跨语言互动。

这位负责人在帖子里特别提到:这是一次完全自然的增长,也是平台第一次出现这种情况,自己都觉得意外。

更关键的是,这说明算法已经基本不再受语言的限制。这件小事,恰好把 AI 推荐和传统推荐的差别,展现得很清楚。

我们以前熟悉的信息流推荐,大多是协同过滤那套逻辑:
你看什么,就给你推同类;你说什么语言,就只给你推什么语言。
算法更像在统计行为,并不真正理解内容在讲什么,最多也就是给内容打一些标签,例如它是关于美食,还是关于交通,还是关于学习?

而新一代 AI 推荐不一样,它能“真正”读懂内容本身。它知道这条烧肉帖是日常、是美食、是轻松有趣的分享,而不是只把它当成一段日文。
于是它直接把内容推荐给全世界可能喜欢这类生活分享的人,语言不再是一道墙。

我一直觉得,未来的内容分发会朝着这个方向走:
AI 并不像传统的推荐算法那样,基于很多的参数,基于概率来猜测每个人跟每一个标签的相关性,而是更全面、更深刻、更有体系的来理解人、理解内容、理解他们可能的关系。
00