即刻App年轻人的同好社区
下载
App内打开
Charlii
36关注21被关注0夸夸
AI creator and learner|charliiai.com
Charlii
4天前
最近豆包手机爆火,很多人问我,豆包手机的自动操作到底能不能在普通手机上实现。我最近集中测试了三款不同的智能体,它们都能在手机上执行真实动作,完成跨应用的复杂任务。这里按我自己的真实体验整理,方便大家选择。

1. AutoGLM Phone Agent

它用 ADB 控制安卓手机,也是我最早上手成功的智能体。对我来说,它的最大优势是稳定。我第一次测试时,只给它一句指令,让它打开小红书并搜索上海咖啡店。它能判断自己当前在桌面,从桌面启动应用,再定位到搜索框并输入内容。整个过程的动作序列很自然。我又试了淘宝、微信等应用,识别率和执行质量都不错。更重要的是,它支持无线调试,只要电脑和手机在同一个网络里就能直接操作,这一点对我做自动化测试特别有用。

2. MobiAgent

相较于 AutoGLM,它更像是一个“会思考的手机大脑”。我在密集测试中发现,它最大的特点是能进行多任务处理,而且具备一定的偏好记忆和经验检索能力。我给它设计了一个完整流程:先在小红书找畅销牛仔裤,再切到淘宝比价,最后把结果通过微信发给同事。原本以为会中断,但它整个链路都执行下来了。尤其是跨应用跳转时的判断,很接近真实用户操作。用几次之后,它执行同类任务的速度明显更快,这说明经验模块确实在起作用。如果你希望手机自动处理复杂流程,这款的上限更高。

3. PhoneAgent

这是我在 iPhone 上找到的可行方案。因为 iOS 生态限制多,我原本不抱太大希望,但它使用 Xcode 的测试框架获取界面信息,再让模型做规划和动作执行。我第一次试的时候,让它给朋友发消息。它能准确打开信息应用、定位对话框、输入内容并发送。虽然速度比安卓方案略慢,但考虑到无需越狱,这个能力已经非常突破。我后来又试了设置类操作,例如切换某些系统项,也能正常完成。对纯 iPhone 用户来说,它算是真正能执行动作的智能体,而不是只停留在“问答层面”的助理。

4.总结干货

整体体验下来,如果你需要的是稳定、通用、能快速落地的安卓智能体,AutoGLM Phone Agent 足够胜任。如果你追求更强的理解能力、复杂任务规划和持续学习效果,MobiAgent 会更像一个可以培养的数字助理。而如果你是 iOS 用户,目前 PhoneAgent 是最接近豆包手机体验的方案,可以让你的 iPhone 获得基础的自动操作能力。

这段时间的持续测试让我更加确认,手机智能体正在重塑人与手机的交互方式。过去需要手动脚本才能完成的操作,如今模型已经能自己看界面、想步骤、动手执行。前段时间我那篇“解放双手的 AI 读微信”文章之所以爆火,也说明大家已经准备好接受这种新范式。

它的意义不在于自动化本身,而是普通手机也能拥有“代理人”能力,不再依赖特定机型。结合最近豆包手机因自动发微信引发的封号讨论,更能看出行业正处在从“人做事”到“人机协同”的关键过渡期。

#手机智能体 #手机自动化 #豆包手机平替 #AI工具 #安卓自动化 #iOS自动化
#人机协同 #AI实测体验 #工作提效
00
Charlii
7天前
前阵子听了一期播客,有句话当场把我砸醒:

在AI时代,做对所有事,也可能是最危险的。

我一开始不信。 但越想越觉得扎心。

因为现在的人,都太想“做对”了: 选对专业、走对路子、说对观点、发对内容…… 甚至连用 AI 都要问一句:“这样是不是最标准的做法?”

可如果“正确”变成生活的主旋律, 我们就会慢慢变成—— 更高效、但更没灵魂的机器。

01 “做对”久了,人就开始变得可替代了 我以前的状态特别典型:

选题做安全的

内容做稳妥的

脑子里只有一个想法:别出错

结果内容是对的、表达是对的、逻辑是对的,
就是没有味道。

那种感觉特别微妙:
你没犯错,但你不鲜活。

这就是回归值人生:
不偏、不冒险、不卡壳、没有惊喜。

你知道最讽刺的是什么吗?

AI 做这种“稳定到没性格”的事,比我们强太多了。

也就是说,
你越追求正确,你越容易被替代。

02 我反而开始用AI,让自己不那么“对” 我现在每天会问 AI 三个问题:

今天我是不是又在走老路?

做的事情是不是:

熟悉

确定

安全

可控

这些其实全是回归值。

我今天做了一件“可能做错”的事吗? 新尝试、新表达、新视角都算。
很多灵感就是在“不确定”里冒出来的。

我是不是被信息流牵着走了?
只要手机一刷就半小时没了,
这是在被算法驯化,不是生活。

AI 在这一步很像一面镜子:
照见我是不是活得太稳定、太拟合、太正确。

03 我强迫自己每周制造一点“偏差”

不剧烈,只要一点点:

去不熟悉的地方工作

换一个完全没试过的内容形式

读一本不会上热门推荐的书

做一个没把握的小项目

这些微小的“异常值”,
会让你从算法、舒适区、惯性里跳出来。

你会发现,人只要偏一点点, 整条线都会变得不一样。

04 AI 时代真正危险的不是“做错”

而是:

你的人生太对了,太像机器了。

AI 最擅长“对”。 你最擅长“偏”。

偏向好奇,偏向真实,偏向喜欢的事,
偏向你自己。

这是人类在这个时代最后的护城河。

如果你看到这里,可以问自己一个简单的问题:

我最近做对了很多事,但我有没有做“属于自己”的事?

如果没有, 你可能正在成为一台非常高分、非常没味道的机器。

#AI思考 #成长思维 #反完美主义 #数字生活 #信息过载 #打破舒适区 #自我觉醒 #人生选择
00
Charlii
18天前
最近在研究 Nano Banana Pro,发现一个超强提示词宝库,把最好用、最容易出图惊艳的风格都整理给你们——新手直接套用就能爆量!

🔥 1. 超写实氛围大片
关键词:hyper-realistic、8k、golden rim light
效果:皮肤细节清晰、光影绝美,做封面超强。

2. 2000 年代数码相机自拍
关键词:early-2000s digital camera、harsh flash、grain
效果:复古 Y2K 风,随便一张都像旧相册翻出来的。

👼 3. 维密后台闪光灯
关键词:Victoria’s Secret、feather wings、crystal beading
效果:闪亮华丽、摄影棚感十足,写真必备。

🐱 4. 无限递归猫图
一句话:recursive image of a cat holding an iPad
效果:无限循环,超级洗脑好玩。

📊 5. 草图秒变麦肯锡流程图
关键词:McKinsey style、vector、strict grid
效果:职场利器,白板涂鸦能直接变 PPT 素材。

🎞️ 6. Portra 电影感人像
关键词:Kodak Portra 400、golden hour、film grain
效果:氛围大片质感,自拍直接拉满故事感。

🧸 7. Pop Mart 3D 头像
关键词:C4D、Q 版、soft lighting
效果:可爱到爆的盲盒风,换头像首选。

#nanobanana #AI绘图 #提示词共享 #AI写真 #Y2K自拍 #3D头像 #小红书AI
这些提示词都是实测最稳的风格,有图需求的可以留言我帮你写。
01
Charlii
21天前
最近听了一场闭门分享,我对中国 AI 出海的认知被彻底改写了。原来我们在全球的竞争力,已经悄悄发生了质变。

Web 端回到主舞台
AI 应用的核心场景在桌面端,Web 上线快、迭代快、不需要审核,比 App 更适合出海测试。很多团队发现:Web 做强了,App 可做可不做。

中国团队的体量越来越大
百万级 MAU 应用不断增加,千万级别也在扩张。不是“偶然爆款”,是整体实力在提升。

传统 App 团队 + 原生 AI 团队全线加速
ChatGPT 后,中国团队反应极快:

新团队直接做海外

老团队迅速把产品 AI
中国式优势就是:快、落地、能商业化。

视觉赛道是中国天然强项
视频、图片、剪辑类应用几乎占了榜单一半。视觉内容自带传播效应,中国团队又擅长做工具类,增长自然更快。

AI 虚拟人正在爆发
日均使用时长超过 50 分钟,是我最震撼的数据。虚拟人能建立“情感连接”,而中国团队在虚拟社交方向有多年积累。

工具类产品稳、准、能赚钱
视频生成、内容生成、RAG、Workflow…
虽不一定最热,但商业化持续稳定,生态价值很强。

字节的打法很典型
不是押一个产品,而是大量实验、快速放大跑出来的。
这也是 AI 应用时代最高效的方法论:试出正确答案,而不是想出答案。

出海成功团队都有三个共性

看得懂全球市场

定位清晰

流量能力强
这三点组合,就是中国 AI 的底层优势。

看完这场分享,我越来越确信:
中国 AI 出海的真正增长,才刚刚开始。#AI出海 #中国AI #AIGC #AI应用 #AI趋势 #产品洞察 #出海增长 #AI创业 #AI工具 #虚拟人
00
Charlii
23天前
最近真的被几个朋友疯狂安利 PDF 翻译工具,因为大家最大的痛点就是:
“翻译完排版乱成一锅粥,公式也变表情符号了……”
于是我亲自去试了两个开源工具,结果真的有被震惊到。

📌 1. BabelDOC:一键翻译+双语对照居然这么丝滑

它主打“英文 PDF 中文”的高质量翻译,可以直接生成双语版 PDF,原文和译文一左一右,非常适合技术资料、英文手册、学习文献。

亮点包括:

全文一键翻译成中文

支持输出双语对照版 PDF

扫描 PDF 也能处理(内置 OCR)

支持命令行和 API,可接入自己的工具

如果你只是想把资料快速变中文,它真的够用了。

📌 2. PDFMathTranslate:排版完整度惊人(甚至有 Zotero 插件)

这个更偏科研党使用场景,厉害的是:
公式不乱、表格不炸、结构不变。
翻译后文档的可读性非常高。

它支持:

多翻译源(Google、DeepL、OpenAI 等)

GUI、命令行、Docker 等多形态

甚至有 Zotero 插件!读文献时右键直接翻译,超爽

对于论文用户,这种“就在 Zotero 里一键翻译”的体验简直太方便。

📌 怎么选?给你一个最简单建议:
想要快速中文+对照版 BabelDOC

想让排版不乱+公式保留 PDFMathTranslate

要做自己的翻译服务 两个搭配最好用

我现在读英文论文基本不头疼了,这两个工具真的把“翻译 PDF”这件事提升到新高度。

#PDF翻译 #论文翻译 #翻译神器 #双语PDF #科研工具 #BabelDOC #PDFMathTranslate #Zotero
20
Charlii
23天前
的确如此,创意与 taste 在 AI 时代 永远是最稀缺的 //@A轩影小飞: 剪辑难得的是怎么把这些垃圾素材,串成故事,需要连续的视频识别,情绪感知,现在ai全在读图片,这些是做不到完美剪辑的结构性原因

Charlii: 🎬 剪映自动化?我用AI实现全流程剪辑! 做视频最耗时间的,从来不是创意,而是剪辑。 导素材、加字幕、调节节奏、导出成片…… 如果能让AI自动完成这些,我还能多喝几杯咖啡☕️。 于是我开始研究「AI自动剪辑」这一条路, 最后试出了三款神器:pyCapCut、Remotion、OpenCut。 🧩 1️⃣ pyCapCut:剪映的AI外挂 📍GitHub项目:GuanYixuan/pyCapCut 这是一个能用Python直接控制剪映的开源项目。 它可以让你用脚本完成剪映所有操作: 📂 批量导入素材 💬 自动加字幕 🎞 一键生成转场和时间轴 📤 自动导出视频 就像是剪映装上了“自动驾驶系统”。 搭配AI生成脚本、配音、镜头指令,你就能实现全流程无人剪辑。 💻 2️⃣ Remotion:用代码写视频 📍官网:remotion.dev Remotion彻底改变了视频生产的逻辑。 它让你用 React代码生成视频, 想做动态标题、AI生成动画、数据驱动视频?直接写几行JS。 适合程序员、产品经理或AI创作者。 尤其搭配ChatGPT或Claude写脚本, 可以实现“代码控制镜头”的未来感操作。 🎥 3️⃣ OpenCut:AI版Remotion,更聪明的剪辑工厂 📍GitHub项目:OpenCut-app/OpenCut 它在Remotion基础上加入了AI能力。 能根据文字脚本自动生成视频结构、镜头分配、音轨匹配, 甚至一键渲染。 如果你在做AI内容创业、或想打造自己的AI视频产品, OpenCut就像是一套“AI影视工厂系统” 🎯 我的建议: 如果你想快速上手AI剪辑:从 pyCapCut 开始; 如果你想构建自己的AI视频系统:去玩 Remotion 和 OpenCut; 真正的未来,不是“人剪视频”,而是“AI帮人创作”。 🌱 剪辑从来不是门槛,而是流程。 当你让AI帮你完成重复工作, 你的时间,才能真正花在创造上。 #剪映自动化 #AI视频 #AI剪辑 #pyCapCut #Remotion #OpenCut #AI工具 #AI创作 #AI自动化 #AI效率提升

00
Charlii
26天前
互联网的脆弱,远超你想象…

大家好,我是 AI 博主 Charlii。

昨天你是不是也遇到这种情况:
👉 页面卡住
👉 登录失败
👉 网站转圈转到怀疑人生

不是你网坏了。
Cloudflare 故障导致全球大面积宕机。
而最让我震惊的是:
罪魁祸首竟然是一个小小的系统变更。

🫧 互联网的大厦,有时会被“蝴蝶效应”击倒

Cloudflare 是全球最大的网络基础设施服务之一。
它一旦出问题,成千上万个网站瞬间停摆。

但这次事故并不是黑客攻击、不是大规模故障,
而是一次看似普通的权限调整:
工程师给数据库加了个“更细粒度的表权限显示”,
结果一个查询没指定数据库名,
导致本来只返回一份数据 突然变成两份。

这份数据又会被自动打包成“特征文件”,
在反爬虫系统里用来判断“是不是机器人”。

文件变大 超过固定上限 模块直接崩了。
更要命的是:
这个文件每 5 分钟自动下发一次,全网同步。

于是互联网开始“心跳骤停”:
5 分钟好一次,5 分钟坏一次。
像在坐过山车。

工程师一开始甚至以为遭遇了超大规模 DDoS 攻击。

⚠️ 那几个小时,全世界的网络都在发抖

这次故障影响范围极其广:

CDN 服务大量报 500 错误

Turnstile 验证挂了,很多人登录不了

Workers KV 出现大量异常

Access 身份验证失败

邮件安全部分功能下线

甚至旧版本代理系统虽然没直接报错,
但所有流量突然被判定为“机器人”,
直接把无辜用户拦在门外。

短短 3 个小时,互联网的稳定性被撕开了一条口子。

🌪️ 对我触动最大的,是互联网的“脆弱”

我们习惯了:

网页随时能打开

视频随时能播

支付随时能走

登录随时能成功

但背后其实是:

几十万个服务同时协作、链条超长、依赖极多,
其中任何一个环节出现一个 tiny 变更,
都可能触发蝴蝶效应。

我们以为互联网坚不可摧,
但其实它脆弱得像玻璃——
宏大,却依靠无数细小碎片才拼成完整。

💡 这件事让我重新认识了三个事实:
1️⃣ 稳定是最昂贵的奢侈品

我们觉得“正常”是理所当然的,
但那是无数工程师、架构师的努力撑出来的。

2️⃣ 越依赖网络,我们越需要理解它

不是让你学技术,而是理解:
数字世界同样有风险、脆弱性和极限。

3️⃣ 小改动,也能改变世界

一个查询少写了一个字段,
影响的却是全球数十亿用户的互联网体验。

复杂系统里,永远没有“无足轻重”的改动。

🤍 最后,我想问你:

昨天宕机,你的第一反应是什么?
你有没有因此突然意识到:
数字世界看似稳固,其实一直在被人类拿命维护。

如果你想继续看我拆解:
📌 数字时代的危机
📌 AI 世界的 Bug
📌 科技背后的故事

欢迎点个收藏,我会继续和你一起看懂这个世界。

#Cloudflare #网络宕机 #技术热点 #AI博主Charlii #数字时代 #互联网的脆弱 #工程师日常 #科技科普 #复杂系统 #热点解读 #今日份分享 #冷知识 #数字焦虑 #科技思考 #互联网安全
00
Charlii
27天前
我为什么开始研究截图 API?

AI 技术内容久了,会进入一个状态:写教程要截图、做自动化要截图、跑监控要截图。
我最痛苦的一次,是为了示例图连续重截五小时——不是比例怪,就是清晰度糟,还经常加载不全。

那一刻我意识到:
技术内容能不能高效产出,取决于截图工具选得对不对。

于是我开始系统测试三类方案:Cloudflare Screenshot API、Microlink Screenshot、Headless-try(无头浏览器)。
下面是踩坑后的真实总结。

01|追求“稳定可控”:Cloudflare Screenshot API

我做 SSR 性能教程时,各种 API 截出来不是半截样式就是半截空白,但 Cloudflare 始终稳定。
优势在于:

支持全页 & 指定元素截图

可注入 JS/CSS

可调 viewport、deviceScaleFactor

基础设施稳,适合长期跑

如果你需要高清、干净、可控的截图,它是最专业的选择。

02|追求“最快产出”:Microlink Screenshot

赶内容的时候,我只需要一句话:快点给我一张图。
Microlink 就是为这种场景设计的:

URL 即可

几乎零配置

十几秒搞定

适合博客封面、预览图、轻量内容制作。

03|要处理“复杂流程”:Headless-try(无头浏览器)

有些页面必须:

登录

点击

等待渲染

托管服务都搞不定。
无头浏览器的好处是:你可以完全控制页面行为,模拟任意交互,适合自动化测试与复杂任务。

最简单的选型逻辑

别从技术开始想,从需求开始想:

想简单 Microlink

想稳定 Cloudflare

要交互 Headless-try

这套逻辑至今帮我节省了大量时间,也让内容产出效率提升数倍。

希望你能少踩我踩过的坑。

#AI博主charlii #截图API #Cloudflare #Microlink #无头浏览器 #技术工具拆解
00
Charlii
28天前
这两年研究 AI,我发现一件特别有意思的事:

身边那些突然变厉害的人,并不是努力到极致,而是他们的“世界模型”突然升级了。

成长不是慢慢变强,
而是突然跳到一个新版本——
就像 GPT-4 横空出现的那一刻。

💡真正的差距,不是努力,而是“抽象层级”

我把身边人分成三种“版本”:

🧩 1)任务型:只会解决眼前问题
像早期 GPT,你问啥答啥。

🧩 2)系统型:开始构建规模化方案
已经带点 Agent 的影子,
不是“做事”,而是让“事情自己发生”。

🧩 3)高维型:直接重写规则
他们不会问如何赚钱,而是问:

能不能改变一群人的习惯?

能不能重塑一个行业?

能不能让世界按另一种秩序运行?

这就是“抽象层级”的差别。

🔍 那些身边的“突然开悟者”,本质是模型升级

你会发现,他们:

看问题的角度突然高了

情绪稳定得像换了芯片

判断快到让人跟不上

原来纠结的事,现在根本不在他们的认知里

不是变聪明了,
是看见了更高维度的世界。

✨如果你正在迷茫,请记住:

你缺的不是更多努力,
也不是更多资源。
你缺的,是一次——
认知维度的跃迁。

当它发生时,你会像那几个“突然开悟的身边人”一样:
指数级成长。


#AI博主 #认知跃迁 #抽象思维 #成长进阶 #思维升级 #人生进化论 #AI视角 #普通人的爆发点 #成长焦虑 #自我提升日记 #认知觉醒 #高维思考 #小红书成长类
01
Charlii
28天前
谢谢!❤️ //@叔本华分华: 这种排版看起来好干净

Charlii: 以前我练演讲,总是卡: ❌ 不敢开口 ❌ 一紧张就语无伦次 ❌ 不知道怎么组织语言 ❌ 练了很久还是没感觉进步 直到我用“AI 苏格拉底式演讲教练”—— 那一刻我才发现:不是我学不会,是我一直在用“死记硬背式”的错误方法。 🎤 AI 演讲教练最厉害的不是教你,而是“逼你思考” 我让 AI 扮演演讲教练,它不会直接给我一堆讲稿或套路,而是: ① 用苏格拉底式提问逼我想清楚自己在讲什么 比如它会问我: “你这句话的核心观点是什么?” “听众为什么要听你说?” “如果只留一句话,你希望他们记住什么?” “能不能给我一个具体例子?” 这种提问方式非常恐怖(但非常有效)。 它不是灌输,是逼你“真正理解”。 而演讲最怕的就是: 你自己都没讲明白,别人怎么听懂? ⚡ ② 即时反馈:讲不好,它立刻指出问题 我说一句,它就给一句反馈: “这句话太长了” “情绪太平,可以再有点能量” “逻辑跳跃,再加个过渡” “例子太抽象,换个具体点的” 最关键的是: 卡住了,它会换个角度再解释给我,直到我真的懂 不懂 → 换语言 不懂 → 换例子 不懂 → 换场景 不懂 → 直接示范 这才是真正的“私人教练”。 🔧 ③ 每个概念都有“实战练习”,练一次就能明显变好 比如学“开场吸引力”,它会让我: 用一句话介绍主题 给两个版本:普通版 & 吸引版 它立刻批改并告诉我差在哪 学“逻辑结构”,它会让我: 用 30 秒讲一个观点 用“金字塔结构”重讲一次 给我打分、改进建议 这种“讲 → 被纠正 → 再讲 → 提升”的循环 是演讲提升最快的方式。 ⏱️ 最夸张的是:15 分钟就能看到明显进步 是那种你自己都能听出来差别的进步: ✨ 更有逻辑 ✨ 停顿自然 ✨ 不再乱说话 ✨ 思路更清晰 ✨ 能现场组织语言 真的是“当场见效”的那种。 🎯 想要我用的这段“AI 苏格拉底演讲教练提示词”吗? #演讲技巧 #表达能力提升 #AI学习法 #用AI提高效率 #苏格拉底式提问 #如何快速学会一个技能 #高效学习 #自我提升日常 #成长记录

00