即刻App年轻人的同好社区
下载
App内打开
饼干哥哥
51关注151被关注0夸夸
10 年数据分析师,现在专注 AI 编程与 agent
饼干哥哥
2天前
卧槽,海外大火的pixverse免费了!在国内叫「拍我AI」

它们的pixverse V5图生视频直接干到全球排行榜 TOP2

今天开始搞免费开放日 9月5日10点—9月10日23:59

这期间,AI生图、生视频都免💰

正好最近X 上刷到挺多基于Nano Banana的视频玩法,例如首尾帧做一些仙侠动画,可以批量跑下涨涨粉

还有动态运镜、多镜头叙事等比较高级的操作也是不用积分就能玩了。

入口:
App端:拍我AI
Web端:pai.video
02
饼干哥哥
5天前
Nano banana背后的架构创新很有意思。

对比GPT-4o的生图,本质是个“胶水模型”:它把你的需求翻译成长prompt,再扔给DALL-E 3之类的作画引擎去处理,流程是割裂的。

而Nano Banana用的则是真正的原生多模态——文本和图像全当成一样的Token流转,同一个Transformer内部消化所有信息。每一步AI都能理解你说的话,也能看懂你发的图片,能连续进行指令,不用像以前那样每一步都“重开一局”。所以你让它只改袖子的颜色,或者同时换人和换背景,它都能明白上下文到底该怎么调整。

还有一点是团队非常重视的,就是“文本渲染”能力。

Nano Banana团队把“AI能不能写对字、排好logo”当成了模型升级的风向标。
理由很简单:如果AI能把字体、结构这些高难度元素控制到位,说明它对整个图像的空间感、细节感都有了质变。
结果是,模型在文本渲染能力上进步的同时,整体图像的精细度和一致性也跟着飙升。

Nano Banana还内置谷歌的“世界模型”。

不光懂场景、懂风格、懂品牌,还能自动结合你给的图片,把风格和现实环境融合得很自然。你让它做一版广告mockup,甚至做一张带有建筑标注的信息图,AI都能自动分析要点,直接输出给你。这种对“世界知识”的运用,是其他家AI没有的。
00
饼干哥哥
2月前
现在,自动化工具很多:AI Agent、n8n 工作流、RPA、AI 编程……看着都能解决问题,但实际体验下来,各自的长短处还是明显的。

AI Agent 的本事在于能自己“思考”。你只要给一个目标,它就能帮你分解任务,比如让它每天自动抓全网竞品降价的信息、判断情绪、甚至连回复邮件都能自己搞定。
缺点:能跑 Agent且效果好的模型会贵,而且会消耗大量 token 在思考上,不确定性强,处理不标准、反应慢。

n8n 工作流 就像“自动化乐高”,有 API、流程明确的任务最合适。比如我做内容搬运,从 飞书到小红书、公众号,全部拖拉拽就能搞定。如果流程固定、工具全都有 API,n8n 上手最轻松。
缺点:遇到非标场景,或者中间有验证码、UI 操作,它就有点无能为力了。

RPA(影刀) 的应用范围比 n8n 广,只要是屏幕上能看到的、鼠标能点的,它都能录下来——尤其适合那种没有 API 的老系统,哪怕遇上滑块验证码都能自动识别、操作。可以做每天自动登录系统导报表、抢券之类的
缺点:一旦界面改版、按钮换了位置,就得重新调工作流元素。

✅AI 编程工具,比如 Cursor Claude Code,是自动化的尽头——开发脚本程序,最灵活,比如需要写个定制爬虫、处理特殊的数据清洗,一句话 Prompt 直接生成代码、还能自动加容错,效率是传统写脚本的好几倍。
❌缺点:前端网页已经很成熟了,后端开发还存在门槛

所以我现在的习惯是:
➡️ 要跟界面、验证码死磕,首选 RPA;
➡️ API 的日常流程,用 n8n 拼装;
➡️ 任务经常变、还需要“自己想”的,丢给 Agent;
➡️ 碰到特殊需求,直接用 AI 编程补刀。

说到底,每种自动化方案背后,都有它各自的最佳场景。别迷信“全能”,先搞清楚自己卡在哪一环。

最后是各种排序,有不同意见的吗?
不确定性:AI Agent > RPA > AI 工作流 > AI 编程
学习门槛:AI 编程 > AI Agent > RPA > AI 工作流
使用成本:AI Agent > RPA > AI 编程 > AI 工作流
适用场景范围:AI 编程 > AI Agent > RPA > n8n
00
饼干哥哥
2月前
ChatGPT 给结果不行,但做过程管理是一把好手。
每月 20💰付的不是 问答 AI,而是以 o3 为基座的通用 Agent,拥有超强记忆、设置定时任务、调度多个工具的能力
所以我现在的用法是:
ChatGPT 做过程管理:我会跟它讨论想法、写作模式、商业化思路
Gemini/Cursor 拿结果:写作润色、编程、出 html 等具体的落地
00
饼干哥哥
3月前
又到每个月 1 号月报时间

工作中,分享一个判断需求到底痛不痛的方式:

停它一段时间看业务有没有人找你[旺柴] 要是没人找,恭喜你,少了一项工作

之前领导们一时兴起要每个月看一个比较复杂的报表,虽然我判断这个东西没什么用且耗费时间,但我还是做了一期

然后就停了,已经过去快大半年了,并没有任何人找我问这个[旺柴]

估计工作中 70% 的需求都属于这种
00
饼干哥哥
4月前
想知道大家的提示词是怎么管理的
00
饼干哥哥
4月前
太好了 xAI 出了搜索 api 可以免费使用到 6 5

[流泪] 你但凡早点出,我都不用薅谷歌薅得这么辛苦
00
饼干哥哥
4月前
今天群里说国外的大模型很卷,谷歌今天发布会完,claude 就出 4

国内豆包、千问更了又更

[旺柴] 但在国内都敌不过 deepseek 这水货,DeepSeek 的出圈逻辑很值得回味,有空写一篇公众号文章

我觉得有几个要点

1 个是 deepseek 是首个拉低 AI 使用门槛的 AI: 深度思考能力,让绝大部分人不需要复杂提示词,简单提问就能获得很全面的回答,很惊艳

2 之所以让人「惊艳」是因为它有足够大的 AI 幻觉 [旺柴] 没错,就是耍流氓。顶级大模型为确保准确性,很「克制」的回答,没想到 DeepSeek 不按套路出牌,为了说服用户使劲说谎

3 是中美科技战的背景下,被放到牌桌上,掀起民族情绪,带来铺天盖地的「自来水」宣传

4 是低成本➕开源。如果说以上 3 个逻辑形成了第一波流量,那么第二波流量的高潮,在于各大厂商为了吃这波流量,把 deepseek 塞进自己产品不断推荐,形成了一个流量闭环[旺柴]

你觉得还有什么原因吗?
20
饼干哥哥
4月前
我说工作流昨天一直跑不出来,原来是谷歌下架了免费的 gemini2.5 pro api

果然还是那句话,机会都是有时间窗口的,后悔没有把 10 个号的 api 拉满来跑

以及 grok 也要取消 150 美元额度了,留给我白嫖的时间不多了
20
饼干哥哥
4月前
怎么实操下来 gemini.google 里的 不如 aistudio 里的好用呢
00