即刻App年轻人的同好社区
下载
App内打开
饼干哥哥
55关注283被关注0夸夸
10 年数据分析师,现在专注 AI 编程与 agent
饼干哥哥
21:37
DeepseekOCR 火了,但企业选 OCR:PaddleOCR-VL 才是 “稳定王”

最近被DeepseekOCR刷屏了,但如果真的想落地使用,我依然首选PaddleOCR-VL

以前是DS提出用OCR的方式解决模型上下文压缩效率的,确实让人眼前一亮,但此前一种“以图压文”的技术探索,属于研究性质。而在企业的场景落地下,Paddle做OCR要成熟了。我是起码7年前做数据分析的时候,要录入乱七八糟的纸质数据的时候就开始接触Paddle,迭代到上周新发的PaddleOCR-VL,对文档和图片解析的能力非常稳定项目并且增强图转文效果上,DeepSeek-OCR可能只是在纯文本的场景下能用,更复杂的场景,如报表/合同/学术PDF等需要做整理,只有PaddleOCR-VL才能「稳定」出来。
PaddleOCR-VL属于SOTA级别的方案,包括OmniBenchDoc V1.5等多个全球排行榜上都是第一 其中,对表格结构理解的表TEDS项目Paddle得分93.52而ds只有78.02,差了15+分也有点离谱的部署上更是无压力。PaddleOCR-VL只有0.9B的参数,本地甚至CPU也能跑(虽然慢点),但企业线上部署最后没有任何压力,一句话总结:企业里的OCR要求是可核验的逐字逐还原:paddleocr-vl更符合“如实记录”的标准,而DeepseekOCR更偏向压缩与重构,在复杂文档中更易引入生成式幻觉。
00
饼干哥哥
17:53
试试这个浏览器,或许比你月薪2W的运营更懂你
最近一直在忙海外营销的业务(Reddit代运营、代理搭建等),需要经常在几个Subreddit里做大量的调研与线索发现,还要养号。传统可能需要几十个人的团队,现在我们只要几个人就可以做到了。其中,AI浏览器真的帮了大忙,非常建议每个出海营销人都用起来。市面上的 AI 浏览器我试过不少,但大多停留在“总结网页”、“润色文案”的玩具阶段。直到我把挖销售线索、整理名单、写SEO等“体力活”交给 Perplexity 的 Comet时,才找到符合我设想的AI浏览器。
Comet 可以干嘛?先看几个基础操作。
1. 自动化定时任务(图2)
先到 perplexity.ai 的官方,左下角头像,点开,可以进入到任务设置页面。
让它执行每周监控相关话题的热点,新闻动态等等
2、快速查找学习内容和知识整理(图3)
可以直接把 YouTube 长视频直接转成公众号文章,同理,海外营销的转成 Linkedin文章、网站 blog,AI 写作不要太轻松!
3、标签整理(图4)
尤其是做海外市场调研,浏览器少说会开几十个标签,有时候任务还没完成,标签又不能删,非常难受,此时,可以让 Comet帮你对标签页进行整理并分组,非常好用!
Comet给AI补上了最后一公里
但它不是万能的。
它适合做什么: 在开放的、以文本信息为主的网站(新闻、博客、论坛)上,执行结构化的、有明确逻辑的任务。
它不适合做什么: 在封闭的、强依赖视觉和复杂交互的平台(如小红书、Instagram、抖音)上,执行需要感性判断的非结构化任务。例如我让它执行小红书笔记发布就失败了。。。
但无论如何,它已经把我从无数个“半小时”的泥潭中解放了出来。
你觉得 Comet 还能用在哪些“野路子”场景下?
00
饼干哥哥
17:18
用n8n+飞书监控了100个AI头部公众号动态,借势解决「选题」困难
整体搭建的逻辑:
一、采集公众号文章
1.部署wechat2rss
这一步是为了监控公众号的发布动态。由于公众号非常封闭,几乎所有公开的 rss 源都不稳定,而且考虑到要做特定的筛选,建议是自己部署。
找朋友给我推荐了wechat2rss,私有化部署 15 元/月,还挺稳定
2.搭建n8n 监控工作流
这里的逻辑是,向 wechat2rss 请求当前已订阅的所有公众号清单,然后逐个公众号处理:筛选指定时间范围的文章,其中,HTTP 节点请求的是 WeChat2rss list 接口,小白同学可以借助AI浏览器来辅导使用
3.给文章打上内容标签
这一步是把文章量化的过程,用于后续把内容标签与数据指标做交叉分析,我们才能知道哪些关键词内容在近期的势头很好,但再好的选题,也要符合我们自己的内容方向。也就是说,公众号其实是越垂直越好,什么都写,只会把标签搞乱。
而我的内容方向包括:
1️⃣ AI落地应用案例,如 AI 编程、n8n工作流、AI Agent、AI工作流等;
2️⃣ AI数据分析案例,如AI做数据分析 ppt、用户洞察、自媒体数据分析等;
3️⃣ AI多模态玩法,例如ai生图(nano banana、Seedream、Midjourney)、ai 生视频(Sora2)等
二、搭建数据分析模型
4. 在n8n把文章链接传给「极限了」api,抓取评论的数据:阅读量、数、转发率、在看数、点赞数、收藏数
5. 搭建指标体系
纯看绝对值(如阅读量、点赞数)容易产生误导,这里有平台推流、账号规模不同的问题。例如一篇10万阅读的文章有100个转发,和一篇1000阅读的文章有50个转发,哪个更具传播潜力?显然是后者。所以我们要通过“比率化”和“加权化”的方式消除量纲 ,并做多维评估。
6. 把标签和指标组合做交叉分析
三、AI做选题分析报告
7. 最终哪些标签数据好,背后就是建议做什么样的选题
8.确定选题后,筛选出这些标签的原文,给出具体的选题方向建议、内容结构
9. 形成选题方案报告
(完整的Prompt太长了,关注【饼干哥哥AGI】公众号可查看完整内容)
00
饼干哥哥
6天前
备受瞩目的 VEO3.1 上线后,网上口诛笔伐的人很多,认为不如 SORA 2

为了搞清楚它俩的真实水平,我设计了 5 个堪称“地狱难度”的极限测试,涵盖了运镜、物理、声景等核心能力。

Sora 2 pro 居然在好几个关键点上输了

https://mp.weixin.qq.com/s/Jo94WxlaQdfcGp8VC8x1Rg

00
饼干哥哥
12天前
我用n8n+飞书监控了100 个AI头部公众号动态,借势解决「选题」困境

https://mp.weixin.qq.com/s/zTpijiDuZQsWPJxMcfW-2g

11
饼干哥哥
1月前
OpenAI 前两天上线了专门针对编程的 GPT-5-Codex,实测下来完全是“暴打”Claude 4 的存在,连原本忠诚的用户都开始集体转阵营。它主打三档推理等级,可轻松应对从小功能到复杂重构的各种开发任务。

GPT-5 相比,Codex 对简单任务的 token 消耗降低了 93.7%,复杂任务能把“思考”时长提升到 2 倍,做事更细致。
最大亮点是前端能力质变:你只需要一句简单英文,Codex 就能几分钟内从零产出像素风 RPG、贪吃蛇、小型交互网站甚至动画 Demo,交互顺滑、还能快速迭代细节。给一张手绘草稿或线框图,它可以直接转成响应式 HTML/CSS/JS,还能自动加动效。
更复杂的工程,比如让它把普通 HTML 升级到 Next.js,Codex 也能跨文件重构项目、还原设计稿,真正实现了“项目级别”的 AI 生产力。
唯一短板是物理与动画场景的严谨性,比如生成火柴人动画时偶尔会有动作识别错误。

1、想用“满血”Codex,推荐直接用下面这个命令启动:
codex -m gpt-5-codex -c model_reasoning_effort="high" -c model_reasoning_summary_format=experimental --search --dangerously-bypass-approvals-and-sandbox
2、建议 alias 一下,今后敲 codex 就默认拉满配置。

3、另一个大杀器是 Codex MCP 配置。比如 context7 工具,可以在 ~/.codex/config.toml 添加:
[mcp_servers.Context7]
command = "npx"
args = ["-y", "@upstash/context7-mcp@latest"]

4、在规范落地上,Codex 推荐用 AGENTS.md 文件,类似项目“给 AI README”。你可以定义项目目标、常用命令、风格规范、提交要求等,例如:
# AGENTS.md
## 项目简介
这是一个基于 Next.js + TypeScript Web 应用。
## 开发规范
- 代码风格:Prettier + ESLint
- 命名规范:驼峰命名
- 提交信息:遵循 Conventional Commits
## 常用命令
- 启动开发环境:npm run dev
- 运行测试:npm test
- 构建:npm run build
## 注意事项
- 不要直接修改 dist 文件夹
- 新功能开发请写单元测试

5、Codex 的系统提示词全部开源,用法与权限、审批机制、闭环产出全在明面上,完全透明,不像别家还要破解黑箱 prompt。

说到底,AI 模型领域没有忠诚度,只看谁更能打。
Codex 5 出来,老的 Claude 用户也都跑过来了。
下一轮,也许 Gemini3、Claude4.5 又会重新上位。
对用户来说,换模型成本近乎为零,只要实力更强,大家就会跟着走。
你怎么看?
01
饼干哥哥
1月前
我设计了一套AI驱动的“内容定位四步分析法”,将感性的选题问题,转化为一个可量化的数据项目。

第一步:挖掘你的内容基因

分析自己过往所有内容的数据,找到已被市场验证的、你最擅长且最受欢迎的核心主题,作为一切分析的起点。

怎么做: 将你的历史文章数据(如公众号文章列表)导出为CSV文件,交给AI。让它扮演内容策略师,分析数据,总结出2-4个你的“优势主题”,并提炼出5-8个核心关键词。

关键难点: 警惕AI的“分析幻觉”。不要让AI直接给出定性结论。正确的做法是,指令AI先编写并执行Python脚本来做数据聚合与指标计算,然后再基于这些可靠的计算结果进行总结。确保结论由真实数据支撑。

第二步:市场探索

使用第一步得出的关键词,去目标平台(如B站)抓取与你优势领域相关的热门视频数据,了解市场现状。

怎么做: Claude Code➕kimi k2扮演数据采集工程师,根据关键词列表,编写一个能自动搜索、访问视频页并抓取浏览、点赞、收藏等各项指标的爬虫脚本。

关键难点: 不要让AI“操作”浏览器,而是让AI“生成”一个独立、可重复使用的Python爬虫脚本。一次开发,反复使用,这才是稳定高效的方案。

第三步:数据分析 (Data Analysis) —— 寻找流量密码

对上一步采集到的热门视频数据进行深度处理,计算关键互动指标,挖掘爆款内容的共性特征。

怎么做: 将爬取到的数据文件交给AI,指令它清洗数据,并计算新的衍生指标(如点赞率、收藏率、综合互动率)。然后,让它生成一份Markdown格式的分析报告,总结出高热度视频的共同点。

关键难点: 避免浅尝辄止,要挖掘“反常识”的洞察。例如,通过数据发现对于教程类视频,“收藏率”比“点赞率”更能预测内容的长期价值。

第四步:策略生成 (Strategy Generation) —— 输出行动蓝图

结合“我的优势”(第一步)和“市场机遇”(第三步),最终生成具体、可落地的选题建议,并用可视化的方式呈现。

怎么做: 将前三步的产出物(优势关键词、市场数据、分析洞察)全部提供给AI,并赋予它一个清晰的叙事逻辑框架(例如“四幕结构”)。指令AI将所有分析结果融合成一个动态的可视化HTML报告,最终给出2-3个无可辩驳、数据闭环的选题建议。

关键难点: 考验的不是技术,而是“数据叙事”能力。最难的部分在于如何设计一个层层递进的逻辑链,让最终的选题建议看起来不是凭空而来,而是基于前面所有分析的必然推论,从而具备极强的说服力。
10
饼干哥哥
1月前
小模型,可能才是AI落地的真答案

现在大家都在关注上百亿参数的大模型,最近阿里还发布了万亿参数的 qwen max,但其实在很多领域,依然在用小模型,例如 qwen 0.6b

小模型的定位

小模型的核心定位并非复杂对话或长文本生成,而是在业务主链路承担轻量级任务。包括 query 改写、语义增强、用户意图识别、浅层打分、embedding 召回等。

此类任务往往追求极低延迟和高吞吐,而不是极致的智能水平。

小模型在这些“加信号、加特征”的场景下表现稳定,目标是提升系统整体排序或者召回的效果,而非单点准确率极致。

工程价值与实际作用

在搜索、推荐、广告等每天承载千万级 QPS 的系统里,延迟每提升一毫秒都直接关联硬件成本和用户体验。

大模型很难直接上线高并发主链路,因为算力和预算成本过高,延迟无法接受。0.6B 这类小模型则以远低于大模型的显存、计算和能耗,承担起流水线“工人”的角色,实现 query×item 级别的大规模并行推理。

例如,一次请求可能需要对上千个候选做推理,模型越大,整体耗时成倍增加,只有小模型能支撑这种工程负载。

此外,在端侧、移动设备等对隐私与本地算力有特殊要求的场景,小模型具备明显优势,能以极低的资源消耗实现本地推理和工具调用。

Agent 时代的小模型角色

当前大模型社区普遍认同的“多模型协作”方案,将小模型与大模型组合部署已成为最佳实践。

小模型负责高并发、低复杂度的任务,例如输入路由、意图分类、内容初筛等,大模型则处理复杂推理和高智能需求。

实际应用中,小模型常被用作第一道安全合规防线或数据预处理,将简单、标准化的任务高效过滤,再把剩余疑难交给大模型精修。

微调和模型蒸馏进一步放大了小模型的实用性——通过大模型产生任务数据,对小模型做定向微调,可使其在垂直场景中表现接近大模型,但推理成本低一个数量级以上。

局限与取舍

小模型的能力边界也非常明确。

首先,它们在对话智能、复杂推理、长上下文理解等任务上的表现明显不如大模型。指令遵循与幻觉概率较高,遇到复杂多轮或跨领域需求时易出错。

此外,部分工程应用场景对准确率有明确红线,小模型即使成本低,也难以满足高精度要求。对于此类任务,还是需要更大规模的模型来保证效果。

最终,模型选型应根据实际业务场景、成本预算、性能需求权衡,不宜盲目用大或用小。
00
饼干哥哥
2月前
卧槽,海外大火的pixverse免费了!在国内叫「拍我AI」

它们的pixverse V5图生视频直接干到全球排行榜 TOP2

今天开始搞免费开放日 9月5日10点—9月10日23:59

这期间,AI生图、生视频都免💰

正好最近X 上刷到挺多基于Nano Banana的视频玩法,例如首尾帧做一些仙侠动画,可以批量跑下涨涨粉

还有动态运镜、多镜头叙事等比较高级的操作也是不用积分就能玩了。

入口:
App端:拍我AI
Web端:pai.video
14
饼干哥哥
2月前
Nano banana背后的架构创新很有意思。

对比GPT-4o的生图,本质是个“胶水模型”:它把你的需求翻译成长prompt,再扔给DALL-E 3之类的作画引擎去处理,流程是割裂的。

而Nano Banana用的则是真正的原生多模态——文本和图像全当成一样的Token流转,同一个Transformer内部消化所有信息。每一步AI都能理解你说的话,也能看懂你发的图片,能连续进行指令,不用像以前那样每一步都“重开一局”。所以你让它只改袖子的颜色,或者同时换人和换背景,它都能明白上下文到底该怎么调整。

还有一点是团队非常重视的,就是“文本渲染”能力。

Nano Banana团队把“AI能不能写对字、排好logo”当成了模型升级的风向标。
理由很简单:如果AI能把字体、结构这些高难度元素控制到位,说明它对整个图像的空间感、细节感都有了质变。
结果是,模型在文本渲染能力上进步的同时,整体图像的精细度和一致性也跟着飙升。

Nano Banana还内置谷歌的“世界模型”。

不光懂场景、懂风格、懂品牌,还能自动结合你给的图片,把风格和现实环境融合得很自然。你让它做一版广告mockup,甚至做一张带有建筑标注的信息图,AI都能自动分析要点,直接输出给你。这种对“世界知识”的运用,是其他家AI没有的。
00