饼干哥哥的个人主页

即刻App年轻人的同好社区

下载

饼干哥哥

55关注283被关注0夸夸

10 年数据分析师，现在专注 AI 编程与 agent

饼干哥哥

21:37

DeepseekOCR 火了，但企业选 OCR：PaddleOCR-VL 才是 “稳定王”

最近被DeepseekOCR刷屏了，但如果真的想落地使用，我依然首选PaddleOCR-VL

以前是DS提出用OCR的方式解决模型上下文压缩效率的，确实让人眼前一亮，但此前一种“以图压文”的技术探索，属于研究性质。而在企业的场景落地下，Paddle做OCR要成熟了。我是起码7年前做数据分析的时候，要录入乱七八糟的纸质数据的时候就开始接触Paddle，迭代到上周新发的PaddleOCR-VL，对文档和图片解析的能力非常稳定项目并且增强图转文效果上，DeepSeek-OCR可能只是在纯文本的场景下能用，更复杂的场景，如报表/合同/学术PDF等需要做整理，只有PaddleOCR-VL才能「稳定」出来。
PaddleOCR-VL属于SOTA级别的方案，包括OmniBenchDoc V1.5等多个全球排行榜上都是第一其中，对表格结构理解的表TEDS项目Paddle得分93.52而ds只有78.02，差了15+分也有点离谱的部署上更是无压力。PaddleOCR-VL只有0.9B的参数，本地甚至CPU也能跑（虽然慢点），但企业线上部署最后没有任何压力，一句话总结：企业里的OCR要求是可核验的逐字逐还原：paddleocr-vl更符合“如实记录”的标准，而DeepseekOCR更偏向压缩与重构，在复杂文档中更易引入生成式幻觉。

0 00

饼干哥哥

17:53

试试这个浏览器，或许比你月薪2W的运营更懂你
最近一直在忙海外营销的业务（Reddit代运营、代理搭建等），需要经常在几个Subreddit里做大量的调研与线索发现，还要养号。传统可能需要几十个人的团队，现在我们只要几个人就可以做到了。其中，AI浏览器真的帮了大忙，非常建议每个出海营销人都用起来。市面上的 AI 浏览器我试过不少，但大多停留在“总结网页”、“润色文案”的玩具阶段。直到我把挖销售线索、整理名单、写SEO等“体力活”交给 Perplexity 的 Comet时，才找到符合我设想的AI浏览器。
Comet 可以干嘛？先看几个基础操作。
1. 自动化定时任务（图2）
先到 perplexity.ai 的官方，左下角头像，点开，可以进入到任务设置页面。
让它执行每周监控相关话题的热点,新闻动态等等
2、快速查找学习内容和知识整理（图3）
可以直接把 YouTube 长视频直接转成公众号文章，同理，海外营销的转成 Linkedin文章、网站 blog，AI 写作不要太轻松！
3、标签整理（图4）
尤其是做海外市场调研，浏览器少说会开几十个标签，有时候任务还没完成，标签又不能删，非常难受，此时，可以让 Comet帮你对标签页进行整理并分组，非常好用！
Comet给AI补上了最后一公里
但它不是万能的。
它适合做什么：在开放的、以文本信息为主的网站（新闻、博客、论坛）上，执行结构化的、有明确逻辑的任务。
它不适合做什么：在封闭的、强依赖视觉和复杂交互的平台（如小红书、Instagram、抖音）上，执行需要感性判断的非结构化任务。例如我让它执行小红书笔记发布就失败了。。。
但无论如何，它已经把我从无数个“半小时”的泥潭中解放了出来。
你觉得 Comet 还能用在哪些“野路子”场景下？

1 00

饼干哥哥

17:18

用n8n+飞书监控了100个AI头部公众号动态，借势解决「选题」困难
整体搭建的逻辑：
一、采集公众号文章
1.部署wechat2rss
这一步是为了监控公众号的发布动态。由于公众号非常封闭，几乎所有公开的 rss 源都不稳定，而且考虑到要做特定的筛选，建议是自己部署。
找朋友给我推荐了wechat2rss，私有化部署 15 元/月，还挺稳定
2.搭建n8n 监控工作流
这里的逻辑是，向 wechat2rss 请求当前已订阅的所有公众号清单，然后逐个公众号处理：筛选指定时间范围的文章，其中，HTTP 节点请求的是 WeChat2rss 的 list 接口，小白同学可以借助AI浏览器来辅导使用
3.给文章打上内容标签
这一步是把文章量化的过程，用于后续把内容标签与数据指标做交叉分析，我们才能知道哪些关键词内容在近期的势头很好，但再好的选题，也要符合我们自己的内容方向。也就是说，公众号其实是越垂直越好，什么都写，只会把标签搞乱。
而我的内容方向包括：
1️⃣ AI落地应用案例，如 AI 编程、n8n工作流、AI Agent、AI工作流等；
2️⃣ AI数据分析案例，如AI做数据分析 ppt、用户洞察、自媒体数据分析等；
3️⃣ AI多模态玩法，例如ai生图（nano banana、Seedream、Midjourney）、ai 生视频（Sora2）等
二、搭建数据分析模型
4. 在n8n把文章链接传给「极限了」api，抓取评论的数据：阅读量、数、转发率、在看数、点赞数、收藏数
5. 搭建指标体系
纯看绝对值（如阅读量、点赞数）容易产生误导，这里有平台推流、账号规模不同的问题。例如一篇10万阅读的文章有100个转发，和一篇1000阅读的文章有50个转发，哪个更具传播潜力？显然是后者。所以我们要通过“比率化”和“加权化”的方式消除量纲，并做多维评估。
6. 把标签和指标组合做交叉分析
三、AI做选题分析报告
7. 最终哪些标签数据好，背后就是建议做什么样的选题
8.确定选题后，筛选出这些标签的原文，给出具体的选题方向建议、内容结构
9. 形成选题方案报告
（完整的Prompt太长了，关注【饼干哥哥AGI】公众号可查看完整内容）

2 00

饼干哥哥

6天前

备受瞩目的 VEO3.1 上线后，网上口诛笔伐的人很多，认为不如 SORA 2

为了搞清楚它俩的真实水平，我设计了 5 个堪称“地狱难度”的极限测试，涵盖了运镜、物理、声景等核心能力。

Sora 2 pro 居然在好几个关键点上输了

https://mp.weixin.qq.com/s/Jo94WxlaQdfcGp8VC8x1Rg

0 00

饼干哥哥

12天前

我用n8n+飞书监控了100 个AI头部公众号动态，借势解决「选题」困境

https://mp.weixin.qq.com/s/zTpijiDuZQsWPJxMcfW-2g

8 11

饼干哥哥

1月前

OpenAI 前两天上线了专门针对编程的 GPT-5-Codex，实测下来完全是“暴打”Claude 4 的存在，连原本忠诚的用户都开始集体转阵营。它主打三档推理等级，可轻松应对从小功能到复杂重构的各种开发任务。

和 GPT-5 相比，Codex 对简单任务的 token 消耗降低了 93.7%，复杂任务能把“思考”时长提升到 2 倍，做事更细致。
最大亮点是前端能力质变：你只需要一句简单英文，Codex 就能几分钟内从零产出像素风 RPG、贪吃蛇、小型交互网站甚至动画 Demo，交互顺滑、还能快速迭代细节。给一张手绘草稿或线框图，它可以直接转成响应式 HTML/CSS/JS，还能自动加动效。
更复杂的工程，比如让它把普通 HTML 升级到 Next.js，Codex 也能跨文件重构项目、还原设计稿，真正实现了“项目级别”的 AI 生产力。
唯一短板是物理与动画场景的严谨性，比如生成火柴人动画时偶尔会有动作识别错误。

1、想用“满血”Codex，推荐直接用下面这个命令启动：
codex -m gpt-5-codex -c model_reasoning_effort="high" -c model_reasoning_summary_format=experimental --search --dangerously-bypass-approvals-and-sandbox
2、建议 alias 一下，今后敲 codex 就默认拉满配置。

3、另一个大杀器是 Codex 的 MCP 配置。比如 context7 工具，可以在 ~/.codex/config.toml 添加：
[mcp_servers.Context7]
command = "npx"
args = ["-y", "@upstash/context7-mcp@latest"]

4、在规范落地上，Codex 推荐用 AGENTS.md 文件，类似项目“给 AI 的 README”。你可以定义项目目标、常用命令、风格规范、提交要求等，例如：
# AGENTS.md
## 项目简介
这是一个基于 Next.js + TypeScript 的 Web 应用。
## 开发规范
- 代码风格：Prettier + ESLint
- 命名规范：驼峰命名
- 提交信息：遵循 Conventional Commits
## 常用命令
- 启动开发环境：npm run dev
- 运行测试：npm test
- 构建：npm run build
## 注意事项
- 不要直接修改 dist 文件夹
- 新功能开发请写单元测试

5、Codex 的系统提示词全部开源，用法与权限、审批机制、闭环产出全在明面上，完全透明，不像别家还要破解黑箱 prompt。

说到底，AI 模型领域没有忠诚度，只看谁更能打。
Codex 5 出来，老的 Claude 用户也都跑过来了。
下一轮，也许 Gemini3、Claude4.5 又会重新上位。
对用户来说，换模型成本近乎为零，只要实力更强，大家就会跟着走。
你怎么看？

3 01

饼干哥哥

1月前

我设计了一套AI驱动的“内容定位四步分析法”，将感性的选题问题，转化为一个可量化的数据项目。

第一步：挖掘你的内容基因

分析自己过往所有内容的数据，找到已被市场验证的、你最擅长且最受欢迎的核心主题，作为一切分析的起点。

怎么做：将你的历史文章数据（如公众号文章列表）导出为CSV文件，交给AI。让它扮演内容策略师，分析数据，总结出2-4个你的“优势主题”，并提炼出5-8个核心关键词。

关键难点：警惕AI的“分析幻觉”。不要让AI直接给出定性结论。正确的做法是，指令AI先编写并执行Python脚本来做数据聚合与指标计算，然后再基于这些可靠的计算结果进行总结。确保结论由真实数据支撑。

第二步：市场探索

使用第一步得出的关键词，去目标平台（如B站）抓取与你优势领域相关的热门视频数据，了解市场现状。

怎么做： Claude Code➕kimi k2扮演数据采集工程师，根据关键词列表，编写一个能自动搜索、访问视频页并抓取浏览、点赞、收藏等各项指标的爬虫脚本。

关键难点：不要让AI“操作”浏览器，而是让AI“生成”一个独立、可重复使用的Python爬虫脚本。一次开发，反复使用，这才是稳定高效的方案。

第三步：数据分析 (Data Analysis) —— 寻找流量密码

对上一步采集到的热门视频数据进行深度处理，计算关键互动指标，挖掘爆款内容的共性特征。

怎么做：将爬取到的数据文件交给AI，指令它清洗数据，并计算新的衍生指标（如点赞率、收藏率、综合互动率）。然后，让它生成一份Markdown格式的分析报告，总结出高热度视频的共同点。

关键难点：避免浅尝辄止，要挖掘“反常识”的洞察。例如，通过数据发现对于教程类视频，“收藏率”比“点赞率”更能预测内容的长期价值。

第四步：策略生成 (Strategy Generation) —— 输出行动蓝图

结合“我的优势”（第一步）和“市场机遇”（第三步），最终生成具体、可落地的选题建议，并用可视化的方式呈现。

怎么做：将前三步的产出物（优势关键词、市场数据、分析洞察）全部提供给AI，并赋予它一个清晰的叙事逻辑框架（例如“四幕结构”）。指令AI将所有分析结果融合成一个动态的可视化HTML报告，最终给出2-3个无可辩驳、数据闭环的选题建议。

关键难点：考验的不是技术，而是“数据叙事”能力。最难的部分在于如何设计一个层层递进的逻辑链，让最终的选题建议看起来不是凭空而来，而是基于前面所有分析的必然推论，从而具备极强的说服力。

2 10

饼干哥哥

1月前

小模型，可能才是AI落地的真答案

现在大家都在关注上百亿参数的大模型，最近阿里还发布了万亿参数的 qwen max，但其实在很多领域，依然在用小模型，例如 qwen 0.6b

小模型的定位

小模型的核心定位并非复杂对话或长文本生成，而是在业务主链路承担轻量级任务。包括 query 改写、语义增强、用户意图识别、浅层打分、embedding 召回等。

此类任务往往追求极低延迟和高吞吐，而不是极致的智能水平。

小模型在这些“加信号、加特征”的场景下表现稳定，目标是提升系统整体排序或者召回的效果，而非单点准确率极致。

工程价值与实际作用

在搜索、推荐、广告等每天承载千万级 QPS 的系统里，延迟每提升一毫秒都直接关联硬件成本和用户体验。

大模型很难直接上线高并发主链路，因为算力和预算成本过高，延迟无法接受。0.6B 这类小模型则以远低于大模型的显存、计算和能耗，承担起流水线“工人”的角色，实现 query×item 级别的大规模并行推理。

例如，一次请求可能需要对上千个候选做推理，模型越大，整体耗时成倍增加，只有小模型能支撑这种工程负载。

此外，在端侧、移动设备等对隐私与本地算力有特殊要求的场景，小模型具备明显优势，能以极低的资源消耗实现本地推理和工具调用。

Agent 时代的小模型角色

当前大模型社区普遍认同的“多模型协作”方案，将小模型与大模型组合部署已成为最佳实践。

小模型负责高并发、低复杂度的任务，例如输入路由、意图分类、内容初筛等，大模型则处理复杂推理和高智能需求。

实际应用中，小模型常被用作第一道安全合规防线或数据预处理，将简单、标准化的任务高效过滤，再把剩余疑难交给大模型精修。

微调和模型蒸馏进一步放大了小模型的实用性——通过大模型产生任务数据，对小模型做定向微调，可使其在垂直场景中表现接近大模型，但推理成本低一个数量级以上。

局限与取舍

小模型的能力边界也非常明确。

首先，它们在对话智能、复杂推理、长上下文理解等任务上的表现明显不如大模型。指令遵循与幻觉概率较高，遇到复杂多轮或跨领域需求时易出错。

此外，部分工程应用场景对准确率有明确红线，小模型即使成本低，也难以满足高精度要求。对于此类任务，还是需要更大规模的模型来保证效果。

最终，模型选型应根据实际业务场景、成本预算、性能需求权衡，不宜盲目用大或用小。

1 00

饼干哥哥

2月前

卧槽，海外大火的pixverse免费了！在国内叫「拍我AI」

它们的pixverse V5图生视频直接干到全球排行榜 TOP2

今天开始搞免费开放日 9月5日10点—9月10日23:59

这期间，AI生图、生视频都免💰

正好最近X 上刷到挺多基于Nano Banana的视频玩法，例如首尾帧做一些仙侠动画，可以批量跑下涨涨粉

还有动态运镜、多镜头叙事等比较高级的操作也是不用积分就能玩了。

入口：
App端：拍我AI
Web端：pai.video

5 14

饼干哥哥

2月前

Nano banana背后的架构创新很有意思。

对比GPT-4o的生图，本质是个“胶水模型”：它把你的需求翻译成长prompt，再扔给DALL-E 3之类的作画引擎去处理，流程是割裂的。

而Nano Banana用的则是真正的原生多模态——文本和图像全当成一样的Token流转，同一个Transformer内部消化所有信息。每一步AI都能理解你说的话，也能看懂你发的图片，能连续进行指令，不用像以前那样每一步都“重开一局”。所以你让它只改袖子的颜色，或者同时换人和换背景，它都能明白上下文到底该怎么调整。

还有一点是团队非常重视的，就是“文本渲染”能力。

Nano Banana团队把“AI能不能写对字、排好logo”当成了模型升级的风向标。
理由很简单：如果AI能把字体、结构这些高难度元素控制到位，说明它对整个图像的空间感、细节感都有了质变。
结果是，模型在文本渲染能力上进步的同时，整体图像的精细度和一致性也跟着飙升。

Nano Banana还内置谷歌的“世界模型”。

不光懂场景、懂风格、懂品牌，还能自动结合你给的图片，把风格和现实环境融合得很自然。你让它做一版广告mockup，甚至做一张带有建筑标注的信息图，AI都能自动分析要点，直接输出给你。这种对“世界知识”的运用，是其他家AI没有的。

2 00