即刻App年轻人的同好社区
下载
App内打开
悯生
63关注34被关注0夸夸
🧑‍💻AI算法资深从业者
🛠️探索AIGC深度应用
📚中医爱好者
悯生
4天前
昨天刚发布的Deepseek-OCR,今天经过自媒体的发酵,已经轰动与各个媒体,但在昨天之前baidu发布的Paddle-OCR也是值得关注,当然这两个是截然不同的事情
- DeepSeek-OCR,在做一场“信息压缩革命”。
它把文字当作可以“看”的东西,用图像来存储文本信息,再解码还原。
证明了:一张图能代表上千字,10× 压缩下几乎无损。
是探索“视觉取代语言”的前沿实验

- 在做一款“落地级文档解析引擎”。
NaViT + ERNIE 架构,支持 109 种语言,能识别文字、表格、公式、图表。
实测性能全球领先,比上一代快 15%,显存省 40%。
是真正能上生产线的多模态 OCR 系统。

针对deepseek,在探索视觉模态压缩文本信息是有效的、可量化的、可实用的,那这后面的关键是文本信息怎么转换成视觉模态(渲染成图片、光学表示或其他),需要持续关注。
PaddleOCR从评测看是目前比较好的兼具性能和效果的模型,能够极大RAG类应用效果。
01
悯生
15天前
Qwen3-VL在git上开放了cookbook,提供针对Qwen3-VL的场景使用说明,
覆盖从视觉定位到长文档与视频理解、再到“电脑/手机”图形界面代理操作的主流场景:
主要 Demo(按场景)
2D/3D Grounding: 在图像或三维场景中进行目标定位与引用表达理解,分别通过二维框和三维空间推断。
OCR 与文档解析: 多语言文本识别、表格/版面结构理解、长文档层级抽取与问答。ocr.ipynb 、document_parsing.ipynb 、long_document_understanding.ipynb .
视频理解: 帧间时序与事件定位、长视频检索与问答、动态场景理解。video_understanding.ipynb .
空间与几何推理: 物体位置、视角、遮挡关系等空间理解。spatial_understanding.ipynb .
图形化思维与多图推理: 将图像作为“思维材料”进行链式推理与证据组织。think_with_images.ipynb .
通识识别(Omni Recognition): 面向更广谱实体与品类的识别能力示例(人、动漫、商品、地标、生物等)。omni_recognition.ipynb .
计算机/手机代理(Agentic GUI Use): 识别界面元素、调用工具、自动完成任务,覆盖 PC 与移动端交互。computer_use.ipynb 、mobile_agent.ipynb .
多模态代码生成(MMCode): 由图像/视频生成可视化或前端代码(Draw.io/HTML/CSS/JS)。mmcode.ipynb .

Qwen3-VL/cookbooks at main · QwenLM/Qwen3-VL

00
悯生
15天前
OpenAI在devday上披露了消耗token的Top30家公司,我把这些公司规模和业务做了一下梳理。
勇敢的人先享受红利,构建自己的业务飞轮
02
悯生
23天前
sora2果然很丝滑

#Sora2
00:10
01
悯生
1月前
VL模型再进化。
阿里刚发布了一个视觉多模态理解模型,Qwen3-VL-235B-A22B-Instruct,效果强的可怕
效果见图
图1是原图,图2是识别结果

对于这类图片基本上都是不可理解的,但qwen3-vl给出了结果,虽然细看里面数值是不对的,但至少能识别。
00
悯生
1月前
大模型技术和应用到底发展到哪个地步了?

今天碰到了个case对市面主流llm应用做了个测试
事情起因是和群友讨论到“大模型幻觉”的问题,群友说了这句话“在大模型幻觉因为benchmark 鼓励的结果出不来惩罚很严重乱编反而蒙对得分”,他说这个思路是openai的论文提到的,于是我就想找一下论文看看内容,这个时候直接发动各个大模型应用,结果如图所示:
1) 图1是Chat GPT直接给出了论文
2) 图2 kimi,并没有找对论文
3) 图3 元宝,遗憾也没有找到
4) 图4 豆包,也能找到原论文
6)图5 Gemini,遗憾未找到
7) 图6 Grok,成功找到论文

仔细回顾这个场景,虽然看似都是AI搜索,但各家实现方案并不相同,像ChatGPT更是Agentic 方式,意图识别-信息源定位- query 扩写-定向搜索-结论,而其他几家大多是query扩写-搜索,所以最终的的结果并不相同。

#Agent
00
悯生
1月前
#ai demo day
00
悯生
2月前
朋友圈看到一句话:“AI是专家的翅膀,不是外行的救生衣!”
00
悯生
2月前
#安利我的ima知识库

面大模型岗的人都懂,知识点和内容众多,面试题海量又杂乱,我干脆做了个《大模型面试宝典》,系统梳理面试要点,少走弯路,快速上岸。【持续更新中】
欢迎关注加人

【ima知识库】大模型面试宝典 ima.qq.com
01
悯生
2月前
#安利我的ima知识库

是不是还在为 Coze 的配置和玩法发愁?别瞎踩坑了,我做了一个 现成的 Coze 知识库,能帮你少走 80% 弯路!

【ima知识库】扣子(coze)智能体工作流开发(持续更新) ima.qq.com
01