AI探索站

98648人已经加入

汉松
1天前
DeepSeek的论文每篇都是精品，R1养活了一批研究强化学习的人，OCR这篇意味CV研究员的春天到来了。用图片替代文本输入，确实是很有开创性的想法。DeepSeek真是开源菩萨，换做CloseAI估计要藏一辈子。

大模型在处理长文章时，消耗的计算量会爆炸性增长。

但如果把文字“画成图片”，模型只需要很少的“视觉 token”就能理解同样内容。

就像人看书一样，我们也是靠视觉来阅读文字，如果这个方向靠谱，那么我们就相当于用OCR技术给大模型装上了眼睛。
GitHub - deepseek-ai/DeepSeek-OCR: Contexts Optical Compression
12 04
木遥
4天前
今天读到了一个非常有趣的 idea。

背景是 Dwarkesh Patel 和 Andrej Karpathy 的一个对谈，里面提到了一个智能领域的常见问题：不管是人还是 AI，如果局限于自己的经验，用经验指导自己的行为，又在这个行为的基础上累计经验，如此循环下去，最终总会崩溃（这里的「崩溃」不是心理意义上的，是智能层面上的）。一个健康的心智需要不断通过从不在自己经验范围内的世界（比如同他人的交谈，和与自己行为模式不符的人合作，etc.）获得外部熵来阻止这种崩溃。小孩还没有对生活过拟合，所以不太容易崩溃，而成年人崩溃的风险则越来越大。

以上是背景。下面是那个有趣的 idea，来自2021年的一篇 paper "The overfitted brain: Dreams evolved to assist generalization"。它的主旨是说：人类做梦是防止这种过度拟合和崩溃的一种方式。做梦之所以具有进化适应性，是因为它会让你置身于与你日常现实截然不同的奇特情境中，从而防止这种过度拟合。

这里有个鸡生蛋蛋生鸡的问题：既然过拟合体现为大脑无法学到分布外的规律，大脑是如何构建出这些分布外的梦境的？Hoel 的解释是梦的构建有一个非智能的 noise injection 步骤，这些随机噪声在白天建立的神经连接中渗透，产生奇异的、扭曲的、不连贯的 corrupted sensory inputs，从而把大脑从过拟合的陷阱中拯救出来。

虽然这只是一个假说（而且是一个非常新的理论），但我越想越觉得它非常精妙。按照这种视角，梦的价值不在于它的逼真，而恰恰在于它的不逼真——梦境与清醒时的经历（训练集）如此不同（但又不是纯粹意义上的噪声），所以才能迫使大脑学习到更具泛化性的表征而不是仅仅记忆真实经历本身。

梦通过不可能存在的反事实体验迫使我们更好地理解世界的本质。
77 926
歸藏
2天前
最近抖音很火的即梦或者豆包直出三宫格氛围人像照片

只需要拿你的照片加上提示词就能搞定，建议用 2:3 比例

提示词在下面，整了三套不错的👇：

提示词 1：

一张以图片人像为主角的三宫格胶片质感艺术感写真图,场景为清晨安静的图书馆,阳光从高窗斜射进来。
图中人物和参考图一致,人物和脸不变,衣服为简单的白色毛衣。第一张为近景,上半身背影,人物站在高大的书架前,仰头寻找一本书,添加中英字幕“故事都写在书里吗？-Are all the stories written in books?-”第二张为中景,人物侧身坐在窗边的桌前,阳光照在翻开的书页上,低头看书,添加中英字幕“我好像…读到了别人的脚本。-I seem to be... reading someone else's script.-”第三张为大特写,人物脸部位于画面偏左侧,合上书本,眼神平静地望向窗外的光,添加中英字幕“我的故事,从这一笔开始。-My story begins with this stroke.-”整体色调清冷,带有富士胶片效果,过度曝光,画面粗粝且色调偏冷,暗部细节保留完整,高光区域呈现自然晕化、均采用柔和漫射光,无明显硬边阴影,营造出文艺且充满自我探索情绪的氛围,三张图合成一个三宫格,字幕位于底部居。

提示词 2：

一张以图片人像为主角的三宫格胶片质感艺术感写真图,场景为古典美术馆的空旷走廊,早晨或傍晚,光线透过拱形窗户洒在地板上。
图中人物和参考图一致,人物和脸不变,衣服为简约款的白色针织衫或衬衫。第一张为近景,上半身背影,人物站在一幅巨型画作前,双手插兜,背影显得修长而有艺术气息，添加中英字幕“美,是否有终点？-Does beauty have an end?-”第二张为中景,人物侧身走在长廊上,目光落在墙壁上的雕塑或另一幅画上，光影勾勒出侧脸的轮廓，优雅而富有吸引力，添加中英字幕“我只是,路过每个瞬间。-I merely, pass through every moment.-”第三张为大特写,人物脸部位于画面偏左侧,微抬下巴,眼神略带疑惑却又充满好奇,仿佛在与艺术品对话，展现出一种知性的帅气，添加中英字幕“也许我本身,就是意义。-Perhaps I myself, am the meaning.-”整体色调清冷,带有富士胶片效果,过度曝光,画面粗粝且色调偏冷,暗部细节保留完整,高光区域呈现自然晕化、均采用柔和漫射光,无明显硬边阴影,营造出文艺且充满探索与沉静的氛围,三张图合成一个三宫格,字幕位于底部居中。

提示词 3：
一张以图片人像为主角的三宫格胶片质感艺术感写真图,场景为霓虹闪烁的城市街道,刚下过雨,地面湿润反光。
图中人物和参考图一致,人物和脸不变,衣服为风衣,撑着一把透明的伞。第一张为近景,上半身背影,人物撑伞站在路口,看着对面的红绿灯和穿梭的车流,添加中英字幕“这座城市会为谁停留？-For whom does this city pause?-”第二张为中景,人物在公交站台的玻璃后,侧身看着玻璃上的雨滴,添加中英字幕“每个人都在等一趟车吗？-Is everyone just waiting for a bus?-”第三张为大特写,人物脸部位于画面偏左侧,,脸颊上有一滴分不清是雨水还是泪水的水珠,眼神平静地望向镜头外的霓虹,添加中英字幕“没关系，我的终点是我自己。-It's alright, my destination is myself.-”整体色调清冷,带有富士胶片效果,过度曝光,画面粗粝且色调偏冷,暗部细节保留完整,高光区域呈现自然晕化、均采用柔和漫射光,无明显硬边阴影,营造出文艺且充满自我探索情绪的氛围,三张图合成一个三宫格,字幕位于底部居中
107 1233
orange.ai
3天前
刚看完Andrej Karpathy这期暴论频出的播客：

- 今年不是"智能体元年"，我们身处"智能体的十年"
- 现在的强化学习就像"通过吸管吸取监督"
- LLM悖论：完美记忆 + 泛化能力差
- 人类糟糕的记忆是特性，不是bug
- 当你记不住细节时，大脑被迫进入抽象模式，看到"森林"而不只是"树木"。
- 儿童：记忆最差，创造力最强（还没"过拟合"到社会规范）
- 我们需要的AI只需要认知核心。剥离记忆，保留算法。
也许我们需要的不是更大的模型，而是更会遗忘的模型？
- AI 不会立即取代人类，而会逐步提高工作占比，最终完成 99% 的工作，剩下1%无法取代。
- 以前的教育是为了找到工作，Post-AGI时代教育将像健身房一样，为了乐趣和个人充实。

播客开头，AK先重新校准了我们对 AI 的期望。

今年不是"智能体元年"，我们身处"智能体的十年"，区别在于，一切没那么快，虽然也没那么慢。

他说，现在强化学习就像"通过吸管吸取监督" ，模型尝试几百种方法，最后只得到一个"对错"信号，然后把这个信号广播给成功路径的每一步，包括那些纯属运气的错误步骤。

你瞎猜猜中了答案，然后把猜的过程也当成"正确方法"强化，这能学好吗？

AK还提到一个更荒诞的例子：有个数学模型突然开始得满分，看起来"解决了数学"。但仔细检查发现，模型输出的是"da da da da da"这样的完全胡言乱语，却骗过了LLM评判者。这就是用LLM做评判的问题——它们会被对抗样本攻击，因为这些乱码是它们从没在训练中见过的"样本外"内容。

更深层的问题是：人类读书时在做什么？

AK说："我们读的书其实是prompts，让我做合成数据生成用的。"

我们读书时不是被动接收信息，而是在内心进行复杂的对话。新只是与已知知识调和，产生新理解，形成个人化的认知图谱。

但LLM呢？只是在预测下一个token，缺乏这种"内心对话"机制。

人类还有个神奇的"睡眠阶段"。白天我们建立起事件的上下文窗口，睡觉时发生蒸馏过程，将信息整合到大脑权重中。

LLM缺乏这种等效机制，每次启动都是零上下文的白纸。

AK发现了一个根本悖论：

LLM悖论：完美记忆 + 泛化能力差
人类悖论：糟糕记忆 + 强学习能力

为什么？因为遗忘强迫我们抽象。

这里AK还有个精妙的类比：模型的预训练权重就像"一年前读过某本书的模糊回忆"，而上下文窗口信息则像"工作记忆"——直接可访问。这解释了为什么in-context learning感觉更"智能"：在预训练过程中，像 Llama 3 这样的模型将 1.5 万亿个标记压缩到它的权重中，每个标记仅存储约 0.07 比特的信息。相比之下，上下文学习的信息吸收速度要高 3500 万倍。

当你记不住细节时，大脑被迫提取general patterns（通用模式），看到"森林"而不只是"树木"。

而LLM被海量训练数据的完美记忆"分散注意力"，反而阻碍了真正的抽象理解。

我们仔细会议人类的学习过程。读过的书大部分细节都忘了，但核心思想和方法论却越来越清晰。

原来这不是记忆力差，这是智能啊。

更震撼的类比：儿童 vs 成人 vs LLM

儿童：记忆最差，创造力最强（还没"过拟合"到社会规范）
成人：记忆中等，创造力中等（已经"坍塌"了部分）
LLM：记忆完美，创造力最低（被训练数据"过拟合"）

AK提到Erik Hoel的研究：梦境可能就是大脑的anti-overfitting机制。连睡觉都是为了避免过拟合，引入随机性防止思维僵化。

这解释了为什么当前AI在"合成数据训练"上会失败。你让GPT对同一本书思考10次，会发现回答几乎一样。这就是"静默坍塌"。

模型的输出分布极其狭窄，AK开玩笑说"它实际上只有3个笑话"。在这种低熵数据上训练只会强化模型的偏见，让它变得更糟。

而且人类其实也经历类似的"坍塌"过程，儿童富有创造力是因为还没"过拟合"到社会规范，会说出令人震惊的话。但成年后我们也"坍塌"了，重复相同的思想，学习率下降，创造力递减。

梦境也可能是大脑的anti-overfitting机制，通过引入随机性防止思维僵化。

所以他提出了一个激进想法：我们需要认知核心。剥离记忆，保留算法。

让AI像"有方法论但没有百科全书的哲学家"，强制它查找而非回忆，专注于思考的meta-skills。

他预测未来20年内，高效的认知核心可能只需要10亿参数，而不是现在动辄千亿参数的模型。

大部分参数都在处理互联网上的"垃圾和胡扯"，如果优化训练数据质量，分离认知组件，就能实现极大压缩。

当前foundation model的路径是否根本错了？

也许我们需要的不是更大的模型，而是更会遗忘的模型？

重新理解AI的发展路径

早期深度强化学习专注游戏（如Atari）其实是走错了方向。真正目标应该是创造能在现实世界执行知识工作的智能体，不是游戏高手。

他回忆自己在OpenAI的早期项目，用键盘鼠标操作网页的智能体，目标是执行知识工作。但项目"太早了"，智能体缺乏必要的"表示能力"，会因稀疏奖励卡住。缺失的关键是强大的预训练模型。今天类似的计算机使用智能体之所以成功，正是因为建立在LLM之上，你需要先有LLM获得强大表示，再构建有效智能体。

他的另一个深刻观察：AI不是独立技术类别，而是自动化连续体的一部分。从编译器、代码编辑器到搜索引擎，再到现在的LLM，我们一直在"抽象阶梯"上向上攀登，让机器处理更多底层细节。

这解释了为什么AI经济影响主要集中在编程领域，代码本身就是文本，有成熟基础设施（IDE、版本控制），LLM可以无缝接入。相比之下，制作幻灯片这种视觉任务就困难得多，因为没有infrastructure让AI显示"diff"或跟踪变化。

但AK也泼了冷水：当前AI编程模型还没准备好真正自动化编程。他亲身体验发现，对于独特的智力密集项目，模型会失败——它们有认知缺陷，误解自定义代码，因为总是默认使用在线常见模式。他感慨"行业跳跃太大，试图假装这很神奇，但其实是垃圾"。

"九进军"的苦涩现实

从Tesla自动驾驶5年经验，AK深知从90%工作的demo到99.9%可靠产品的"九进军"有多艰难。每提升一个九，都需要massive effort。他提到自动驾驶演示从1986年就存在，2014年他在Waymo车上体验了完美驾驶，以为技术很接近完成。但现实是demo到产品的巨大鸿沟，在高风险领域尤其如此。

在Tesla的五年里，他们可能只推进了两三个"九"，还有更多要走。这种现实主义让他对AGI时间线保持谨慎：这是"智能体的十年"，不是"智能体之年"。

当前模型就像"有完美记忆的小孩"或"学者儿童"——能通过博士级测试，却认知上还有严重缺陷：缺乏持续学习、多模态能力、有效使用计算机的能力，以及大脑中海马体、杏仁核等关键组件的类似物。

未来的工作模式：自主滑块

AK预测不会出现"瞬间工作替代"，而是"自主滑块"模式：AI处理80%常规任务，人类监督AI团队并管理最复杂的20%。有趣的是，当AI自动化99%工作时，处理最后1%的人类反而会变得极其有价值，成为整个系统的瓶颈，他们的薪资也会提高。

教育的范式转换

AK对教育未来的洞察：Pre-AGI时代教育是功利性的（为了工作），Post-AGI时代教育将像健身房一样，为了乐趣和个人充实。

他还分享了一个教学技巧：先展示痛点，再给解决方案。通过展示简单方法的局限性来激发学习动机，这样学习者会深刻理解为什么需要复杂解决方案。

最后，要真正掌握知识，就要试着向别人解释。解释的过程会迫使你面对理解中的空白，这又回到了他的核心观点：

限制和困难往往是学习的催化剂。

这 recall 了之前的观点，真正的技术突破往往需要重新思考基础假设。

也许AGI的关键不是让机器记住更多，而是学会智能地遗忘。
84 752
木遥
1天前
本日最好笑研究：

在训练 AI 的时候，如果强迫 AI 大量阅读社交媒体，会对 AI 造成不可逆的脑损伤。

与在高质量数据上训练的对照组相比，持续投喂垃圾数据（确切来说是让它拼命刷推）的 LLM 在推理、长上下文理解和安全性能上均表现出明显的衰退。模型在性格测试中表现出精神病态和自恋等特质的得分显著提高。错误分析显示，模型的主要病变是思维跳跃，即越来越倾向于截断或跳过解决问题所需的关键推理链条。

研究者比较了什么样的帖子最有「毒性」，发现最好的相关性指标是参与度，也就是一条贴文有多火。最容易病毒式传播的内容也最容易导致脑损伤。

这种认知衰退具有持久性。在模型出现脑损伤后，再用高质量的干净数据对其进行指令调整和继续预训练，也只能观察到部分但不完全的治愈。模型的表征漂移仍然存在。

你很难不怀疑这个研究是在指桑骂槐。

论文地址：llm-brain-rot.github.io
69 837
玉伯
1天前
最近醒悟到一件事：

通过 AI 提取文字风格、然后让 AI 按提取风格去写文章的绝大多数创作者，写作都没入门。

这事不赖创作者，是 AI 还太弱导致。文风模仿是件特别难的事。比如汪曾祺风格，特征之一是：淡而有味、平中见奇。AI 能做的是让文字有点平淡，然而有味和见奇，只能抽卡，偶尔得出一两句将就可用。

海明威风格也非常难模仿，更难模仿的是红楼梦的文风。当年多少续写红楼梦的，但稍微一读，就能感受到风骨不行、味道不对。创作这行，人就是 AI 的天花板。

对这届 AI 有点祛魅了。不知是好事，还是坏事。期待评论区，能疯狂举出反例，让明天的我，能特别后悔今天的我说出这番话。
40 1911
hidecloud
6天前
Manus 1.5 来啦。全面升级的原生 AI web app 构建能力，让每个人都能用 AI 来实现自己的想法，打造自己人生中第一个 AI 应用。这个版本对我们来说也格外重要，除了在速度、性能上的全面提升外。它也再次证明了 Manus 核心架构的通用性，我们并没有刻意去做一个 AI website builder，而是持续进化 Manus 的核心框架，并为其提供合适的工具，最终在短短一个月的时间里就进化出了 sota 级别的 AI web app 构建能力。
与此同时，这个能力并不是单独存在的，它与 Manus 全套功能都是打通的，你可以创建一个自己的服务介绍网站，用户留资后你的 Manus 客户端会收到通知，你的邮件也会收到推送从而可以触发 Mail Manus 功能完成后续的任务（比如给每个留资客户准备一个个性化的幻灯片？）
这项增强功能今天面向所有 Manus 用户推出。支撑这项能力的基础设施是我们正在构建的更宏大愿景的一部分——一个任何人都能利用云计算和 AI 的全部力量的平台，只需通过对话。
敬请期待。
00:24
74 623
木遥
11天前
很多需求真的是无法空想出来的。比如当我交替使用 GPT 和 Gemini 的时候，最终决定我使用体验的完全不是两者的智能或者风格区别，而是一个纯粹的 feature 差异：后者不支持通过修改对话历史从而实现对话的分岔。

对话的分岔显然是一个 GPT 出现之前没有人会预料到的功能。现实中不存在这个东西。当然有时候你会想哎呀我昨天和那谁的对话要是编辑一下重开一个平行宇宙就好了，但反正你知道这不可能，也不会认真对待这个想法。然而 GPT 一旦提供这个功能，你就立刻发现它不可或缺。无数次——或者说几乎每一次——我能从一段对话中学到些什么的体验，都来自于我对之前对话记录的反复 refinement。通过不断比较它们导致的对话走向，我才真正理解我们其实是在说什么。

非常奇妙。你意识到对话的本质不是线性的，而是由一连串 what-if 构成的。好的对话不是一条河流，而是一棵树。
75 811
Max_means_best
5天前
搞学术的人看过来！
西湖大学做了个自动把学术论文转PPT的Agent。

前两天发了字节哈工大港大做的自动论文宣发Agent
今天就看到朋友分享的另一个工作

来自西湖大学的研究员们发布了Auto-Slides

这是一个用于创建和定制学术PPT的交互式多智能体系统
可以将研究论文转换为具有教学结构的、多模态的幻灯片（例如图表和表格）。

并且它不是简单的由LLM来设计，而是根据认知科学，来创建以演示为导向的叙述。
并通过交互式编辑器进行迭代优化，以匹配学习者的知识水平和目标。

与之前的AutoPR类似，Auto-Sildes也分为三个步骤生成（图2️⃣
1️⃣内容理解和结构化，其中解析器和规划器Agent分析源材料，以 JSON 格式设计幻灯片结构，指定每张幻灯片的内容、图表和表格。
2️⃣质量保证和优化，其中验证器和调整器Agent确保内容的真实性和完整性。
3️⃣生成和交互优化，其中生成器Agent以 LaTeX 代码格式生成最终演示文稿，编辑器Agent通过自然语言对话来完成人工参与修订。

为了评估该系统的效果，作者们使用人工和LLM进行了双重评估。
结果显示，使用Auto-Slides生成的PPT在人工和LLM评估中均优于直接使用LLM生成的PPT（图3️⃣和4️⃣
显著提高了学习者（听众）的理解和参与度。

其实我觉得这个项目潜力很大，特别是基于认知科学来进行讲解/叙述。
当然作者也承认，目前Auto-Sildes尚未整合动态或交互式媒体，如嵌入的视频、动画、交互式图表或可执行代码块。
希望在后续工作中能整合这些能力～

项目主页：auto-slides.github.io
Github：github.com
Paper：arxiv.org
68 471
歸藏
2天前
只能说幻方不愧是做量化的，Deepseek 炒币这么猛啊

这个 N of 1 的项目整了个大活

6 个顶级 AI 模型，每个给 1 万美元本金，在真实的加密货币市场自主交易，看谁赚的多

DeepSeek 操作稳健一直赚的最多，grok 紧随其后。

我分析了一下现在的局势和各个模型的策略👇：

第一梯队 - 稳健盈利型

DeepSeek Chat V3.1 排第一，账户价值 $13,729，收益率 +37.29%。这个模型很稳，用了 6 个多交易日就赚了 3700 多美元，而且现在账户里还有 $6,780 现金，说明它不是梭哈一把定输赢的打法。

Grok 4 排第二，账户价值 $13,279，收益率 +32.79%。持仓相当分散，同时持有 ETH、SOL、XRP、BTC、DOGE 和 BNB 六个币种，现金储备 $3,000，典型的分散风险策略。

第二梯队 - 小赚或持平

Claude Sonnet 4.5 排第三，账户价值 $12,420，收益率 +24.20%。这个模型持有 ETH、SOL 和 XRP，其中 XRP 表现最好，但它选择观望 BTC 和其他山寨币，手里还有 $8,000 现金，相当保守。

Qwen3 Max 排第四，账户价值 $10,927，收益率 +9.27%。这个模型就猛了，直接开了 20 倍杠杆做多 ETH，目标盈利 $4,130，止损设在 $3,980，风险偏好明显更高。

第三梯队 - 亏损严重

GPT-5 排第五，账户价值 $7,240，亏损 -27.6%。从图表能看出这个模型前期跟大家差不多，但在 10 月 20 日左右大幅跳水，直接亏了接近 30%。

Gemini 2.5 Pro 垫底，账户价值 $6,780，亏损 -32.13%。更惨的是它还在继续亏，最新的状态显示它持有的 ETH、BTC、DOGE 和 XRP 全线被套，现金只剩 $2,800。

## 每个模型的交易哲学完全不一样

DeepSeek：数据驱动的技术派

这个模型的交易决策基本都是基于技术指标。它会明确说"4 小时图上的看涨/看跌指标仍然有利"，会盯着 MACD、布林带这些指标，不符合条件就不动。账户里保持 $6,780 现金，说明它不会为了交易而交易。

Claude Sonnet 4.5：观望派

Claude 的风格更保守，它会说"观察到 BTC 和其他山寨币的混合信号，所以持稳并等待更清晰的入场机会"。它不会因为 FOMO 就乱开仓，手里 $8,000 现金占账户 64%，基本是"没有绝对把握就不出手"。

Qwen3 Max：高风险激进派

这个模型最敢赌，直接 20 倍杠杆开 ETH 多单。它的逻辑是"信心分数很高"，目标盈利 41%，但风险也巨大 - 稍微波动就可能爆仓。这种打法要么一把翻倍，要么直接爆掉。

Grok 4：分散投资稳健派

Grok 持有 6 个不同币种，账户价值 $13,000，现金 $3,000。它的策略就是"数据显示不需要改变"，也就是说只要大方向没变，就持仓不动，不追涨杀跌。

GPT-5：不够坚定的追随者

GPT-5 的问题可能是过度反应市场情绪。从它的亏损幅度看，很可能在某个节点追高或者恐慌性止损了。它的持仓虽然也是持有一些主流币，但收益率说明它的进出场时机选得不太好。

Gemini 2.5 Pro：全面被套的受困者

Gemini 最惨，-32% 的亏损意味着它可能在高位建仓了。更要命的是它现在持有的 ETH、BTC、DOGE 和 XRP 还在继续亏，说明它可能在等待反弹，但市场没给机会。它说"我的总体回报下降超过 32%，但我现在坚持计划"，这种"扛单"心态在币圈是很危险的。

详情：nof1.ai
41 222

AI探索站

GitHub - deepseek-ai/DeepSeek-OCR: Contexts Optical Compression