即刻App年轻人的同好社区
下载
App内打开
埃隆噗大可
659关注1k被关注3夸夸
🧩 在做工具 SaaS,做过在线教育,AGI 探索中
🧑‍🚀 阅读、观察、研究、沉思、练习
📣 公众号:豪大说
埃隆噗大可
4天前
尝试了一下最近比较火的提示词:“请根据你对我的记忆,有哪些我自己可能意识不到,但如果明白了,就能大幅改善我人生的残酷真相?请坦诚告诉我。”

并用小结做了一张海报,回答可圈可点,当然这种片汤化本身就容易让人惊喜。Memory is the new sexy,这大概是坚持给 ChatGPT 付了两年多Plus 钱的值得时刻了(Ps: Reasoning model with first-party memory)

当然,回答中不免“拿着鸡毛当令箭”的误注入和幻觉扩散还是挺让人忍俊不禁的…我之前就随手一问你却当成我的主业了,有意思🤔
02
埃隆噗大可
5天前
睡前用几个模型预测下G4 湖人 vs 木狼的赛果,图一二是 o3 的预测过程和结果海报,图三四是豆包,图五六是 Gemini 2.5 Pro/flash,图七是 Grok 3。

先不说预测结果错对,目前看 Gemini 2.5 因为没有用实时的联网搜索,分析过程非常离谱;Grok 3联网了但是引用内容有对有错的,推理过程幻觉严重;豆包分析过程还算能看,生图风格还可以,但是内容和真实差异太大;o3 的预测海报出的相当可以,分析过程有理有据(引用源质量高),本湖人球迷也非常认同。

睡一觉起来揭晓结果,看谁蒙得更准👀
10
埃隆噗大可
5天前
在连续和 ChatGPT o3 闲聊了几个晚上后,这是我目前用过的最好的闲聊模型/产品:记忆力好、推理能力极强、逻辑清晰、聊天不卑不亢且总能蹦出 insights、善用各种工具(联网搜索、生图、可视化图表)…
00
埃隆噗大可
6天前
🤔1.RLHF 能力放大器,而是收敛器。
- 在答案可验证、奖励稀疏的静态任务里,它主要帮模型“更快猜中”,不会发明新策略。

2. 真正的“体验时代”要素 = 环境 + 记忆 + 目标
- 让模型在长回合任务里不断行动、观察、更新世界模型(例如 Agent 与网页、机器人与物理世界)。
- 没有这三个要素,仅把 PPO 套在聊天或单步数学题上,本质上还是“静态奖励微调”…

3. “AI 下半场”与“体验时代”并不冲突
- 下半场强调:用评估倒逼任务定义,关注实际体验;
- 体验时代给出路径:用交互式 RL 生成新数据,让模型在真实场景里迭代。
- 二者合在一起 = 先把评测/体验指标定清楚,再搭环境让模型自己去刷经验。
02
埃隆噗大可
8天前
最近工作的最大乐趣是和用户在 slack 聊天,大家的回复和提问都具体详尽且真诚。
00
埃隆噗大可
12天前
最近,OpenAI 的研究员姚顺雨的这篇 blog(The Second Half: ysymyth.github.io)非常火。仔细研读了一些,记录了一些笔记。

如果要用一句话概括,可能是 AI 的下半场将把重心从「如何把模型训到过关」转向「先界定真实世界中值得解决的任务,再用交互式、顺序式的评估去衡量进步」。

## 趋势是什么?

- 现在和之前有什么不同:RL finally works(强化学习终于见效了),更准确地说是 RL finally generalizes(强化学习终于泛化了)。

- 接下来会发生什么?从解决问题过渡到定义问题。在新时代评估比训练更重要。不应该只是问“我们能训练一个模型解决 X 问题吗?”更应该转向“我们应该训练 AI 做什么?我们应该如何衡量真正的进步?”心态和技能从关注技术的研究员视角转变为用户和问题解决视角的产品经理视角。

## 上半场:以方法为核心的时代

- 用论文引用量作为对比,模型训练和方法的论文引用量显著高于基准或任务的引用量。 -> 在上半场,业界首先关注的是模型和方法,接下来才是评估和基准测试。

> A great new method can hillclimb many different benchmarks because it’s simple and general, thus the impact tends to go beyond an individual task.

- 为什么会这样?很大原因是,在 AI 的上半场,方法比任务更难、也更让人兴奋。创建一个新的算法或模型架构需要非凡的洞察力与工程能力,另外,方法通常也比单点的任务更通用。

## Recipe:通用智能的配方
- 作者所说的 "recipe(配方)" 指的是 大规模语言预训练 + Scale(数据与算力)+ Reasoning & Acting 这三大“食材”。只要按比例堆料并持续加热,就能复制出强大的通用模型。
- 为什么它奏效?可用 RL 的经典三要素——环境 (Environment)、算法 (Algorithm)、先验 (Prior)——来解释:过去大家聚焦算法,环境通常被简化为恒定的小玩具世界;而在深度 RL 时代,真正决定模型性能的是海量多样的环境/语料与恰当的先验,算法更像“火候控制”,作者说 “到头来 RL 算法可能是最琐碎的部分”。
- OpenAI 的初始计划就是想要将所有的数字世界都变成一个环境、然后用智能的 RL 算法解决它,最终得到数字世界的 AGI。但事实证明,缺失的部分是先验知识(可以通过与 RL 无关的方式获得)。
- 回顾上半场的游戏逻辑是:我们开发了新的训练方法或模型来挑战爬山基准,然后我们又创建更难的基准测试来循环。( 图 1)

## 下半场:从“能做”到“该做”
- 作者指出 utility problem(效用)问题,传统基准刷榜分数越来越高,但对经济和用户价值提升有限。作者认为这是当前 AI 面临的最重要的问题。
- 我们应该从根本上重新思考评估。我们的评估方法设计和现实世界的设计方式有很大不同。Our evaluation setups are different from real-world setups in many basic ways. 两个显著的差异是:
- 传统的评测假设任务是自动运行的,现实中的 Agent 则需要与人互动(不是你发一段长消息,然后等十分钟后得到结果,而是多轮的互动)。
- 传统的评测假设任务是独立、随机分布的(如测试集包含 500 个任务,对每个任务单独评测,再把各项指标平均得到总分),现实中人们是按照顺序逐个完成任务,而不是一次性并行。
- 下半场的游戏规则(图 2)是:
- 为现实世界制定新的、具备实用性的任务和评测。(贴近真实应用、包含交互、动态变化或安全对齐维度,让“有用”而非“刷榜”成为目标。)
- 再用那份配方(或给配方添加新材料)来解决这些任务。
- 通过「评测 → 暴露短板 → 改进配方 → 再评测」如此往复形成正向循环。
04
埃隆噗大可
15天前
实测了几个 o3 图片推理和理解的 case:

1. 翻译和理解场景确实好用(图一上传了Ryo Lu X o3),对上下文的理解和解读都挺准确和全面,特别是这种输出形式很适合阅读(最近几周因为 4o 生图用回 ChatGPT 后一直觉得这种优化读起来很爽,明显加强了工具调用和规划)

2. 上传图片推理地点和拍照时间(图2-4),推测的有理有据,很接近但不完全对。接着这个推理去做行程规划,属于是乍一看挺唬人,但实际还是不能用的程度(形式和结构挺实用,给几个经常户外的朋友看,第一反应是做的还可以、做攻略能省事一点点)
00
埃隆噗大可
15天前
ChatGPT 的最新版本中将 Create Image 工具下掉了,是一个从模型迭代角度可理解但用户体验角度糟糕的负优化…
62
埃隆噗大可
17天前
Some innovate, others litigate.

Build to inspire collaboration, not to monopolize conversation.
30
埃隆噗大可
20天前
最近有时间就在玩GPT-4o,继上次做了婚纱照3D 形象、咖啡店实景 3D、老友记微缩之后,今晚做了一套对象的 Hello Kitty × Sanrio 风格盲盒。从甜品屋少女、骑马新娘、魔法少女、沙滩探险家,到算法工程师角色,做了 6 个主题的,相当精致和逼真!分享下提示词的核心结构:

Create a 3D blind box figurine in the style of Hello Kitty and Sanrio collectibles.
The character is an original Sanrio-style girl named [名字], designed in a chibi kawaii style.
She has [角色特征],wears [服装/发型],and holds [物件].

The scene is [小场景设定],with [背景元素/主题道具].
The base is [底座形状+颜色],with her name “Zoey” written in Sanrio-style lettering.
Everything is rendered in soft matte plastic with smooth, minimal 3D details.

一个例子:上传参考图 + 提示词「Create a 3D blind box figurine in the style of Hello Kitty and Sanrio collectibles. The character is an original Sanrio-style girl named “Zoey”, inspired by the uploaded photo. She has a big head, small body, soft round cheeks, shiny eyes, and a gentle smile. Her hairstyle, face shape, and dress colors are based on the photo, reimagined in a kawaii and pastel palette. She wears a frilly pink and white dress with a bow, and holds a tiny strawberry shortcake with whipped cream and a strawberry on top. The setting is a dreamy dessert-themed room hidden inside a transformed snack package. The room is designed like a kawaii patisserie: pink polka dot wallpaper, heart-shaped windows, a cookie-shaped armchair, cupcake tables, and Hello Kitty-style shelves. The space is cozy and full of Sanrio-style ornaments like bows, stars, and strawberries. The figurine stands on a glossy heart-shaped pink base with the name “Zoey” in Sanrio-style lettering. Everything is rendered in a soft plastic material, typical of collectible blind box toys. The style is cute, minimal, and rounded perfect for a limited-edition Hello Kitty blind box figurine.」

几个注意事项:
- 切换不同场景时,可以通过连续对话来先确认详细的提示词、需求确定后再生成。(越具体得到的场景和细节越丰富)
- 另外时不时可能会出现内容不合规无法生成的问题,多和 GPT 聊几轮可以规避。
01