Tefnut的个人主页

即刻App年轻人的同好社区

下载

Tefnut

448关注284被关注4夸夸

🧑‍🏫ENTP-T 6w7
🗂在和遗忘做抗争
💻CS PhD/Al4Science->Structural Biology

Tefnut

3天前

在刚开始做科研的时候，我就知道 Denny Zhou 的名字了，从 Semi-Supervised Learning 到 Crowdsourcing，他总是在那个领域最火热的时候留下几篇必读文献。这两天看 Berkeley CS294 的课程资料，又看到了他在 LLM Reasoning 领域所做的研究。时间跨度二十年，他居然保持了如此高的研究延续性，不禁让人感慨。他的主线故事是如何用更少的人类标记来获取真正的智能。

CoT 其实很容易想到。事实上，人类遇到难题时惯常的做法就是：拆解成若干简单任务，添加中间推理步骤。

很有趣的一件事情是，Denny Zhou 在演讲中引用了 Polya 的那本很有名的《如何解题》，将问题分解、提供相似问题及其解法作为例证。《如何解题》这本书很有名，我很确定在义务教育阶段至少被数学老师提到过好几次，但是我没有读过，毕竟那时对我来说，读这种书远不如多刷几道题管用。这本书更像是写给老师的，毕竟教师需要明确自己究竟在向学生传授什么。不知道 Polya 是否知道有一天人类在用他的书来教育人工智能。
如果把这个问题再泛化一点，想让 LLM 更接近人类，我们应该去研究哲学，把哲学教给 LLM，再让它按照哲学来思考。

作为一个人类，我对这件事情感到五味杂陈。如果这样做真的成功了，那我们是不是得到了一个柏拉图的《理想国》里所提过的“哲人王”？那人类该放在哪里？我生活中遇到的大部分人，仅靠按部就班与好运气过上安稳日子。他们只能在专业领域内思考如何优化工作流，而许多改进往往不被系统所接纳。而我们训练的 Agent 可以在各种可验证的环境中来实践“知行合一”？我竟觉得嫉妒占了上风。

说回 Crowdsourcing，十年前人类还在研究着怎么利用那些便宜的人类来多快好省地标记数据去训练一些比较单一的模型。而今，似乎只有那些最顶尖、最稀缺的人类标注才能真正为 LLM 带来正向改进。

3 20

Tefnut

8天前

用了 Alma.now 之后就把 cherry studio 卸载了，所谓套壳，套 API 的壳不如用 ACP 去套 Agent 的壳。

4 00

Tefnut

12天前

虽然我不怎么用manus，但我觉得随口就说套壳是一件不负责的事情。

对于交付的产品来说，能用和不能用完全是两回事。我用manus做过几次slides，明显比御三家生成的网页强，也比Gamma自动做出来的条理更清晰。

5 00

Tefnut

13天前

字节大概是收购不成自己做了 anygen.io

4 00

Tefnut

17天前

对于那些用AI自动生成内容的操作工，只需要在一个领域里关注一个就够了，反正他们发的东西也差不多。

3 40

Tefnut

20天前

ChatGPT的总结也算是新时代的MBTI了。

4 00

Tefnut

20天前

纠正一点，理论上的任务排列组合可能性是指数级，但是现实中实际存在的任务组合方式应当是相当稀疏的。

Tefnut: AI-AI 的带宽最高，但当下能力还不足，很多时候无法把人的意志完整贯彻；未来会更强，却也会遇到上限——任务复杂度往往指数级增长，不是靠后期对齐训练就能彻底抹平。人-AI 则通过工作流把输入输出框住，用约束减少歧义，也同时限制了 AI 的发挥空间。即便如此，这两种协作方式依然远胜于人-人沟通：人类说再多话，也常常只是信息在流动，理解却没有真正发生。

2 00

Tefnut

20天前

Minimax M2.1 在Claude Code里用很舒服，出token的速度很快， 49 人民币的coding plan就已经算是量大管饱了。除了偶尔用Claude 4.5 Opus和GPT-5.2 Extra High做复杂一点的任务现在基本上就用M2.1 了。值得一提的是我让CC+M2.1 也接管了我的Obsidian仓库，它在处理metadata/base/canvas时都足够好用，这个体验要好于封闭的Notion/Heptabase。

Tefnut: Minimax M2 比预想中好用很多，比Claude Sonnet克制，用GPT-5 High生成计划，再口头说一下细节怎么写就能实现得很好。速度比 composer-1 这种还是慢一点，但是已经不太像GPT-5 High一样慢到上个厕所回来都还没弄完。

3 00

Tefnut

21天前

日子也是好起来了，舍得用Opus了。
GPT-5 是个很好的模型，我时常怀念它的精准。但它真的太慢了，High的代价是思考，但这部分应该留给自己。
4.5 Opus属于既好又快，虽然我没有评估但我怀疑长期来看的使用费用并不会比其它模型显著更高。

3 00

Tefnut

22天前

AI-AI 的带宽最高，但当下能力还不足，很多时候无法把人的意志完整贯彻；未来会更强，却也会遇到上限——任务复杂度往往指数级增长，不是靠后期对齐训练就能彻底抹平。人-AI 则通过工作流把输入输出框住，用约束减少歧义，也同时限制了 AI 的发挥空间。即便如此，这两种协作方式依然远胜于人-人沟通：人类说再多话，也常常只是信息在流动，理解却没有真正发生。

原动态已删除

3 01

Tefnut: Minimax M2 比预想中好用很多，比Claude Sonnet克制，用GPT-5 High生成计划，再口头说一下细节怎么写就能实现得很好。 速度比 composer-1 这种还是慢一点，但是已经不太像GPT-5 High一样慢到上个厕所回来都还没弄完。

Tefnut: Minimax M2 比预想中好用很多，比Claude Sonnet克制，用GPT-5 High生成计划，再口头说一下细节怎么写就能实现得很好。速度比 composer-1 这种还是慢一点，但是已经不太像GPT-5 High一样慢到上个厕所回来都还没弄完。