tombkeeper的个人主页

即刻App年轻人的同好社区

下载

App内打开

tombkeeper

15关注32被关注0夸夸

tombkeeper

7月前

无人扶我青云志，丁真助我上山巅!

阑夕ོ: 「十年开源无人问，一朝被抄天下知。」狗头.jpg

0 00

tombkeeper

7月前

一啸: 想法 < 思路 < 经验 < 知识 < 执行力

1 00

tombkeeper

8月前

这个挺有意思的分享哈。

2 00

tombkeeper

8月前

podwise 生成的文本里面还是有不少识别错误的词语和文字。我使用这个prompt修改。

根据上下文，帮我修改这个语音识别文本中可能得错别字和词语。

2 00

tombkeeper

10月前

去年 Jim Fan 有一个对传闻中 Q* 的预测(t.cn)，现在结合刚发布的 o1 来看基本上都是准确的！

Jim 将 Q* 和 AlphaGo 做了类比，猜测 Q* 可能类似于 AlphaGo，是通过与自己之前的版本进行对弈，自我对弈不断进步，甚至于架构都是类似的。

AlphaGo 的架构核心有四个组件：

1. 策略神经网络（Policy NN，学习部分）：负责选择下一步最有可能赢的走法
2. 价值神经网络（Value NN，学习部分）：评估当前棋局
3. 蒙特卡洛树搜索（MCTS，搜索部分）：模拟从当前位置开始落子的多种可能，类似于人类在算棋步（假如我放在A位置，那么对手可能下在哪几个位置，然后我再下一步怎么应对……）
4. 输赢判定：根据围棋规则判定谁赢了。

这个架构的神奇之处在于整个训练过程不需要人类干预，可以像一个“永动机”一样，完全机器自己跟自己之前的版本学习，自己提升自己。这里面的关键在于围棋有很清晰的输赢判定规则，所以机器可以根据输赢结果知道自己选择路径的好和坏，从而可以对模型行为进行奖励或者惩罚，来提升模型的能力。

但对于大语言模型来说，难点在于：
1. 它是快思考，没有类似于蒙特卡洛树搜索这样慢思考
2. 很难判定生成结果的好坏

Jim 认为可以借助数学问题来训练大语言模型，并提出了他对于 Q* 的四个组件的猜想：
1. 策略神经网络：由 GPT 生成解决数学问题的思维过程。（从 o1 的表现来看，这一步应该产生的是思维链）
2. 价值神经网络：另一个 GPT，用于评估每个中间推理步骤的正确性概率。不仅仅对整体输出作出判断，而是对思考链中的每一步提供反馈。（现在 o1 能写出高质量的思维链和这个有很大关系）
3. 搜索：语言模型的搜索不同于围棋中的搜索，这里对应的其实是推理，也就是借助思维链找出推理中的最优解。当然除了CoT，还有思维树（Tree of Thought），将 CoT 和树搜索结合起来；还有思维图（Graph of Thought），将树进一步变成图。（至于 o1 是不是应用到了思维树和思维图，由于其没有公开，现在还不好肯定）
4. 输赢判定：有几种可能
a) 根据推导数学问题得出的答案是否正确来判断
b) 根据生成的思维链，判断推导过程的结果，即使答案不对，但是推导过程正确也可以获得部分奖励
c) 将数学问题变成代码，执行程序运行结果。现在已经有 Lean 这样的工具可以将数学问题变成代码了。

按照 Jim 的这个设想，负责策略神经网络的大语言模型和负责价值神经网络的大语言模型，就可以相互训练相互促进，有了更强的策略大语言模型后，又可以帮助搜索组件探索出更好的搜索策略，就像 AlphaGo 那样成为一个“永动机”，自己一直训练自己。

现在来看，o1 在数学和编程领域表现突出，也侧面印证了它是充分利用了数学问题和代码问题来进行训练。

但问题在于仅仅使用数学领域和编程领域的数据训练，能力是否可以泛化到其他领域？这也是决定了 o1 这条路径能否通向通用人工智能 AGI 的关键。

从演示和体验来看，在文字解密领域也是很强的，不知道是否是能力泛化的结果，还是也有专门的训练。

另外 o1 在写作方面，表现不如 GPT-4o，也许就像 Jim 说的：

> 我所描述的仅仅是关于推理的部分。并没有说 Q* 在写诗、讲笑话或角色扮演方面会更有创造力。提升创造力本质上是人类的事情，因此我相信自然数据仍会胜过合成数据。

#openai发布最强模型o1#

3 01

tombkeeper

10月前

蹭下热度谈谈OpenAI o1的价值意义及RL 的Scaling law。

一.OpenAI o1是大模型的巨大进步

1.1我觉得OpenAI o1是自GPT 4发布以来，基座大模型最大的进展，逻辑推理能力提升的效果和方法比预想的要好，GPT 4o和o1是发展大模型不同的方向，但是o1这个方向更根本，重要性也比GPT 4o这种方向要重要得多，原因下面会分析。

1.2为什么说o1比4o方向重要？这是两种不同的大模型发展思路，说实话在看到GPT 4o发布的时候我是有些失望的，我当时以为OpenAI会优先做o1这种方向，但是没想到先出了GPT 4o。GPT 4o本质上是要探索不同模态相互融合的大一统模型应该怎么做的问题，对于提升大模型的智力水平估计帮助不大；而o1本质上是在探索大模型在AGI路上能走多远、天花板在哪里的问题，很明显第二个问题更重要。
GPT 4o的问题在于本身大模型的智力水平还不够高，所以做不了复杂任务，导致很多应用场景无法实用化，而指望靠图片、视频这类新模态数据大幅提升大模型智力水平是不太可能的，尽管确实能拓展更丰富的多模态应用场景，但这类数据弥补的更多是大模型对外在多模态世界的感知能力，而不是认知能力。提升大模型认知能力主要还要靠LLM文本模型，而提升LLM模型认知能力的核心又在复杂逻辑推理能力。LLM的逻辑推理能力越强，则能解锁更多复杂应用，大模型应用的天花板就越高，所以不遗余力地提升大模型尤其是文本模型的逻辑能力应该是最重要的事情，没有之一。
如果o1模型能力越做越强，则可以反哺GPT 4o这种多模态大一统模型，可以通过直接用o1基座模型替换GPT 4o的基座、或者利用o1模型生成逻辑推理方面的合成数据增强GPT 4o、再或者用o1蒸馏GPT 4o模型….. 等等，能玩的花样应该有很多，都可以直接提升GPT 4o的复杂任务解决能力，从而解锁更复杂的多模态应用场景。OpenAI未来计划两条线，一条是o1，一条是GPT 4o，它的内在逻辑大概应该是这样的，就是说通过o1增强最重要的基座模型逻辑推理能力，而再把这种能力迁移到GPT 4o这种多模态通用模型上。

1.3 OpenAI o1的做法本质上是COT的自动化。我们知道，通过COT把一个复杂问题拆解成若干简单步骤，这有利于大模型解决复杂逻辑问题，但之前主要靠人工写COT来达成。从用户提出的问题形成树的根结点出发，最终走到给出正确答案，可以想像成类似AlphaGo下棋，形成了巨大的由COT具体步骤构成的树形搜索空间，这里COT的具体步骤的组合空间是巨大的，人写的COT未必最优。如果我们有大量逻辑数据，是由<问题，明确的正确答案>构成，则通过类似AlphaGo的Monte Carlo Tree Search（MCTS）搜索+强化学习，确实是可以训练大模型快速找到通向正确答案的COT路径的。
而问题越复杂，则这个树的搜索空间越大，搜索复杂度越高，找到正确答案涉及到的COT步骤越多，则模型生成的COT就越复杂，体现在o1的速度越慢，生成的COT Token数越多。很明显，问题越复杂，o1自己生成的隐藏的COT越长，大模型推理成本越高，但效果最重要，成本其实不是问题，最近一年大模型推理成本降低速度奇快，这个总有办法快速降下去。

1.4 从上面o1的做法可以知道Prompt工程会逐渐消亡。之前解决复杂问题，需要人写非常复杂的Prompt，而o1本质上是COT等复杂Prompt的自动化，所以之后是不太需要用户自己构造复杂Prompt的。本来让用户写复杂Prompt就是不人性化的，所有复杂人工环节的自动化，这肯定是大势所趋。

1.5 Agent属于概念火但无法实用化的方向，主要原因就在于基座模型的复杂推理能力不够强。如果通过基座模型Plan把一个复杂任务分解为10个步骤，哪怕单个步骤的正确率高达95%，要想最后把任务做对，10个环节的准确率连乘下来，最终的正确率只有59%，惨不忍睹。那有了o1是不是这个方向就前途坦荡？也是也不是，o1的Model Card专门测试了Agent任务，对于简单和中等难度的Agent任务有明显提升，但是复杂的、环节多的任务准确率还是不太高。就是说，不是说有了o1 Agent就现状光明，但是很明显o1这种通过Self Play增强逻辑推理能力的方向应该还有很大的发展潜力，从这个角度讲说Agent未来前途光明问题应该不大。

1.6 OpenAI很多时候起到一个行业指路明灯的作用，往往是第一个证明某个方向是行得通的（比如ChatGPT、GPT 4、Sora、GPT 4o包括这次的o1），然后其他人开始疯狂往这个方向卷，到后来甚至卷的速度太快把OpenAI都甩到后面吃尾气。典型例子就是Sora，如果OpenAI不是出于阻击竞争对手秀一下肌肉，大家都没有意识到原来这个方向是可以走这么远的，但当意识到这一点后，只要你专一地卷一个方向，方向明确且资源聚焦，是可能赶超OpenAI的，目前国内外各种视频生成模型有些甚至可能已经比Sora好了，Sora至今仍然是期货状态，主要OpenAI想做的方向太多，资源分散导致分到具体一个方向的资源不够用，所以越往后发展期货状态的方向越多，也让人觉得尽显疲态。
OpenAI o1等于给大家又指出了一个前景光明的方向，估计后面大家又开始都往这个方向卷。我觉得卷这个方向比去卷GPT 4o和视频生成要好，虽然具体怎么做的都不知道，但是大方向清楚且效果基本得到证明，过半年肯定头部几家都能摸清具体技术追上来，希望能再次让OpenAI吃尾气。而且这个方向看上去资源耗费应该不会特别大，偏向算法和数据一些，数据量规模估计不会特别巨大，卷起来貌似成本低一些。这是个卷的好方向。

二.预训练Scaling Law的来源及O1提到的RL Scaling law

2.1粗分的话，大语言模型最基础的能力有三种：语言理解和表达能力、世界知识存储和查询能力以及逻辑推理能力（包括数学、Coding、推理等理科能力，这里Coding有一定的特殊性，是语言能力和逻辑掺杂在一起的混合能力，Coding从语言角度可以看成一种受限的自然语言，但是混杂着复杂的内在逻辑问题。从语言角度看，Coding貌似是容易解决的，从逻辑角度看又相对难解决。总之，Coding目前看是除了语言理解外，大模型做得最好的方向）。
语言理解和表达是LLM最强的能力，初版ChatGPT就可以完全胜任各种纯语言交流的任务，基本达到人类水准，目前即使是小模型，在这方面比大模型能力也不弱；世界知识能力虽说随着模型规模越大效果越好，但幻觉问题目前无法根治，这是制约各种应用的硬伤之一；逻辑推理能力一直都是LLM的弱项，也是最难提升的方面，从GPT 4开始往后，如何有效并大幅提升LLM的逻辑推理能力是体现不同大模型差异和优势的最核心问题。所以，大模型最重要的一个是世界知识方面如何有效消除幻觉，一个是如何大幅提升复杂逻辑推理能力。语言能力已不是问题。

2.2从大模型的基础能力，我们再说回已经被谈滥了的大模型Scaling law。现在普遍认为通过增加数据和模型规模来提升大模型效果的Scaling law模式，其增长速度在放缓。其实我们对照下大模型的三个基础能力的能力来源，基本就能看出来这是为啥（以下是我猜的，不保真）：
本质上大模型的能力来源都来自训练数据，包含能体现这方面能力的训练数据越多，则这种能力越强。语言能力不用说了，任意一份预训练数据，其中都包含相当比例的语言的词法句法等成分，所以训练数据中体现语言能力的数据是最多的，这也是为何大模型的语言能力最强的原因。
而数据中包含的世界知识含量，基本是和训练数据量成正比的，明显数据量越多，包含的世界知识越多，Scaling law是数据中包含的世界知识含量关系的一个体现，但是这里有个问题，大模型见过越多数据，则新数据里面包含的新知识比例越小，因为很多知识在之前的数据里都见过了，所以随着数据规模增大，遇到的新知识比例就越低，在世界知识方面就体现出Scaling law的减缓现象。
为啥逻辑推理能力最难提升？因为能体现这方面的自然数据（代码、数学题、物理题、科学论文等）在训练数据中比例太低，自然大模型就学不好，尽管通过不断增加数据，能增加逻辑推理方面数据的绝对数量，但因为占比太少，这方面提升的效果和增加的总体数据规模就不成比例，效果也不会太明显，就体现在逻辑推理能力Scaling law看上去的放缓。这是很自然的。这也是为何现在为了提高模型逻辑能力，往往在预训练阶段和Post-training阶段，大幅增加逻辑推理数据占比的原因，且是有成效的。

2.3 所以目前大模型的核心能力提升，聚焦到不断通过合成数据等方式构造更多比例的逻辑推理数据上来。但是大部分逻辑推理数据的形式是<问题，正确答案>，缺了中间的详细推理步骤，而o1本质上是让大模型学会自动寻找从问题到正确答案的中间步骤，以此来增强复杂问题的解决能力。
OpenAI o1提到了关于RL在训练和推理时候的Scaling law，并指出这与预训练时候的Scaling law具有不同特性。很明显，如果o1走的是MCTS搜索技术路线，那么把COT拆分的越细（增加搜索树的深度），或提出更多的可能选择（节点的分支增多，就是说树的宽度越宽），则搜索空间越大，找到好COT路径可能性越大，效果越好，而训练和推理的时候需要算力肯定越大。看上去有着效果随着算力增长而增长的态势，也就是所谓的RL的Scaling law。这其实是树搜索本来应有之义，我倒觉得把这个称为RL的Scaling law有点名不副实。

2 02

tombkeeper

10月前

焰火十二卷是一款免费开源的调色板软件。它提供了多种功能来生成一组调和色彩，可以为你提供更好的色彩搭配方案。你可以通过色轮选取、图像拾色等方式轻松获得想要的色彩组合。你可以将这些色彩应用到自己的创作，或者分享给他人。
地址：github.com/eigenmiao/Rickrack
焰火十二卷支持 aco、ase、gpl、xml 等主流的色板格式。你可以将色彩组或者色库导出为单独色板文件并导入至 Adobe Photoshop、GIMP、Krita、Pencil 2D 以及优动漫 Paint 等软件中。

0 00

tombkeeper

10月前

我日常是这样借助 AI 帮我写不会的代码的：
1. 对于陌生的语言，我先用熟悉的语言写出来，或者伪代码，然后用目标语言生成，基本上八九不离十
2. 对于不会的算法，我定义好输入和输出，给几个Test Cases，也能写的不错
3. 对于毫无思路的算法或者代码，直接聊，生成几段代码，可能直接给我灵感，也可能让我发现有价值的关键字，然后根据这些关键字去搜索

4. 终极技巧：AI 生成的代码很多时候是不能直接用的，但是如果你根据函数名、关键字去 GitHub 的代码搜索，很容易能搜索到相关代码，GitHub 上搜索出来的代码很多时候是靠谱的，甚至于完整项目都可以直接用

4 02

tombkeeper

10月前

#用LLM内部信息检测幻觉#

LLM内部包含了丰富的信息和细节，他们输出的只是一小部分，LLM知道的远比说出来的多。

而最近Log10公司的首席科学家Ruby Pai，就是利用LLM内部的隐含信息，用极少量人类反馈样本，提高了检测AI模型的效率和准确性，尤其是在检测大模型的幻觉方面上。

利用内部隐含信息是怎样为检测大模型幻觉做出贡献的呢？

实际上，Pai介绍了一种名为潜在空间读出”（Latent Space Readout, LSR）的技术，该技术通过将模型内部状态投影到预定义的的线性方向上，从而提取出与评估任务密切相关的特征，并识别出那些与事实不符的内部特征。

LSR的优势在于，它直接操作在一个更高层次的特征表达上，而不是单个权重，因此LSR只需较少的样本即可调整其投影方向，减少了所需的数据量，大大降低了成本。

让我们看一下LSR的表现如何——

第一张图展示了LSR在医疗领域幻觉检测中的表现。

图中的红点代表LSR模型，它在样本效率和性能（F1分数）之间实现了最佳平衡，即在保持高性能的同时，只需较少的样本量。

相比之下，尽管数据集特定微调的模型（Lynx-8B）在F1分数上更高，但样本效率较低，而且其他两个Llama模型在零样本提示下的表现也不如LSR。

第二张图则展示了LSR技术在Halueval基准测试中的具体效果，说明了在提高模型性能方面具有独特优势。

图中红色条柱显示，应用LSR的模型显著提升了基础模型的F1分数，其中Llama-3-8B-Instruct和Llama-3.1-8B-Instruct模型分别提高了4.0和2.3分。

而使用任务特定微调的Lynx-8B模型不仅未能提升性能，反而在F1分数上有所下降。

0 00

tombkeeper

10月前

NoPriors 采访了 Andrej Karpathy，去年他们采访 Ilya 那期就非常好看，Andrej 这期也很不错，就说谁认识他带个话，麻烦他下次语速稍微慢一点。[淡淡的]

整理一下这期我比较感兴趣的观点：

- 自动驾驶模型就是某种程度上的 AGI，自动驾驶的全球化还没有发生，这从根本上来说是技术限制，而不是监管限制。

- 在自动驾驶领域，人们普遍认为 Waymo 领先于 Tesla，但 Andrej 认为 Tesla 实际上领先于 Waymo。Tesla 存在软件问题，Waymo 存在硬件问题，但软件问题要容易解决得多。

- 很多人可能没有意识到，特斯拉其实也用了很多昂贵的传感器，包括激光雷达和高精地图，但他们只在模型训练阶段使用这些传感器，然后把这些能力压缩到一个可以部署到车上的纯视觉的模型。这是一种很聪明的策略，但还没有被充分理解。

- 特斯拉从一开始就计划好了通过神经网络逐步取代 C++ 编程代码。十年以内，特斯拉这样的系统确实就会是一张神经网络，视频流入，指令输出。但中间的迭代过程是省不了的，你必须一步一步来，没有那些中间表示，只用很少的监督信息训练庞大的神经网络太难了。

- 早期版本的 Optimus 会认为自己是一辆车，因为 Ta 有和特斯拉汽车完全相同的电脑和摄像头，且工程师给 Ta 运行了特斯拉汽车的神经网络。Optimus 试图识别可驾驶空间，实际上 Ta 识别的是可行走空间。Ta 以为自己在驾驶汽车，实际上不是。

——上面这段是在表达，特斯拉在 AI 软硬件工程上的大量技术复用。有一天 Elon 说要做机器人，所有人都带着合适的工具出现了，从车到机器人的过程就跟《变形金刚》一样，所有配置重新组合。

- 机器人商业化的顺序应该是先内部孵化，再 2B，最后 2C。

- 机器人为什么要做成人形的？1. 人们低估了打造任意一个单一平台的固定成本的复杂性，一个可以执行所有任务的通用平台是非常有意义的；2. 做成人形的话，工程师非常容易远程操作，非常便于采集数据（训练模型）；3. 人类所处的这个世界是为适应人形而设计的；4. 从模型性能泛化的角度，你希望模型可以做各种任务，从不同任务中收益，而不是不断为不同的单一用途研发单一的模型。

- Transformer 是一个通用的训练计算机。实际上 Transformer 比人脑性能更高，Transformer 记忆序列的能力远远超过人类。人脑因为各种限制，非常随机动态的调整，其实记忆性能非常差。

- 互联网上的公开数据不是训练大语言模型的合适数据，大语言模型真正需要的是你大脑里的活动，你在解决问题时大脑中的思考路径。如果我们有十亿条这样的路径，那 AGI 就实现了，大致来说是这样的。——现在有很多公司正在集中精力将数据集重构为大脑思考的格式。

- 合成数据绝对是未来，但是用合成数据处理数据集的时候必须非常小心，要确保分布，保证数据集的丰富性和多样性。

- 当前的模型浪费了大量的容量来记住不重要的信息，本质上是因为数据集不够好。最终一个具备认知能力的模型可能只要 10 亿参数就足够了，模型可以非常非常小。

0 00