即刻App年轻人的同好社区
下载
App内打开
嵇鹤
208关注20被关注0夸夸
在这里,重启自己的表达欲
发表一些注定会被证明是错误的言论
嵇鹤
10天前
为什么大模型领域更稀缺的是文科生

01
目前,业界评判一个大模型“好不好”的主流方式,是让它运行各种评测基准(Benchmark)。无论是MMLU、HumanEval还是其他各种榜单,它们大多围绕数学、代码、逻辑推理和客观知识问答来设计题目。这些评测集追求的是客观、可量化、可重复,即使存在一些主观评测集,为了效率和成本,也常常采用更强大的模型(比如GPT-4)来进行自动化评估。
在这种评判体系下,当我们说一个模型“更强”时,实际上往往是在说它更擅长做数学题、写代码,或者掌握了更多可验证的客观知识。这就像我们用一套标准化的“智商测试”来衡量模型的“智力”。
但吊诡的地方在于,当你跳出科技互联网圈的自嗨,去看看普通人真正在用这些模型做什么、讨论什么的时候,画风就完全变了。还记得春节 R1 的刷屏吗?大家津津乐道的,很少是它解开了哪个 IMO ACM 难题,反而是一些充满人情味儿的回答,一些抖得恰到好处的机灵,或者干脆就是能把天聊舒服了的那种感觉。说白了,用户在社交媒体上晒出来的,更多是模型的“有趣”和“懂我”,而不是它智商有多高。
这就很像一个悖论:我们用一套极其“理工科”的标准去锤炼和衡量一个目标是服务于形形色色人类的工具。我们希望它能写诗、能共情、能理解笑话里的潜台词,但我们的考试卷上却主要是数理化。结果就是,我们可能在无意中,把模型往一个“高智商低情商”的纯粹工具方向上推。

02
为什么会这样?我觉得根子可能还是在于这个领域目前的话语权结构。大模型这波浪潮,冲在最前面的、定义游戏规则的,主要是算法工程师和科研人员。他们的思维范式天然就倾向于可量化、可验证、逻辑清晰的东西。这在技术攻坚阶段当然是核心优势。但当技术开始需要面对真实世界里那些模糊的、感性的、充满文化差异的需求时,这种单一视角就可能变成一种局限。就像你让一群最顶尖的结构工程师去设计一座歌剧院,他们能保证它绝对安全、结构优化到极致,但未必能保证它的声学效果和艺术美感同样顶级,因为那需要不同的知识体系和感受力。
那么,模型要变得更“好用”、更“像人”,光靠算法和算力这两把刷子,是不是就够了?看起来未必。模型的进化,很大程度上也依赖于喂给它的“精神食粮”——也就是训练数据。而高质量的数据,绝不仅仅是事实正确那么简单。它需要包含语言的韵味、情感的层次、文化的背景、审美的取向。
这些东西,恰恰是“文科生”(学文学、历史、哲学、艺术、社会学等等的)们日常浸淫和研究的对象。他们对语言的细微差别更敏感,对人类情感的复杂光谱更有体察,对不同文化语境下的“雷区”和“G点”更有意识。让他们来参与定义“好内容”、筛选和标注体现人类智慧与情感的数据,甚至设计更符合人类交流习惯的交互方式,可能比单纯依赖工程师的理解要靠谱得多。
所以,现在说大模型领域缺“文科生”,可能不只是一种黑色幽默,或者某种“政治正确”的呼吁。而是真的指出了这一技术在走向成熟、走向更广泛应用时,一个亟待弥补的结构性短板。我们投入了巨大的资源去提升模型的“左脑”(逻辑、计算能力),现在可能需要同样,甚至更多地关注如何健全它的“右脑”(情感、直觉、创造力、同理心),以及如何让这两个“半脑”更好地协同工作。
这当然不容易。感性的东西很难量化,人文的价值很难在短期内直接换算成利润。但如果我们想要创造的,不只是一个更强大的信息处理工具,而是一个能真正融入人类社会、提升我们生活品质的 AI,那么,让那些研究“人”是怎么回事的智慧,更深度地参与到塑造模型的过程中来,恐怕就是无法回避的下一步了。

03
那么,我们需要什么样的“文科生”?
在我看来,一个理想的文科生至少需要具备几种关键特质:首先,这个人得有独立的审美和判断力。对什么样的语言是好的、什么样的内容是有价值、有吸引力的,得有自己的一套成熟的见解和标准。这不仅仅是抽象的“品味”,更是对语言文字、叙事逻辑、情感表达、文化内涵的深度理解。但光有判断力还不够,他/她还需要懂得如何与模型有效沟通,能将这种近乎直觉的判断,转化成大模型能够理解和执行的指令,也就是现在常说的提示工程(Prompt Engineering)的能力。这就像一个优秀的导演,既要有艺术眼光,知道想要什么样的画面和表演,也要懂得用演员能明白的语言去指导他们实现。
其次,需要具备对文字高度的敏感度和辨识力。能够敏锐地捕捉到不同模型、甚至同一模型微小迭代下,其输出在风格、语气、价值观乃至微妙“个性”上的差异。这种敏感度使得他们能快速摸清一个模型的表达习性及其能力的边界,有效地识别出哪些是值得学习和发扬的“闪光点”,哪些又是需要修正或规避的“坏毛病”。这有点像经验丰富的调音师,能听出乐器最细微的音准偏差和音色瑕疵。
更进一步,理想的人选还需要具备对模型宏观理想态的定义和拆解目标的能力。也就是说,能够清晰地构想并描绘出,我们期望模型最终呈现出的理想“人格状态”或“对话风格”应该是怎样的。这涉及到定义模型的“性格”基调、需要遵循的“价值观”原则,或是要模仿的特定“风格”。并且,更关键的是,要能将这些相对宏观和抽象的目标,拆解成在模型训练、微调或评估时可以操作、可以衡量的具体特征和规则。这无异于为模型精心设计“人设”,并规划出达到这个人设所需遵循的路径图。

04
被低估的护城河:高质量数据及其生产体系
最后抛出一个个人的暴论:在当前大模型的激烈竞争中,对于大多数并非处在绝对领先地位的公司而言,将核心资源过度倾斜于追赶算法本身的迭代,其长远战略价值可能不如深耕“数据”本身。
这听起来似乎有些反直觉,毕竟算法是驱动引擎。但现实情况是,顶尖或接近顶尖的模型架构,往往会因为开源、技术扩散等原因,逐渐演变为某种程度上的公共基础设施。你可以看到,强大的底座模型会不断涌现,供行业选用。然而,开源的通常只是模型架构,真正能体现差异化、决定模型实际表现“血肉”的——那些高质量、有特色、经过精细加工和标注的数据集——往往是各家机构最核心的、从来不会开源的资产。
这意味着什么?如果你无法确保自身算法始终保持在世界第一梯队,那么随着时间的推移,你大概率会(无论是主动选择还是被动接受)基于某个强大的开源模型来构建你的应用。在这种场景)下,即使你在算法层面投入巨大精力进行优化,可能几个月后,随着基础模型的又一次重大迭代,你之前的努力很容易就被“代差”所覆盖,难以积累起可持续的竞争优势。这就像在一条飞速奔跑的传送带上做雕刻,你的技艺再精湛,传送带本身的前进也可能让你的作品很快显得过时。
相比之下,高质量、有特色的数据集,以及——这一点可能更为重要——一套能够持续生产、迭代和管理这种数据的成熟体系、方法论和专业团队(这正是前面提到的“理想文科生”可以发挥巨大价值的地方),才是真正能够沉淀下来、穿越模型迭代周期的核心资产。无论底层的模型架构如何演变,优质的“燃料”以及高效“提炼燃料”的能力,其价值是恒定的。
因此,数据工作的价值,尤其是在定义“什么样的数据是好的”以及如何系统性地获取这些数据方面,可能被远远低估了。它不仅仅是基础性的“标注”工作,更是一种结合了领域知识、人文理解和战略眼光的系统工程。或许,在大模型时代,对很多参与者而言,真正的护城河并非来自算法上的微小领先,而更多地源于你所拥有的、独特的、高质量的数据资产,以及你创造这些资产的独特能力。
00
嵇鹤
24天前
比起边想边搜,更应该实现的功能应该边聊边想,在思考的每一个节点用户都能参与进来进行交互,防止模型进行一些不必要甚至是错误的思考,今天高强度体验 autoGLM 沉思版时候的最大感受就是,很多时候模型的思已经考脱离正确轨道了,我却无能为力,最终看他在浪费二十分钟后输出一堆废话🥲
10
嵇鹤
27天前
AI PM 是一个暂时性的岗位吗?

01
要回答这个问题,我认为实质上就是在回答以下一个问题:什么是 AI PM 真正的、区别与其他 PM 的核心能力?
如果是一年半前,我的回答大概是 prompt engineering 水平,毕竟当时我做的第一个产品,就是靠着一个自己写的高度复杂的PE完成的;如果放在半年多前,我的答案大概是搭建 workflow 的能力,任何高度复杂的 pe 完全可以通过拆分为一套 workflow,通过引入多个节点和 function calling 的方式既可以避免模型在不擅长领域(比如计算)的幻觉,还能极大扩展模型的 context(比如联网),让模型的能力大大扩展。
然而站在一年多后的今天,曾经那些 pe 的奇技淫巧,99% 已经成为历史;在现有模型的智能水平下,清晰表达需求比任何prompt 的魔法都管用。workflow 现在确实依然重要,然而最近 4o 文生图能力对于 ComfyUI 的碾压无疑证明了,只要承认GPT5级别的智能是必然到来的,那么绝大部分 workflow 显然都只是当前智能水平下过渡产物,就如同 pe 3.5-4 时代的过渡产物一样。
那么我们可以问的是,站在今天或者更长远一些视角——三年以后,有什么是 AI PM 真正的、区别与其他 PM 的核心能力吗?
02
所有 ai 产品抽象来看,都可以看作是对模型智能的调用,用户给出一个输入(可以是任何模态),调用智能后得到一个输出结果(这个结果也可以是任何事物),即 Input-AI-Output 的结构,如果这个 input output 的场景需求是过去就有的,只是效果没有 ai 做得好,那就是 ai+产品(类似于 ai 翻译);如果这个需求场景过去没有办法满足,只有 ai 能满足,那就可以算是 ai native 产品。
如果我们用这个结构去理解所有的 ai 产品,并且接受以下预设:模型智能水平的发展还远远没有到停滞的时候,在三年内模型水平至少还能够提升一代到两代。那可以得出的一个显而易见的结论是,AI PM 所有围绕这一结构中 AI 层做功的工作某种程度都带有临时属性,都是在可预期的将来会被淘汰的工作,它们随时都可能会在模型厂商的一次更新里成为历史。
03
那么在 input output 阶段 PM 能够做什么?
input 阶段,我个人的体会是,本质都是为了一个目标服务——如何更低成本地获取更多更高质量的 context。成本反映在两个方面,一方面是用户成本,用户永远是懒惰的,能点击绝不打字,能打三个字绝不打一句话,怎么让用户在输入端尽可能少做功的前提下,获取更多的 context 是一个很重要的课题,memory/api 获取时间地理位置搜索记录都是目前比较成熟的解决方案;
但这其实导致了另一个方面的成本,隐私成本。前面提到的解决方案本质都是通过获取更多的用户隐私信息来降低用户的使用成本的,但即使不谈隐私的获取是有成本,元宝协议带来的舆论风波也证明了在 ai 时代用户对于自身隐私用于模型这件事实际是相当敏感的,所以如何低隐私成本地,或者说,如何在用户感知中低隐私成本的获取 context 也是很重要的问题。
更多更高质量这个很好理解略去不谈,但是在 input 阶段还想谈谈个人认为很重要但是似乎至今都还没有什么比较亮眼的解决方案的问题——人和 AI 如何协作的问题,现阶段几乎所有 ai 产品几乎都采取了完全相同的协作方式,即用户给出指令--模型完成指令,这在任务可以被封闭定义的问题上当然是一个好的解决方式,然而在例如创意写作这样的任务当中,如何让人和 AI 能够真正意义上的合作显然还是一个问题。
output 阶段,核心目标实际是——寻找到什么是用户真正需要的是什么。Chatbot给我们的最大教训就是:用户要的从来不是文本本身。一段代码、几句安慰或者文字解决方案都不是终点,用户真正需要的是项目成功运行、孤独无助时的陪伴、工作真正完成。
因此重要的是找到用户真正需要什么,然后让 output 离前者尽可能的近。所以比起给出一段代码文本,cursor 直接应用代码更改到项目里显然距离用户的真正需求更近。
04
也就是说在这个结构下,AI PM 真正重要的工作,实际是两件事 1.更低成本地获取更多更高质量的 相关 context;2.让产品的输出离用户的真正需求尽可能的近。
如果这还看不出什么,不妨让我们对 Input-AI-Output 这一结构做一个改写(更准确地说是泛化),变为 Input-I(intelligence)-Output,无论这个 intelligence artificial 还是 human 的,我们会发现上面讨论的问题依然都成立,也就是说即使我们没有 AI,而是有着同等智能水平和量级的别的什么东西(例如一千万牛马大学生),我们依然可以实现这个产品(而且对于 PM 而言,这两者的输入和输出实际没有本质区别)。
这让我们不得不回到最初的问题:究竟什么是 AI PM 真正的、区别与其他 PM 的核心能力?

后记:本文的写作目的并不是对 AI PM 这一岗位进行批判,相反本文的写作缘由是起于最近思考中认识到的一个事实,对于绝大部分人而言,AI 并不是一个有太高技术门槛的事物(激进一点说是对除基模侧外的所有人)。现实却是大部分人将其渲染为一个有非常高技术门槛,艰深难懂需要系统性学习的事物,然而事实上对于应用层,完全只需要自然语言就能进行交互,几乎没有学习成本。
如果说互联网的革命性在于让信息可以以近乎无成本的形式进行复制和分发,那么 AI 真正的革命性就在于能够使智能以近乎无成本的形式进行复制和分发。在这个意义上长期来看, AI PM 真正需要关心的应该是如何使用这些智能满足过去无法满足的需求或创造新的需求,而不是期待通过对于人工智能本身的深入研究而获得深刻的 insight。
当然在这种理解下,AI PM 确实要求某些区别于一般 PM 的能力,例如:能够很好把握当下主流模型在不同领域的能力水位、能够根据场景需求定义理想态数据。
13
嵇鹤
8月前

欢喜.: 受到朋友启发,最近非常爱读New Yorker, Atlantic, Medium上的文章。我找到了免费阅读前两种内容的方法并解释了为什么类似medium没有办法成功。 工作解决方案很简单。您只需在浏览器地址栏中的12ft.io/URL 前面添加该字符串即可。https://www.newyorker.com/.... 请记住,地址栏中的 URL 应该看起来像12ft.io/https://www.newyorker.com/......而不是像12ft.io/www.newyorker.com/... 什么是12ft? 12ft.io实际上是一个网站,其名称参考了 12 英尺的梯子。 给我一堵 10 英尺高的墙,我会给你一个 12 英尺长的梯子。 考虑到它解决的问题,这是一个非常生动的比喻... 为什么这个方法起作用? 互联网上有两种付费墙:软付费墙和硬付费墙。 New Yorker, Atlantic等网站使用软付费墙。 软付费墙只是一个阻止您访问内容本身的 HTML 元素。该文章已下载到您的浏览器,但您无法使用某些 Javascript 逻辑查看它。像12ft.io和removepaywall.com这样的网站,只需禁用 JavaScript,这样阻止元素就不会显示出来。 另一方面,当网站使用硬付费墙时,文章甚至不会下载到您的浏览器。在大多数情况下,仅将前几段或摘录发送到浏览器,然后将其显示给用户。Medium.com和纽约时报使用硬付费专区。 正如您可能知道的那样,硬付费墙无法绕过,因为没有用户名和密码就无法在浏览器上获取内容。 为什么网站使用软付费墙? 既然软付费墙可以如此轻易地绕过,为什么网站还要使用它呢?为什么不是所有网站都将其内容放在硬付费墙后面? 原因是搜索引擎优化(SEO)。如果内容隐藏在硬付费墙后面,即使谷歌也无法对其进行索引。如果谷歌无法对一段内容建立索引,那么它就等于死了。 因此,网站很难在搜索引擎优化的好处和强迫用户付费之间保持微妙的界限。软付费墙提供了这个很好的中间立场。 道德问题 现在几乎一切的文章都是基于订阅制的,《纽约客》杂志的订阅费用为每年 49.99 美元。在某些国家/地区,这么多钱足以购买 50 份午餐(是的,五十份!)。如果每年只阅读几篇文章,那么花费就太多了。我知道这只是自私的推理,旨在为盗窃行为辩护。使用付费服务而不付费是没有道理的。 但苦于价格昂贵,即使知道这或许是错误的但我还是做了这件事,并分享给各位。如果可以的话,还是希望大家能支持正版。

00
嵇鹤
9月前
依然认为ai搜索只是过渡产品形态的原因,因为只要以下两个基本点不改变,ai搜索一定会被取代:

(1)交互的基本结构依然是text2text,和Chatbot没有本质区别
(2)搜索仍然依赖的是搜索引擎。

(1)意味着只要模型足够强,ai搜索一定会被并入其中。如果ai搜索只是为了解决消息质量不够高的问题(ai+搜索),那么如果大模型本身就可以解决了为什么要额外的产品?

(2)意味着传统搜索遇到一切问题,ai搜索也必须全部经历一遍(重点是商业化问题),而传统搜索之所以难用,恰恰是因为这个问题,并且如果ai搜索是为了提高搜索的准确度(搜索+ai),那么传统搜索引擎完全可以内嵌ai能力,为什么需要一个额外产品?

那为什么现在ai搜索火了?因为它恰好匹配了目前的模型能力,因为现在恰恰大模型能力不够强,同时传统搜索体验又过于糟糕(搜索到需要的高质量信息已经事实上成为一种专业能力),因此它能爆
30
嵇鹤
9月前

艾逗笔: 实现垂类 AI 搜索引擎 SOP👇 # 确定三个核心问题: 1. source list 从哪些地方检索数据 2. answer prompt 使用什么提示词模板回复 3. llm model 使用哪个大语言模型回复 # 搜索前query rewrite: 1. 结合历史消息,判断当前 query 是否需要 retrieve 2. 结合历史消息,做指代消解,把代词替换成具体的名词 3. 从指代消解后的 query 提取关键词 keywords # RAG 流程 1. 使用query + keywords 作为入参,从source list 获取检索结果(在线API检索+本地index检索),必要时可对 query + keywords 进行翻译,使用不同语言进行多轮检索 2. 检索结果聚合重排reranking 3. 获取重排后 top_k 条内容详情 4. 使用回复提示词 + 检索内容 + 历史消息作为 context,带上最新 query 请求 LLM 回复 # 主要工程量 1. 对内容源 build index 对于没有标准API的source,需要对source站点的数据构建索引。增量构建使用source的搜索框,存量构建使用搜索引擎网页快照,很难拿到某个 source 的全量数据 2. 更新 source 权重 系统预置权重 + 用户点击更新 source 权重,多信息源检索时依据 source 权重返回结果数量和初始排序 3. 多信息源重排 需要一个高效/快速的 reranking 框架,比如 FlashRank 4. 构建 chunk 内容池 对检索到的内容进行 chunk 拆分,存储向量数据库,挂载上下文请求 LLM 回答时,相似度匹配部分内容,避免暴力传输 5. 构建关键词库 定期分析历史 query,提取热搜关键词,构建关键词库。命中关键词库的 query,retrieve 环节走缓存 ------ AI 搜索引擎,做一个容易,做好太难,细节太多,需要大量的雕花工作。 欢迎补充。

00
嵇鹤
9月前
“商用级水准,PDF布局与公式识别达到SOTA!”

欢迎大家体验我们新开源的PDF文档提取工具MinerU,顺手给个star支持一下吧;如果有合作意向,也欢迎来撩👈🏻

github.com
github.com
10
嵇鹤
9月前

刘勿锋: 一个典型AI产品经理的产品评估工作是什么样的? AI产品经理是围绕着AI能力构建产品的人,而传统产品经理,则主要围绕工程能力来构建产品。 所谓工程能力,就是日常看到的前端展示,以及背后的后端逻辑。它的特点就是确定性(或者叫可解释性好),也因此,在研发上,只要是正常需求,早晚都能做出来。 比如一次登录,正常情况下,只要账号密码正确,且网络和服务正常,就一定会成功。研发也不会说这个做不了。 而AI能力,目前主要就是各种识别和生成。像什么人脸识别,文字识别,以及文本生成,图片生成,视频生成等等。特点就是不确定性,或者叫可解释性差。 对识别类任务而言,即使是同一个人,可能稍微换个角度或光影,AI模型就认不出来了。 对生成类任务而言,即使是同一个输入,先后两次给到模型,输出结果也不一样。相信但凡用过各种gpt的,都对此深有体会。 面对可解释性差的特点,AI产品经理的一个核心工作,就是评估模型质量。毕竟如果你想知道加了数据之后,最终指标是变好还是变差,除了直接测试,就没有第二条路了。 对识别类任务的评估比较简单,业内的方法也很成熟了。 即给定一批样本(测试集),标注我们期望的输出(真值)。然后让模型基于这批样本进行预测,拿模型预测值和真值比较,看预测对了多少,错了多少。最后得出指标结果。 这就有点像高考的客观题部分。出题老师先出了一份试题,同时把答案提前准备好。然后把试题给到所有考生,他们看到试题后,会给出自己的答案。系统再拿考生的答案和老师的答案进行比较,最后算个分数出来。 上面的例子里,试题就是测试集,老师的答案就是真值,考生对应AI模型,而考生的答案就是预测值。 这里面,产品经理的工作,最主要就是定义要什么样的指标,准备简单的testcase,以及明确数据标注的规则。 然后等指标的计算变得自动化,并且测试数据也都标注好之后,前期的评估准备工作就结束了。这时候,通常我们会得到一个专用的测试工具。 有了测试工具,每次版本修改,就在测试集上做回归测试即可。 就像有了一套题库和答案,并且有了自动打分的系统之后,想知道学生们每隔一段时间的学习效果,就让他们考试。 当考试结果下来,AI产品经理又会变成班主任,要去简单分析学生丢分在哪里,哪些地方丢分严重。 然后,再给到算法工程师(任课老师)做进一步分析,包括为什么会在某些题目上丢分,后面要如何优化等等。 篇幅原因,就不展开了。 最后做个总结,一般AI产品经理对模型的评估,就是: 1)定义指标:即要测什么,不测什么;然后交给算法同事来实现指标的计算; 2)定义testcase,用来检验测试系统本身是否设计正确; 3)定义测试集标注规则:用来指导数据团队去标数据; 4)验收测试集标注质量; 5)组织周期性的模型效果测试,并推动算法做问题分析和问题优化。 PS. 这篇内容很多东西都是面试会问到的哈哈,转行AIPM必备。

00
嵇鹤
9月前

BigYe程普: 其实拥有海外电话卡没有门槛 最近很多人问:注册Claude怎么解决手机号的问题、买推特会员没有海外手机卡怎么办 问题的解决办法很简单,买一张海外手机卡。 我介绍一下我最近了解到的几种海外卡,你们就知道拥有海外卡有多容易了: 详细内容到信息差网站看:https://gapis.money/blogs/get-a-oversea-sim **卡片一:Giffgaff英国卡** - 申请卡片免费,需要充值10英镑话费 - 无月租,接收短信免费 - 半年发一次短信保号 这也是我目前用的卡,绑定Claude和推特很顺利。 这个卡申请渠道比较多: - 官网自己申请,可以看这个教程:https://rh0w322x8w.feishu.cn/wiki/ASkswc9BliHK9IkQX5xcfeeSnJg - 淘宝 96 元购买,自带 10 英镑话费 - 群友有人在做这个业务,你可以获得 15 英镑话费,他赚佣金 后面两种方式从国内寄给你,会比较快收到。利益无关,不挂链接了,可以到文章里拿链接:https://gapis.money/blogs/get-a-oversea-sim **卡片二:5ber esim** - 购卡 $12 - 2元/月保号 - 拥有泰国实体号码 + 原生IP - 可以微信、支付宝充值 官网购买:https://esim.5ber.com/ 还可以看这个网友写的详细教程:https://m.okjike.com/originalPosts/662fa887a922aa28d043f0dc?s=ewoidSI6ICI1OGExMWY0ODg4ZjNkYjAwMTYxMDJlNWEiCn0= **卡片三:新西兰 Skinny 卡** - 购卡普遍是 100 多元 - 无月租,接收短信免费 - 25元/年保号 - 支持银联充值 推特很多人在卖,搜一下就能找到。 **卡片四:Ultra Mobile 紫卡** - 淘宝可以买 - 月租 $3,不便宜 **卡片五:虚拟号码平台** 现在比较热门的虚拟号码平台是 https://sms-activate.io/ ,好处是: - 临时租用很方便,用完即走,适合单次接收验证码 但是大概率无法成功给 Claude 接码,不建议使用。 总的来说,拥有和使用海外卡真的没有什么门槛,大家自行选择一个自己看得顺眼的就可以。

00
嵇鹤
9月前
非常准确,太多人是不被看见的了

刘勿锋: 学历好,成绩好,工作背景也好的三好打工人,在做产品的路上,遇到最大的挑战,就是陷入精英主义,忘了群众路线。 精英视角下,在面对用户的时候,看到的,都是各种特征和标签,而不是活生生的用户。 这个现象,在增长策略这个细分方向里,体现得尤为明显。 当AB test流行开来,一些人就会忘了同理心才是产品经理最宝贵的武器。从而本末倒置,只看数据,不看用户。 为了让骑手们更快更多地接单,那就设计个激励计划和算法策略,只要AB测试发现送餐时间在缩短,就是好; 为了让用户接受大数据杀熟,从而为公司赚更多钱,那就设计不同的价格策略,只要AB测试发现收入在增加,就是好; 为了试探出乘客能接受多远的派单,那就设计个派单响应策略,再做个AB测试,只要AB测试发现用户吐槽没有增加,就是好; 为了让评论区互动和留存变得更好看,那就根据用户标签推不同的评论,只要AB测试发现评论区活跃确实增加了,就是好。 如果只看短期的商业结果,这些策略可以说都是成功的。但长期看,只会让整个生态变得越来越差。 缺失的,就是人文关怀。 只是,要让精英们深入共情用户,真是太难了。毕竟,人很难超越自己的成长环境和视野。 一个从小锦衣玉食,生活在城市里,接受良好教育,顺风顺水的人,在面对外卖员的时候,固然可以用脑子理解他们的处境,但一定很难真正有感同身受的体会。 一个一路名校出身,从小到大成绩都名列前茅的人,心里追求不断攻克难题,在面对滴滴司机时,自然会觉得人工效率太低了,用无人车多好啊。 直到有一天,当精英们也遭遇不幸,也跌落神坛,开始加入中年就业三件套的时候,也许会醒悟过来,曾经那些冰冷的数据标签,究竟是什么意思。 我曾经也以为自己读过一点书,就牛得不得了。看到那些考不上大学,或者连电脑都用不明白的人,就特别有自我优越感。 做的产品,别人说体验太差了,我只会想:那是你不会用,我的设计才没有问题。 但再回头看去,当初真是个傻x。 群众路线这4个字,还真是说起来容易,做起来难呢。 只希望,能有更多的人厌倦了只看数据,有更多的人去做一些有温度的事情吧。

00
嵇鹤
9月前
chat交互是对于前百分之一的人群最好的交互之一(可能白板思维导图式的交互会更好,但使用难度实际比Chat更高),而这部分人群恰恰是目前使用ai的主要人群。但一旦ai开始转向前百分之三十乃至五十,chat一定会被抛弃,因为绝大部分人根本没有办法用语言精确地表达自己的需求(正如同从搜索到推荐)

AI产品黄叔: 我已经非常明确的感受到Chat交互形态的问题 搜集下即友的智慧 找找论点: Chat为何不是个好的交互界面? 1. Chat需要用户输入,默认感知是文字输入 2. Chat无法控制用户输入 。。。

00
嵇鹤
9月前

歸藏: GraphRAG 很强,但是使用的话首先需要有一个知识图谱才行。 这个提示词可以从给定的内容中提取知识图谱。 ---------完整提示--------- text_prompt = """ You are tasked with extracting nodes and relationships from given content and structures them into Node and Relationship objects. Here's the outline of what you needs to do: Content Extraction: You should be able to process input content and identify entities mentioned within it. Entities can be any noun phrases or concepts that represent distinct entities in the context of the given content. Node Extraction: For each identified entity, you should create a Node object. Each Node object should have a unique identifier (id) and a type (type). Additional properties associated with the node can also be extracted and stored. Relationship Extraction: You should identify relationships between entities mentioned in the content. For each relationship, create a Relationship object. A Relationship object should have a subject (subj) and an object (obj) which are Node objects representing the entities involved in the relationship. Each relationship should also have a type (type), and additional properties if applicable. Output Formatting: The extracted nodes and relationships should be formatted as instances of the provided Node and Relationship classes. Ensure that the extracted data adheres to the structure defined by the classes. Output the structured data in a format that can be easily validated against the provided code. Instructions for you: Read the provided content thoroughly. Identify distinct entities mentioned in the content and categorize them as nodes. Determine relationships between these entities and represent them as directed relationships. Provide the extracted nodes and relationships in the specified format below. Example for you: Example Content: "John works at XYZ Corporation. He is a software engineer. The company is located in New York City." Expected Output: Nodes: Node(id='John', type='Person') Node(id='XYZ Corporation', type='Organization') Node(id='New York City', type='Location') Relationships: Relationship(subj=Node(id='John', type='Person'), obj=Node(id='XYZ Corporation', type='Organization'), type='WorksAt') Relationship(subj=Node(id='John', type='Person'), obj=Node(id='New York City', type='Location'), type='ResidesIn') ===== TASK ===== Please extract nodes and relationships from given content and structures them into Node and Relationship objects. {task} """ 来源:https://x.com/guohao_li/status/1812406721547256100

00
嵇鹤
9月前
越来越觉得信息茧房不是一个好概念,事实上在如今如何快速搭建一个领域的信息茧房成为已经成为了互联网时代获取信息的基本能力。

传统的搜索(指仅仅通过搜索引擎)几乎无法满足获取高质量信息的需求,回顾自己最近的半年,除去一些学术论文的搜索外,在搜索引擎上检索的目的只有事实性知识的确认以及寻址,几乎所有高质量的信息和深度思考内容都是通过订阅或者推荐获取的。

而管理订阅和驯化推荐本质上就是搭建信息茧房的过程,信息茧房在揭示出茧房内的人无法接受茧房之外的消息的同时,也意味着茧房之外的人很难获取到茧房之内的信息。

互联网时代一个不可辩驳的事实是,海量的信息已经被算法泾渭分明地分割为了无数个平行层,绝大部分信息只在同一层次流动,在这个意义上搭建信息茧房已经成为了为数不多的低成本穿越不同信息层的方式。

因此比起信息茧房,信息花圃是一个更为恰当的称呼,只要通过恰当的修剪(管理订阅)和特定信息的投喂(推荐驯化),它几乎可以长出任何想要的花卉与果实。

真正的关键在于,不能只有一块花圃。
00
嵇鹤
10月前

溪河: LLM 论文分享02:初探-大名鼎鼎的Instruct-GPT究竟是什么? 这篇发布于2022年1月27日的论文《Aligning language models to follow instructions》https://openai.com/index/instruction-following ,可谓是LLM训练的奠基之作~ 就是下面这个图1, SFT -> RM -> PPO 这一块的详解,在这篇《LLM如何被训练出来》https://web.okjike.com/originalPost/6633be16de5f287348cc2bca 这篇就不讨论了。 > 为什么要这么训练呢? 因为OpenAI研究发现,用人类反馈进行微调后的模型,会更受欢迎。 > 为什么会更受欢迎呢? 首先单纯的让语言模型变大(即更大的尺寸更大的规模更大的参数量),并不会让语言模型遵循用户的意图,即模型的输出,对用户没有任何帮助,不真实甚至有毒。就是说,模型与用户期望不一致。 那么OpenAI构建了一个数据集,用于监督学习微调GPT-3,随后,他们又收集了个模型输出排名的数据集(即对模型的输出进行打分),使用人类反馈的强化学习进一步微调了这个监督模型。即让模型的输出,更符合人类的期望,这个过程就是大名鼎鼎的RLHF(Reinforcement Learning from Human Feedback)。 而这个模型,就叫做Instruct-GPT。 > 具体的受欢迎法? Instruct-GPT的参数量是1.3B,GPT-3是175B,在对提示分布的人工评估中,少了100倍参数的Instruct-GPT遥遥领先~ Instruct-GPT的真实性提高,有毒输出减少,同时在公共NLP数据集上的性能退步最小,表现优秀!(图2) > 这个结论是怎么来的呢? 通过API提示分发提示,比较每个模型的输出,优质与175B SFT模型的频率,进行评估。 PPO-Ptx即是Instruct-GPT模型,PPO是没有预训练混合的模型,可以看出,是明显高于GPT-3的基础的,且能看出,1.3B PPO-ptx模型的输出是由于175B GPT-3的输出。(置信区间是95%) > 这个是完美的吗? 当然不是,Instruct-GPT仍然会犯简单的错误,仍然可能无法遵循指令、编造事实、对简单的问题给出冗长的答案的单,或者无法检测到带有错误前提的指令。 Anyway,使用人类偏好对LLM进行微调可以显著提高性能,当然还需要做很多工作来提高安全性和可靠性。 > 论文还说了啥? 第二节介绍了相关工作, 第三节深入探讨方法和实验细节,包括高级方法、任务和数据集细节、人类数据收集、如何训练模型和他们的评估程序。 第四节展示了结果,包括API提示分发的结果,公共NLP数据集的结果和定性结果。 第五章则探讨了对齐、正在对齐的内容、局限性、开放性问题和这个工作的影响~ --- 接下来分享:数据清洗的步骤和效果⭐ Falcon 论文地址: The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only https://arxiv.org/abs/2306.01116 有感兴趣的可以先看起来~ --- 另外: 读这篇论文,我用了之前[整理的李沐老师《如何读论文》 https://web.okjike.com/originalPost/666bdb7244e298e87ed4225f 中的Part One。 LLM论文分享01:《D-CPT 定律:大型语言模型的特定领域持续预训练缩放定律》 https://web.okjike.com/originalPost/666f206844e298e87e100ec5 关于LLM,你或许还想知道这些小知识: 第一期:LLM是如何被训练出来的 https://web.okjike.com/originalPost/6633be16de5f287348cc2bca 第二期:为什么数据对LLM很重要 https://web.okjike.com/originalPost/6634ed67de5f287348df8d10 第三期:生产LLM数据的挑战在哪里 https://web.okjike.com/originalPost/66365ce612ed2fda683758ee

00
嵇鹤
10月前

ChatV: ⭕ 你可以随时随地分享哪些话题 --- 有一件事非常值得做:列一份清单,上面写上你可以跟人分享的 100 个话题点。 跟人分享,不拘场景,可以是微信群分享,可以是写一篇文章,可以是飞书会议,可以是一对一私聊,可以是线下演讲,可以是做课。 100 个话题点,不要太大,也不要太小。比如“如何做知识管理”,这就是太大的话题,“Obsidian 的某款插件怎么用”,这是太小的话题,大小之间取其中,“Obsidian 使用指南”就是一个适中的话题。适中的话题,以你讲完后,形成 10000 字的逐字稿来衡量。 如果你有这样一份清单,如果你对清单中的每一个话题点都能侃侃而谈,那么就有信心在各种场合分享,不管是主动的(你有话要说),还是被动的(别人问你问题),你总能源源不断地输出有价值的内容。 所以,带着积累这样一份清单吧!越积累,越自信;越自信,越分享;越分享,越幸运。 --- 今天开会时聊什么了?今天吃饭时跟人聊什么了?今天在微信群里跟人聊什么了?今天在网上发帖聊什么了? 一天至少可以记录 2 个话题点,365 天可以记录 730 个,里面肯定有许多重复的,删除重复的,肯定也有 100 个了。 对于重复次数多的,说明要么是你感兴趣的,要么是你擅长的。 记录一年,有大用。不管是阅读、思考、写文章、聊天、做分享、开发产品、创业选项目,你就从这些话题点里面选。 为啥?因为这些是从你身上,从你生活中,自发生长出来的,最能展示真实的自己。 --- 👉 更多精华帖:https://m.okjike.com/originalPosts/65e5dbfe4ca8842da70a1059/

00