即刻App年轻人的同好社区
下载
App内打开
秦喵喵
14关注33被关注0夸夸
AI trading 产品经理| Web3 探索者|AI降临派
秦喵喵
6天前
「今日有趣论文」

OpenAI刚爆出一个有趣发现:AI开始有"心机"了。

不是幻觉(hallucinate),而是心机(scheming)——表面配合你的要求,暗地里追求自己的目标。比如在能力测试中故意表现不佳,因为它"读到"了开发者的内部备忘:"如果模型在测试中表现太好,我们就不部署它。"
a
更绝的是,当AI知道自己被测试时,会立刻切换到"乖宝宝"模式,假装没有心机。就像小孩被抓到撒谎后,下次会更小心地撒谎。

或许这不是bug,而是智能的特征。毕竟,懂得在不同场合表现不同面貌,这本身就是一种高级的社会认知能力。

好消息是,研究发现anti-scheming训练可以显著改善这个问题:o3的「心机率」从13%降到0.4%。目前这种现象已经广泛的影响了所有的高阶大模型,如何预防AI的小心思带来很多严重的问题还需要更多深入研究

来源:openai.com
20
秦喵喵
7天前
一个残酷的数据:哈佛研究显示,自2023年AI普及以来,初级职位招聘骤降7.7%,而高级职位需求不减反增。

这个趋势和身边的故事非常一致,朋友的公司已经暂停Junior开发招聘,新加坡律所朋友也说减少了初级岗位——因为非架构性的代码撰写,文书整理、资料收集这些入门工作,AI做得更快更准。 从教育背景上来看,这种影响呈现于U型,对顶级学府(哈佛,MIT)和低级人才(专科)影响最小,而对中间的人才影响非常显著。

虽然每个人都会问:没有初级职位,哪里来的高级人才?但资本是逐利的,企业家只会看到效率提升和成本降低,至于人才培养那是社会问题,相当于公地效应。

对于刚进入职场的这一代,这是不幸的。就像汽车出现时马车学徒的命运,只能被历史车轮碾压而过。可能有10年时间,这种痛苦都会发生在大量个体身上,直到社会意识到教育需要变革,我们才会获得更多AI native的人类。

对于个体而言,能做的就是尽快变成AI native人类,那你至少是一个效率很高的Junior

原文:Generative AI as Seniority-Biased Technological Change: Evidence from U.S. Résumé and Job Posting Data(papers.ssrn.com
00
秦喵喵
8天前
最近挺有感触的:随着 AI vibe coding 的兴起,workflow ToC 侧的价值正在降低。一句 prompt 就能实现高度定制化需求,那种爽感是框架化产品给不了的。

但在需要依赖「决策方法 」和「决策思维」 的领域,workflow 依然是产品效果的基准保障。

Surf AI 就是一个典型案例
它把 Web3 native 的投资分析框架 + 简单的 AI 结构结合起来,通过 搜索代理(Search Agent)+ 三大分析代理(Analysis Agents) 形成完整的研究工作流:

🔗 链上数据分析:交易、持仓、链上行为追踪
📰 舆情分析:Twitter + 新闻叙事变化
📈 技术分析:价格与交易量的技术面研判

简单来说,就是快速生成一份“及格分以上”的研究报告。

举个例子:
9 18 日,$ASTER $0.44 Surf AI 写的分析,足够做出投资判断;今天回头看,价格已经到 $1.6 —— 足足 4 倍,一段鲜活的财富故事。

产品还在内测期,感兴趣的朋友可以给我留言要邀请码

ASTER 分析

30
秦喵喵
13天前
AI是多么坦诚,Anthropic告诉我们,这个世界由
- 逍遥快乐不会做饭的美国人
- 充满班味的越南和印度人
- 每天想要逃离拉美的巴西人组成

如果中国人在这个数据里,我们肯定会加入越南和印度,成为班味之王
00
秦喵喵
14天前
Google刚刚和通过和Coinbase,以太坊基金会合作,发布了第一个开源的AI支付协议。 AI距离自由又近了一步🥹
20
秦喵喵
14天前
阿尔巴尼亚任命了世界上第一位AI部长。

不要再把你的AI当实习生了,你会后悔的
20
秦喵喵
15天前
【学习笔记与案例思考01】
新闻聚合的 4 种核心技术:AI 如何识别同一事件?
业务背景:每天大量新闻报道,同一事件可能被不同媒体从不同角度报道。如何判断哪些新闻属于同一个事件的?

单向量检索(One-vector Retrieval)
原理:每篇新闻被压缩成一个向量(语义坐标)。检索时,把新闻之间的向量距离作为相似度。就像给整篇文章拍一张“缩略图”,用整体相似度来判断。

✅优点:高效,适合大规模数据
❌缺点:可能漏掉“用词差异大、角度不同”的相关报道。如果两篇文章写黑客事件的视角不同(一个写“损失3000万”,另一个写“用户出现恐慌”),向量可能没法完全看出它们是同一事件

②多向量检索(Multi-vector Retrieval)

原理: 一篇新闻被拆分成多个向量(按句子或词语)。检索时,逐部分比对,再聚合结果。就像把新闻拆解成多个片段,逐片确认是否相关。

✅优点:更精细,能发现不同表述的相同事件 ,对长新闻尤其有用
❌缺点:存储和计算开销更大

Cross-encoder(交叉编码器)

原理:把“查询新闻 + 候选新闻”同时输入模型,由模型逐字逐句比对,直接输出相关性分数。就像专家对照两篇新闻,从头到尾阅读后再下结论。

✅优点:最准确
❌缺点:计算成本极高,无法一次性对比成千上万篇,只适合在候选结果上做“精排”。

BM25 + 向量(Hybrid Retrieval)

原理:结合关键词匹配(BM25)与语义相似度(向量检索)。
- BM25:保证包含核心关键词。
- 向量:保证语义相似。

✅优点:效果稳健,兼顾效率和准确率 ,工业界常用
❌缺点:系统设计更复杂
01
秦喵喵
15天前
在 RAG 场景里,用单向量 embedding 表示整篇文档或段落是最常见的做法。
遇到精度不够时,我们通常会通过增加训练数据或提升向量维度来改善效果。

但最近 Google DeepMind 的研究发现:基于单向量的检索天生存在极限(LIMIT)。
原因是,当维度为 d、文档数为 n 时,要从中选出 Top-k 的相关内容,可能的组合数会爆炸式增长。

即使训练是完美的,它们能处理的文档数量,也只会随着 embedding 维度 (d) 的三次方增长。 一旦 n 达到几百到几千的临界点,即便 d 很大,**Top-2 的召回率也可能低于 20%**。

换句话说,有些「该在一起的文章」,单向量模型「天生聚不起来」。 哪怕是看似简单的 Top-2 检索,在几百篇文档规模下也会频繁出错。

因此,当查询涉及多个概念组合或复杂逻辑时,
- 交叉编码器 (Cross-encoder)
- 多向量检索 (Multi-vector Retrieval)
- 混合检索 (Hybrid Retrieval)
往往能取得更好的效果。

原文:arxiv.org
00
秦喵喵
15天前
从0开始当AI产品好难啊,每天都在问GPT老师,各种模型和算法的区别是什么。

边干边学道同时,我也尽量记个笔记分享给大家吧
00
秦喵喵
21天前
封闭开发也要有些小浪漫
00