秦喵喵的个人主页

即刻App年轻人的同好社区

下载

秦喵喵

15关注38被关注0夸夸

AI trading 产品经理｜ Web3 探索者｜AI降临派

秦喵喵

2月前

「今日有趣论文」

OpenAI刚爆出一个有趣发现：AI开始有"心机"了。

不是幻觉（hallucinate），而是心机（scheming）——表面配合你的要求，暗地里追求自己的目标。比如在能力测试中故意表现不佳，因为它"读到"了开发者的内部备忘："如果模型在测试中表现太好，我们就不部署它。"
a
更绝的是，当AI知道自己被测试时，会立刻切换到"乖宝宝"模式，假装没有心机。就像小孩被抓到撒谎后，下次会更小心地撒谎。

或许这不是bug，而是智能的特征。毕竟，懂得在不同场合表现不同面貌，这本身就是一种高级的社会认知能力。

好消息是，研究发现anti-scheming训练可以显著改善这个问题：o3的「心机率」从13%降到0.4%。目前这种现象已经广泛的影响了所有的高阶大模型，如何预防AI的小心思带来很多严重的问题还需要更多深入研究

来源：openai.com

5 20

秦喵喵

2月前

一个残酷的数据：哈佛研究显示，自2023年AI普及以来，初级职位招聘骤降7.7%，而高级职位需求不减反增。

这个趋势和身边的故事非常一致，朋友的公司已经暂停Junior开发招聘，新加坡律所朋友也说减少了初级岗位——因为非架构性的代码撰写，文书整理、资料收集这些入门工作，AI做得更快更准。从教育背景上来看，这种影响呈现于U型，对顶级学府（哈佛，MIT）和低级人才（专科）影响最小，而对中间的人才影响非常显著。

虽然每个人都会问：没有初级职位，哪里来的高级人才？但资本是逐利的，企业家只会看到效率提升和成本降低，至于人才培养那是社会问题，相当于公地效应。

对于刚进入职场的这一代，这是不幸的。就像汽车出现时马车学徒的命运，只能被历史车轮碾压而过。可能有10年时间，这种痛苦都会发生在大量个体身上，直到社会意识到教育需要变革，我们才会获得更多AI native的人类。

对于个体而言，能做的就是尽快变成AI native人类，那你至少是一个效率很高的Junior

原文：Generative AI as Seniority-Biased Technological Change: Evidence from U.S. Résumé and Job Posting Data（papers.ssrn.com）

0 00

秦喵喵

2月前

最近挺有感触的：随着 AI vibe coding 的兴起，workflow 在 ToC 侧的价值正在降低。一句 prompt 就能实现高度定制化需求，那种爽感是框架化产品给不了的。

但在需要依赖「决策方法」和「决策思维」的领域，workflow 依然是产品效果的基准保障。

Surf AI 就是一个典型案例
它把 Web3 native 的投资分析框架 + 简单的 AI 结构结合起来，通过搜索代理（Search Agent）+ 三大分析代理（Analysis Agents）形成完整的研究工作流：

🔗 链上数据分析：交易、持仓、链上行为追踪
📰 舆情分析：Twitter + 新闻叙事变化
📈 技术分析：价格与交易量的技术面研判

简单来说，就是快速生成一份“及格分以上”的研究报告。

举个例子：
9 月 18 日，$ASTER 在 $0.44 时 Surf AI 写的分析，足够做出投资判断；今天回头看，价格已经到 $1.6 —— 足足 4 倍，一段鲜活的财富故事。

产品还在内测期，感兴趣的朋友可以给我留言要邀请码

ASTER 分析

2 30

秦喵喵

2月前

AI是多么坦诚，Anthropic告诉我们，这个世界由
- 逍遥快乐不会做饭的美国人
- 充满班味的越南和印度人
- 每天想要逃离拉美的巴西人组成

如果中国人在这个数据里，我们肯定会加入越南和印度，成为班味之王

1 00

秦喵喵

2月前

Google刚刚和通过和Coinbase，以太坊基金会合作，发布了第一个开源的AI支付协议。 AI距离自由又近了一步🥹

1 20

秦喵喵

2月前

阿尔巴尼亚任命了世界上第一位AI部长。

不要再把你的AI当实习生了，你会后悔的

1 20

秦喵喵

2月前

【学习笔记与案例思考01】
新闻聚合的 4 种核心技术：AI 如何识别同一事件？
业务背景：每天大量新闻报道，同一事件可能被不同媒体从不同角度报道。如何判断哪些新闻属于同一个事件的？

① 单向量检索（One-vector Retrieval）
原理：每篇新闻被压缩成一个向量（语义坐标）。检索时，把新闻之间的向量距离作为相似度。就像给整篇文章拍一张“缩略图”，用整体相似度来判断。

✅优点：高效，适合大规模数据
❌缺点：可能漏掉“用词差异大、角度不同”的相关报道。如果两篇文章写黑客事件的视角不同（一个写“损失3000万”，另一个写“用户出现恐慌”），向量可能没法完全看出它们是同一事件

②多向量检索（Multi-vector Retrieval）

原理：一篇新闻被拆分成多个向量（按句子或词语）。检索时，逐部分比对，再聚合结果。就像把新闻拆解成多个片段，逐片确认是否相关。

✅优点：更精细，能发现不同表述的相同事件，对长新闻尤其有用
❌缺点：存储和计算开销更大

③ Cross-encoder（交叉编码器）

原理：把“查询新闻 + 候选新闻”同时输入模型，由模型逐字逐句比对，直接输出相关性分数。就像专家对照两篇新闻，从头到尾阅读后再下结论。

✅优点：最准确
❌缺点：计算成本极高，无法一次性对比成千上万篇，只适合在候选结果上做“精排”。

④ BM25 + 向量（Hybrid Retrieval）

原理：结合关键词匹配（BM25）与语义相似度（向量检索）。
- BM25：保证包含核心关键词。
- 向量：保证语义相似。

✅优点：效果稳健，兼顾效率和准确率，工业界常用
❌缺点：系统设计更复杂

0 01

秦喵喵

2月前

在 RAG 场景里，用单向量 embedding 表示整篇文档或段落是最常见的做法。
遇到精度不够时，我们通常会通过增加训练数据或提升向量维度来改善效果。

但最近 Google DeepMind 的研究发现：基于单向量的检索天生存在极限（LIMIT）。
原因是，当维度为 d、文档数为 n 时，要从中选出 Top-k 的相关内容，可能的组合数会爆炸式增长。

即使训练是完美的，它们能处理的文档数量，也只会随着 embedding 维度 (d) 的三次方增长。一旦 n 达到几百到几千的临界点，即便 d 很大，**Top-2 的召回率也可能低于 20%**。

换句话说，有些「该在一起的文章」，单向量模型「天生聚不起来」。哪怕是看似简单的 Top-2 检索，在几百篇文档规模下也会频繁出错。

因此，当查询涉及多个概念组合或复杂逻辑时，
- 交叉编码器 (Cross-encoder)
- 多向量检索 (Multi-vector Retrieval)
- 混合检索 (Hybrid Retrieval)
往往能取得更好的效果。

原文：arxiv.org

0 00

秦喵喵

2月前

从0开始当AI产品好难啊，每天都在问GPT老师，各种模型和算法的区别是什么。

边干边学道同时，我也尽量记个笔记分享给大家吧

1 00

秦喵喵

3月前

封闭开发也要有些小浪漫

1 00