看到
@胡二虎 发的付费软件的统计帖,评论区下面要么是 cursor 、windsurf 这种 ide ,要么是 poe、monica、gpt 这种纯 chatbot 的工具,要么是 mj 、ideogram 这种生图类的工具。
好像没有什么位置留给现在套一个 chatbot 的壳去做不同场景的应用。
如果仅仅是把这一波的模型架构的突破只当作是 chatbot 的形式作为核心交互,其场景必然是很有限的。
但是,会不会有一些草灰蛇线的部分是,通过利用 decoder 架构对语言良好的理解能力,去训一些小模型,让传统流程中的一小段步骤被代替, 改变既有的交互流程,从而带来体验上的升级。
产生这个想法的原因源于几个事件吧。
一个是 cursor 训了一个用来作 apply 的模型
通过让前沿模型生成一个相对粗略的、描述了意图的代码块或变更计划,然后用一个定制训练的 Apply 模型将这个粗略的计划精确地应用到用户的实际文件中,生成准确的 diff。
而让用户免于在 claude 输出的代码和原本的代码之间里做增删改查。
一个是 jina reader 训的用来作 html 2 markdown 的小模型 reader lm
以前靠 SVM 来分类,靠 TF-IDF 来抽关键词,trie-tree 来过滤敏感词,基于文本密度算法来抽正文,靠余弦相似度等相似度算法来消重。
现在,大模型能全面取代这些传统 NLP 做法了。
我现在抽正文就在用 reader-lm-1.5 b,这个模型能把 html 转 markdown,然后再消息队列塞给下游模型用定义好的 Agent 来分类,提取关键词和摘要。最后入库之前 RAG 检索做消重。
(摘自 twitter 用户 @karminski 3 )
虽然幻觉率依然是问题,但是未来会不会通过对注意力的改进,而让准确率达到九十多甚至一百,到完全可用的地步。
还有一个是听播客的时候
@玉伯 讲到希望可以帮创作者做好组织内容 + 试用 youmind 时脑子蹦出来的想法。
是不是可以利用 embedding + SLM 结合的方式,来解决创作者在处理 AI 搜索结果时遇到的"主题混杂、内容重复"的问题?
需要先明确一下,预设的场景是创作者真正想要写一些原创性的内容,是相对前沿且交叉的话题,没有现成的、总结性的答案。
就比如假设一位科技记者或行业分析师,想写一篇关于 “具身智能,在教育和心理辅疗领域可能有哪些颠覆性但尚未被广泛讨论的应用潜力?”*的深度分析文章
互联网上的信息可能分散在,具身智能最新进展的综述论文或播客、心理学研究网站上关于“虚拟陪伴”或“数字化身”对社交焦虑干预效果的初步研究、可能还有一些资深从业者在社交媒体上的片段式思考。
AI 搜索很强大,但其输出往往是多个主题段落的混合体,而且信息密度不一,很多是背景介绍或不直接相关的内容。
创作者常常需要在多个标签页和重复信息中来回切换、手动整理,而关键的洞见可能隐藏在某个段落的细节中,或者需要将 A 文章的某个技术描述与 B 文章的某个应用场景联系起来才能发现。
所以可能的方案是:
1. 对 ai 搜索返回的文章按照 \n 的方式分块 - 对每个段落在保持全文记忆的情况下写摘要 - 对摘要的 embedding 结果做聚类或者 overlap + 计算前后相似度,再按照阈值分块,从而完成对单篇文章的初步分类。
2. 对多篇文章分好的块,训一个特定任务的 SLM,根据用户指定的几个主题,做内容的过滤或者分类。
所以回到最初的想法,会不会有一些草灰蛇线的部分是,通过利用 encoder、decoder 结构对语言良好的理解能力,去训一些小模型,让传统流程中的一小段步骤被代替,改变既有的交互流程,从而带来体验上的升级。
会不会呢?我不知道。
最后叠个甲,之前不是搞技术的,不懂,轻点喷。