jiahuui的个人主页

即刻App年轻人的同好社区

下载

App内打开

jiahuui

259关注171被关注1夸夸

jiahuui

20天前

I felt like it is AGI！

julian.: https://nocode.host/7d87b/dmoeztlgdy0a7ius 嗨，我是 Void AI 的 Julian。在过去的三小时里，我们一直在悄悄地构建我们所认为的下一代人工智能。今天我们将推出 Void 的早期预览版。它是第一（千零一）个通用 AI 代理。如果您希望获得邀请码，可在评论区留言“aismydaddy”，我们将随机发放邀请码。如果您是 ai 自媒体，请联系我本人，我们将择机召开发布会。

4 10

jiahuui

2月前

想表达的核心思想是，现在大家真正愿意付费的产品看起来只有 cursor，会不会是因为以 chatbot 的核心交互形式并不被大家认可并付费。

那应该怎么做，我开个脑洞 🤓🤓🤓

jiahuui: 看到 @胡二虎发的付费软件的统计帖，评论区下面要么是 cursor 、windsurf 这种 ide ，要么是 poe、monica、gpt 这种纯 chatbot 的工具，要么是 mj 、ideogram 这种生图类的工具。好像没有什么位置留给现在套一个 chatbot 的壳去做不同场景的应用。如果仅仅是把这一波的模型架构的突破只当作是 chatbot 的形式作为核心交互，其场景必然是很有限的。但是，会不会有一些草灰蛇线的部分是，通过利用 decoder 架构对语言良好的理解能力，去训一些小模型，让传统流程中的一小段步骤被代替，改变既有的交互流程，从而带来体验上的升级。产生这个想法的原因源于几个事件吧。一个是 cursor 训了一个用来作 apply 的模型通过让前沿模型生成一个相对粗略的、描述了意图的代码块或变更计划，然后用一个定制训练的 Apply 模型将这个粗略的计划精确地应用到用户的实际文件中，生成准确的 diff。而让用户免于在 claude 输出的代码和原本的代码之间里做增删改查。一个是 jina reader 训的用来作 html 2 markdown 的小模型 reader lm 以前靠 SVM 来分类，靠 TF-IDF 来抽关键词，trie-tree 来过滤敏感词，基于文本密度算法来抽正文，靠余弦相似度等相似度算法来消重。现在，大模型能全面取代这些传统 NLP 做法了。我现在抽正文就在用 reader-lm-1.5 b，这个模型能把 html 转 markdown，然后再消息队列塞给下游模型用定义好的 Agent 来分类，提取关键词和摘要。最后入库之前 RAG 检索做消重。（摘自 twitter 用户 @karminski 3 ）虽然幻觉率依然是问题，但是未来会不会通过对注意力的改进，而让准确率达到九十多甚至一百，到完全可用的地步。还有一个是听播客的时候 @玉伯讲到希望可以帮创作者做好组织内容 + 试用 youmind 时脑子蹦出来的想法。是不是可以利用 embedding + SLM 结合的方式，来解决创作者在处理 AI 搜索结果时遇到的"主题混杂、内容重复"的问题？需要先明确一下，预设的场景是创作者真正想要写一些原创性的内容，是相对前沿且交叉的话题，没有现成的、总结性的答案。就比如假设一位科技记者或行业分析师，想写一篇关于 “具身智能，在教育和心理辅疗领域可能有哪些颠覆性但尚未被广泛讨论的应用潜力？”*的深度分析文章互联网上的信息可能分散在，具身智能最新进展的综述论文或播客、心理学研究网站上关于“虚拟陪伴”或“数字化身”对社交焦虑干预效果的初步研究、可能还有一些资深从业者在社交媒体上的片段式思考。 AI 搜索很强大，但其输出往往是多个主题段落的混合体，而且信息密度不一，很多是背景介绍或不直接相关的内容。创作者常常需要在多个标签页和重复信息中来回切换、手动整理，而关键的洞见可能隐藏在某个段落的细节中，或者需要将 A 文章的某个技术描述与 B 文章的某个应用场景联系起来才能发现。所以可能的方案是： 1. 对 ai 搜索返回的文章按照 \n 的方式分块 - 对每个段落在保持全文记忆的情况下写摘要 - 对摘要的 embedding 结果做聚类或者 overlap + 计算前后相似度，再按照阈值分块，从而完成对单篇文章的初步分类。 2. 对多篇文章分好的块，训一个特定任务的 SLM，根据用户指定的几个主题，做内容的过滤或者分类。所以回到最初的想法，会不会有一些草灰蛇线的部分是，通过利用 encoder、decoder 结构对语言良好的理解能力，去训一些小模型，让传统流程中的一小段步骤被代替，改变既有的交互流程，从而带来体验上的升级。会不会呢？我不知道。最后叠个甲，之前不是搞技术的，不懂，轻点喷。

4 00

jiahuui

2月前

看到 @胡二虎发的付费软件的统计帖，评论区下面要么是 cursor 、windsurf 这种 ide ，要么是 poe、monica、gpt 这种纯 chatbot 的工具，要么是 mj 、ideogram 这种生图类的工具。

好像没有什么位置留给现在套一个 chatbot 的壳去做不同场景的应用。

如果仅仅是把这一波的模型架构的突破只当作是 chatbot 的形式作为核心交互，其场景必然是很有限的。

但是，会不会有一些草灰蛇线的部分是，通过利用 decoder 架构对语言良好的理解能力，去训一些小模型，让传统流程中的一小段步骤被代替，改变既有的交互流程，从而带来体验上的升级。

产生这个想法的原因源于几个事件吧。

一个是 cursor 训了一个用来作 apply 的模型

通过让前沿模型生成一个相对粗略的、描述了意图的代码块或变更计划，然后用一个定制训练的 Apply 模型将这个粗略的计划精确地应用到用户的实际文件中，生成准确的 diff。
而让用户免于在 claude 输出的代码和原本的代码之间里做增删改查。

一个是 jina reader 训的用来作 html 2 markdown 的小模型 reader lm

以前靠 SVM 来分类，靠 TF-IDF 来抽关键词，trie-tree 来过滤敏感词，基于文本密度算法来抽正文，靠余弦相似度等相似度算法来消重。

现在，大模型能全面取代这些传统 NLP 做法了。

我现在抽正文就在用 reader-lm-1.5 b，这个模型能把 html 转 markdown，然后再消息队列塞给下游模型用定义好的 Agent 来分类，提取关键词和摘要。最后入库之前 RAG 检索做消重。
（摘自 twitter 用户 @karminski 3 ）

虽然幻觉率依然是问题，但是未来会不会通过对注意力的改进，而让准确率达到九十多甚至一百，到完全可用的地步。

还有一个是听播客的时候 @玉伯讲到希望可以帮创作者做好组织内容 + 试用 youmind 时脑子蹦出来的想法。

是不是可以利用 embedding + SLM 结合的方式，来解决创作者在处理 AI 搜索结果时遇到的"主题混杂、内容重复"的问题？

需要先明确一下，预设的场景是创作者真正想要写一些原创性的内容，是相对前沿且交叉的话题，没有现成的、总结性的答案。

就比如假设一位科技记者或行业分析师，想写一篇关于 “具身智能，在教育和心理辅疗领域可能有哪些颠覆性但尚未被广泛讨论的应用潜力？”*的深度分析文章

互联网上的信息可能分散在，具身智能最新进展的综述论文或播客、心理学研究网站上关于“虚拟陪伴”或“数字化身”对社交焦虑干预效果的初步研究、可能还有一些资深从业者在社交媒体上的片段式思考。

AI 搜索很强大，但其输出往往是多个主题段落的混合体，而且信息密度不一，很多是背景介绍或不直接相关的内容。

创作者常常需要在多个标签页和重复信息中来回切换、手动整理，而关键的洞见可能隐藏在某个段落的细节中，或者需要将 A 文章的某个技术描述与 B 文章的某个应用场景联系起来才能发现。

所以可能的方案是：

1. 对 ai 搜索返回的文章按照 \n 的方式分块 - 对每个段落在保持全文记忆的情况下写摘要 - 对摘要的 embedding 结果做聚类或者 overlap + 计算前后相似度，再按照阈值分块，从而完成对单篇文章的初步分类。

2. 对多篇文章分好的块，训一个特定任务的 SLM，根据用户指定的几个主题，做内容的过滤或者分类。

所以回到最初的想法，会不会有一些草灰蛇线的部分是，通过利用 encoder、decoder 结构对语言良好的理解能力，去训一些小模型，让传统流程中的一小段步骤被代替，改变既有的交互流程，从而带来体验上的升级。

会不会呢？我不知道。

最后叠个甲，之前不是搞技术的，不懂，轻点喷。

13 23

jiahuui

2月前

【我熬夜读完GPT-4o相关论文，才发现多模态自回归躲不开这几个坑！-哔哩哔哩】 b23.tv

推荐这期视频

左右横眺: 谈谈4o图像生成的技术方案以及后续影响，这次openai在showcase中给出的额外信息似乎没怎么被注意到

0 01

jiahuui

2月前

看到的解读里最清晰的一篇

左右横眺: 谈谈4o图像生成的技术方案以及后续影响，这次openai在showcase中给出的额外信息似乎没怎么被注意到

1 00

jiahuui

3月前

gemini 多模态输出能力可能类似 minicpm-o 一样，是把 imagen3 和 gemini 放在一起先做预训练完成对齐，再做端到端的训练，让 imagen3 可以接受 qkv 级别的上下文的输入

一些辅助判断的case：
1. 折纸飞机，参考图前后不太对的上；
2. 钻木取火，复杂场景生成不出来，图像和文本不是很能对的上

而 image editing 的能力可能是专门优化过的

我也不确定，就当听个乐呵吧🌚🌚

DariusTopThx: 如果manus给我的震撼是50分，o1的震撼是80分，Google gemini 2.0这次更新给我的震撼是99分。我的第二个gpt3.5时刻 https://developers.googleblog.com/en/experiment-with-gemini-20-flash-native-image-generation/

2 00

jiahuui

3月前

我的 pin 码 0h5y1ab 大家要是感兴趣可以和我对话玩玩，但因为我的手机是安卓没法在不启动 app 的情况下收到语音，所以有可能会错过大家的消息。

julian.: 可以下载下来和朋友体验一下。然后就明白中国人和法国人生活上的区别了。我和我们小伙伴以及@jiahuui 体验过的。 .

3 00

jiahuui

4月前

1. pikadditions 背后的论文应该就是 DynVFX 这篇论文，论文的作者之一Omer Bar Tal 现在在 pika 当 founding scientist；

2. 非常神奇的是在 reddit 上和 DynVFX 论文的其中一个作者聊上了，他说他们投了这篇论文，但是因为那个会议有匿名政策，并且还有 media ban，所以现在他们没法做宣传

3.看了论文，非常惊讶于这是一个无需对模型进行训练的方法，而且实现过程看起来很简单，虽然他们还没有开源代码，但是似乎根据披露的细节，已经可以尝试复现了？

4. 看了论文之后也突然明白了为什么我在上传一个湖面的视频，鲸鱼的图片作为主体这么构造视频最后会失败，因为并不好找到 mask 。

坦白来说，我可能会觉得论文中的方法在图像模型里会更有趣一点，在视频模型里所需要考虑的交互有点太多了？比如如果text 是发生了爆炸，那爆炸产生的碎石按理说并不会被 mask 到，因此会导致效果并不如意。

而如果在图像模型里仅仅是期待将各种虚拟人物融合到照片中，结合相应的 lora ，所能带来的图片的变革或许会更大

以下是用 gemini 写的 DynVFX 这篇论文的技术解读，已经很清楚了