AI新手河马的个人主页 - 即刻App

即刻App年轻人的同好社区

下载

AI新手河马

40关注20被关注0夸夸

AI 启蒙

AI新手河马

10天前

kimi 好久不见

歸藏: Kimi 更新了深度研究能力，收到测试资格之后深度使用了一天。发现在内容丰富度、准确性和逻辑严谨性上都非常能打。全文在这里看：https://mp.weixin.qq.com/s/TYWQRn_0MB1-bnqZ-8aZ0Q 下面是详细的介绍👇 与其他近期类似产品不同，月之暗面这个深度研究是他们自己训练的基于端到端自主强化学习技术训练的Agent 模型。而且他们会开源基础的预训练模型和后面经过强化学习的模型，这个太值得期待了。在HLE (Humanity’s Last Exam) 和红杉的 Agent 测试上 kimi 深度研究模型都取得了不错的成绩。案例一：商业与IP分析——解构泡泡玛特与Labubu的爆火之路任务设定：模拟投资人或市场分析师，要求Kimi深度研究“泡泡玛特（Pop Mart）”这家公司，并重点分析其IP“Labubu”从诞生到成为顶流的全过程。测评亮点分析：在分析Labubu爆火原因时，Kimi展现了极强的逻辑推理和自主探索能力。它的搜索路径颇具章法，从宽泛的整体搜索开始，逐步聚焦到粉丝经济、海外传播、早期发展历程乃至近期的价格波动等具体方面，整个过程如同一位真正的好奇研究员。最终生成的近一万九千字报告，其目录结构逻辑清晰，从IP设计理念、产品迭代，到运营策略、粉丝经济和二手市场，层层递进，将各类信息恰当地组织在预设的分析框架下，而非简单堆砌。这充分证明Kimi能够自主形成深度分析的逻辑链条，深刻洞察一个商业现象背后的多元驱动因素。案例二：科技产品分析——透视小米发布会的核心信息任务设定：模拟产品经理或行业分析师，对小米2025年6月26日的发布会提出一个极其复杂的研究需求，涵盖信息整理、竞品对比、销量预测及供应链分析等。测评亮点分析：面对一个包含多重任务的复杂指令，Kimi深度研究功能并未在长下文中出现能力衰减。它生成了近一万七千字的详尽报告，有效完成了信息检索、可信度标记、竞品参数对比、多维度销量预测等高级任务。在报告中，Kimi不仅展现了出色的信息准确性和时效性，例如捕捉到小米YU 7座舱系统采用骁龙8 Gen3芯片这一新近消息，其用户体验设计也值得称道，点击引用来源即可高亮原文数据，极大地方便了事实核查。在销量预测和供应链分析部分，它给出了严谨的假设前提与判断依据，超越了简单的数据罗列，为专业人士提供了极具价值的决策参考。注入美学，让专业报告“活”起来再强大的功能，如果不能被轻松理解和使用，价值也将大打折扣。Kimi的交付物在“好用”和“好看”上做到了统一。除了生成文档之外，kimi 也会同步生成一份研究报告的可视化网页。内容与形式兼备： Kimi生成的可视化网页内容详实，与万字报告保持同步，绝非内容缩水的“玩具”。左侧的大纲导航让用户可以轻松在不同章节间跳转。智能化的场景美学：报告并非千篇一律的模板。AI会根据研究对象匹配相应的主题风格，如分析小米时会采用标志性的橙色。同时，嵌入的图片、甚至视频素材都与内容高度相关，极大增强了报告的定制感和沉浸感。直观高效的交互：网页排版清晰，符合现代审美。思维导图和可自由拖拽缩放的图表，让复杂信息一目了然。在竞品对比等环节，巧妙利用高亮、色块背景和图表，直观地区分优劣势，显著提升了信息获取和理解的效率。测试和介绍到这里就结束了。虽然都是深度研究，Kimi 这个基于强化学习的模型还是展现出了跟使用常见模型通过提示词和工具使用上非常不同的结果倾向，让我们看到了复杂检索任务不依赖大 Prompt 工程的的强大之处。期待 Kimi 即将开源的预训练与 RL 权重，应该能造福非常多有类似功能的产品。

0 00

AI新手河马

13天前

学习

珞珈Lorjia: 最近整个小红书、抖音、视频号都是AI切玻璃水果的视频，随便一条都是几千上万的点赞🐮

0 00

AI新手河马

1月前

Mark

歸藏: 最近看我玩 FLUX Kontext 是不是馋了 Kontext 直接替代了很多原来需要 PS （美图秀秀、醒图）才能做的需求写了篇东西详细总结了一下 FLUX Kontext 所有用法还有如何去哪用这个模型，都在这里➡️：https://mp.weixin.qq.com/s/HPBzQqfg4npYAuh9zJHVVw 先介绍一下我探索出来的各种用法，看图也行： > 给图片去水印，各种复杂水印都能解决 > 优化自己照片上身体的瑕疵 > 一键生成电商商品展示图 > 去掉景区照片里面各种无关的其他游客 > 将真实照片转换成各种动漫风格，或者反过来 > 修改海报或者图片上的文字 > 修改图片上的任何小的元素 > 给图片更换背景，让自己在快速时空旅行 > 将多张图片的元素整合到一张图片里面如何使用呢如果你就是单纯的想要尝试一下这个模型不想涉及到复杂操作的话我推荐两个渠道： FLUX 官方的 Palyground （playground. bfl. ai/image/edit）和 Krea （krea. ai/edit）其中 FLUX 的 Palyground 还送了 200 积分，生成一张图只消耗 4 积分，够你玩很久了。这两个地方的使用都很简单上传图片，输入提示词然后等待就行。其中 Krea 选择 FLUX Kontext 的 Pro 模型就行 Max 模型在单图修改场景反而效果不好。 FLUX 的 Palyground 的话生成的时候记得把在输入框右边三个点那里把每次生成的张数改成 1，不然一次生成 4 张有点浪费。如果你想要开发产品或者有 Comfyui 的基础想要玩一下多图参考，这里我推荐 Fal 的渠道（fal. ai/models/fal-ai/flux-pro/kontext/max/multi）。 Fal 的测试页面可以直接使用多图参考，上传图片输入提示词就行，如果你不想用多图了，可以在页面上方红框那里选择其他 Pro 模型尝试单图编辑。 FLUX Kontext 除了强大能力之外的另一个优势是他非常便宜，编辑一张图只需要 0.08美元也就是 5 毛钱人民币，相较于 GPT-4o 一张图 1.4 人民币的价格可以说非常便宜了。另外他们后面还会开源一个 Dev 的 Kontext 模型这个会让成本进一步降低，太期待了。

0 00

AI新手河马

1月前

Mark

歸藏: 终于谈妥了，把商务部公告转了一张图这样直观点

0 00

AI新手河马

2月前

这个角度理解，很通畅

鲁彼特: 人之所以过得辛苦，是因为只掌握技能，不掌握生产资料。出售技能赚的是劳动报酬，而出售生产资料赚的是资本收益。人在单位时间里只能干一项劳动（即便时间折叠也有限），生产资料却能被反复使用，直到折旧报废为止。比如，你会捕鱼（技能），出海捕一次鱼，然后卖掉，这是劳动收入。如果你把捕鱼变成了一门课程，挂在网上，这就开始变成小型的生产资料。如果你制作了优化捕鱼效率的工具，然后找代工厂批量生产，卖给其他渔民，这变成了中型的生产资料。后来你发现卖鱼子酱很赚钱，于是你盖厂房养殖鲟鱼，购买机器、雇佣工人，这是大型生产资料。学校教育本质上是在传授技能（并且是和社会脱节的技能），而不是在传授怎么积累自己的生产资料。很多父母只关注如何让子女学会更多或者更先进的技能，而不是帮子女积累生产资料。太多人向往不事生产（公、编、学）的工作，或进入大型企业组织体系工作，希望提高自己出售技能的溢价，然后不得不内卷。太多人把劳动收入投入到不动产里，而不是用于打造生产资料。不动产和周期绑定，只有你自己独特的生产资料才能灵活穿越周期（比如雨天卖伞，晴天卖帽）。太多人指望别人给自己一个出售技能的机会，却不愿指望自己，或者二三五个人一起，沉下心来积累生产资料。看起来低风险的选择（出售技能），你会发现，其实风险并没有消失。虽然你不必承担经营风险，但是你要承担失业风险。你并没有变快乐，反而案牍劳形。而生产资料一旦跑通，哪怕规模很小，对出售技能的劳动收入也是降维打击。很多人不愿离开老家（哪怕在县城），因为他们有一个小产业，能持续产生现金流，日子比一线城市白领舒服多了。在聊下一代教育的话题时，不管是从填鸭式变成启发式，不管有无 AI 工具的助力，如果不涉及如何帮助子女打造生产资料（哪怕很小），都是小打小闹而已。

0 00

AI新手河马

2月前

AI 工具下载必备

歸藏: 沉浸式翻译估计 AI 圈上人手一个了前几天发现他们发了个新工具Babeldoc，支持在翻译 PDF 的时候保持文件的原始排版试了一下真的很猛，超长超复杂 PDF 都没问题主要是依然非常良心，我做了个相对详细的测试👇：先来点低难度的常见的论文，一般都不会有非常复杂的排版，难点主要在图表和表格以及公式上。比如常见的论文开头部分，像字节和 Meta 的论文都是这样，从标题到摘要部分到下面的图表都能对得上。学术论文中很多数学公式、化学公式的排版非常复杂，以前如果周围有公式，那文字的排版就不太好保持了。 Babeldoc 这个就很厉害中英文的字数和单词长度肯定是不一样的，但是他们就是能保证两者都在差不多的位置。然后我们来一个稍微复杂点的前段时间比较火的谷歌提示词写作教程的 PDF。这个 PDF 明显会专门做了一些排版，重新定义了不同的字号和间距，还有不同的字体，这种一般挺麻烦的，虽然看起来还是白底黑字。 Babeldoc 依然没有问题，整个字号和段间距、行间距都跟原始 PDF 是一致的。同时为了兜底，沉浸式翻译的文档翻译还支持导出中英双语对照的 PDF，这个功能完美解决了问题。最后的终极考验是斯坦福 HAI 的 2025 年人工智能研究报告。这个 PDF 有456 页，而且内容极其复杂，各种图表、图片、标志、角标、多列排版，疑难杂症它全占了。没想到这个转的非常完美，先看一下这一页，分割线、下划线加上标志，没啥问题，角标都给你翻译了。下一页更是重量级，多列排版、图表、大段注释，整体依然翻译的很好，而且图表的主副标题都翻译了。最后更邪门了，谁会想到左上角这个带颜色区块这种排版啊，但是 Babeldoc 依然搞定了。那说了这么多如何使用呢。如果你有安装沉浸式翻译的话可以点击插件，然后点击图片里的 PDF/ePub 就可以进入文档翻译界面，进去以后选择 BabelDOC 就行。也可以直接访问：https://app.immersivetranslate.com/babel-doc/ BabelDOC 的套餐依然延续了沉浸式翻译的良心操作：免费版⽤⼾每⽉享有 1000 ⻚的PDF解析翻译额度，并使⽤ GLM-4-FLASH ⼤模型进⾏翻译，我一个月都没这么多文档需要翻译的。 Pro 会员则享有每⽉ 10000 ⻚额度，并接⼊ DeepSeek ⾼级翻译模型，带来更强⼤的翻译效果。另外翻译好的谷歌提示词文档和斯坦福的人工智能指数报告可以在这里领取：http://pan.quark.cn/s/e5f5b4ac8147

1 00

AI新手河马

2月前

从基础开始

超级峰: OpenAI 出 AI 教程了，关键还是免费的，大家按需自取吧，学起来👇 https://academy.openai.com/

0 00

AI新手河马

3月前

原来可以这样子

-Zho-: 卧槽，谁说不行？！！！ 4o 同样可以像 Gemini 一样一句话生成连续的故事剧情和分镜！！！啥也别说了（附提示词）刚刚测试发现 4o 可以剧情+图片连续生成，并且图像质量、特征保持、语义跟随以及故事拓展与修改都比 Gemini 强！！！可以参考我的提示词：为我生成多张连续的故事连环画，[3D 迪士尼] 风格，故事讲述的是 [一只奶牛小猫遇到一只犀牛并成为朋友] 的故事，我需要你补充完整一段故事情节的文字并生成一张图，由此为我连续生成直到剧情结束

0 00

AI新手河马

3月前

good

-Zho-: 两句话让随手拍秒变美食菜单！！！受原作者启发，把提示词优化了一波，借助 GPT 4o 的多模态能力，可以轻松实现随手拍食物秒变精致菜单还是遵循我昨天提出的三步走原则： 1️⃣【参考】高端五星级酒店菜单标准和风格（可加参考图） 2️⃣【输入】手机直拍 3️⃣【提示词】 1）去除图片中的背景和杂物，保留杂酱面，并将其美化为美食宣传册一样的照片，美味可口，背景保持明亮，以产品展示效果呈现 2）为炸酱面设计一个菜单展示页。使用标语：“独具酱心”，并为其配上食材的图片和文字

0 00

AI新手河马

3月前

转一转，风水轮流转

一泽Eze: 耗时 8 小时，整理全网最清晰的 Google 新品总结 Google 昨天一晚上发了 12 个 ai 新品，涵盖 5 个模型迭代、1 个 A2A 协议（作为 MCP 的补充），还首发了他们的 AI coding 应用又该学新东西了！ 👉阅读全文：https://mp.weixin.qq.com/s/1XvMbtamuXPObEjC1_cIpQ

1 00