即刻App年轻人的同好社区
下载
App内打开
歸藏
560关注23k被关注48夸夸
产品设计师、模型设计师、 不会代码的独立开发者。
关注人工智能、LLM 、 Stable Diffusion 和设计。
歸藏
1天前
月之暗面更新了 K2 模型的 0905 版本,我试了一下,这次 Coding 能力提升挺大。

尤其 3D 房屋展示那个案例比我前几天用 Claude 4.1 写的时候轻松好多。

从公告来看这次升级将上下文提升到了 256K,在编码 Agent Coding 能力也有所提升,前端代码美观度有所提升。

我拿之前测试 GPT-5 那个巨长要求巨多的提示词试了一下效果相当不错,质量跟当时对比测评中最好的 GPT-5 有一拼。

而且这个涉及多个页面加上超长提示词也没啥问题,后来还做了一次修改,而且跟当时最好的 GPT-5 一样也加上了地址每个字段的验证,非常细致。

然后我试了一下当时 0711 那个版本没搞定的东西,当时一旦我想让他写 React 应用他就会陷入循环,而且最后没有成功,我的提示词当时比较简单,二是 React 环境构建就麻烦。

这次我让他用 React R3F 框架帮我展示上次用 Nano Banana 做的 3D 模型,没想到只修改了一次就成功了,实现的非常完美,该加的材质都加上了,而且点击出现渲染图也行,坐标对齐很好,这个可比0711 我测试那个项目难多了。

作为对比我前几天演示的时候用的 Cursor Claude 4.1 写的,而且写之前还跟 GPT-5 讨论了非常细的提示词,我调试了好多次才搞定,最后还是有小 Bug。

最重要的定价跟之前相同,K2 的高速版API也已经自动升级到了 0905 版本,输出速度也快了非常多,达到60-100 Token/s。

感兴趣可以改一下 Cluade Code API 去试试。
35
歸藏
1天前
快手在视频上的布局越来越全面了啊,这几天开源了 Kwai Keye-VL-1.5-8B 模型

除了支持图像识别以外,视频理解能力也很强,加上 8B 的大小非常适合本地部署用来做视频标注和内容识别。

我试了一下,给了一个是描述视频画面内容以及查找分镜时间和每个分镜的内容描述都做的不错。

模型主要优势有:

短视频理解:在Video-MME的短视频子集测试中,Keye-VL-1.5-8B获得81.2的高分,超过了GPT-4o及同类模型。

视频定位能力:能够在一个26秒的短视频中,将目标物(如包)出现的时间段精确定位到0.1秒级别

视觉推理能力:能够理解视频中相对复杂的行为动机比如论文案例里面可以从两只狗的行为推测动机。

模型核心创新主要有下面几个方面:

针对视频内容动态且信息密集的特点,Keye-VL-1.5 提出了一种新颖的“Slow-Fast”视频编码策略,以有效平衡空间分辨率和时间覆盖率。

慢速通路以高分辨率处理视觉变化显著的关键帧,而快速通路则以较低分辨率但更高的时间覆盖率处理相对静态的帧。

另外模型采用了精心设计的四阶段渐进式预训练流程,系统性地将模型的上下文长度从8K扩展到128K,可以理解更加复杂的视觉信息。

在后训练阶段为解决冷启动问题,模型设计了一个五步自动化流水线来生成高质量的长链思考数据,包括数据收集、问题重写、多路径推理生成、双层质量评估和人工指导改进。

引入了“渐进式提示采样”机制来处理困难样本,即当模型多次回答错误时,在提示中给予不同层级的提示,以提高训练效率和模型推理能力

项目地址:github.com
这里尝试:huggingface.co
论文:arxiv.org
24
歸藏
2天前
发现 MuleRun 最近又更新了两个重要的 Agent,都跟金融相关。

而且他们选择了跟金融行业的最了解行情的机构和个人进行共创,这种方式非常好比那些闭门造车产品自己捣鼓的强多了。

首先是跟 FundaAI 一起合作推出的美股投研 Agent,FundaAI 是非常专业的美股投研机构以前主要服务机构和私募。

这个 Agent 可以提供相当专业的分析师视角结构化洞察,可以帮助拆解股票涨跌逻辑,聚合跟市场有关的信息,帮你理解市场。

我试了一下让他帮我分析一下最近苹果产品发布会之前的信息以及对应的股票情况,他会先用图表展示股票最近的走势,然后给出分析,每部分分析都相当简明扼要,比如股价的关键是 Air 是否可以享受国补,风险主要是关税和监管以及 AI,没有其他 AI 那种又臭又长,一眼就能看懂。

然后还有一个关于区块链的 Crypto Alpha Hunt 他可以帮你快速识别早期即将起飞的币种,这个是跟比特币资深玩家一起构建的,完美复刻他的选币逻辑。

如果现在有即将暴涨的币种的话他就会展示,如果没有他就会帮你分析现在的整个市场行情,还会展示影响价格的关键更新,后面他们还会加通知和推送系统,那这玩意就有点猛了。

我试了一下,他觉得现在市场上没有暴涨币种,就给了我一份市场分析整体看起来非常专业,但我是小白其实不太懂,区块链大佬可以看看。

另外现在关注他们官推@mulerun_ai加入 Discord依然可以获取激活码。
012
歸藏
2天前
啊?我去 Atlassian 居然收购了 dia 浏览器的开发商 浏览器公司,一共花了 6.1 亿美元,浏览器公司仍将独立运营
99
歸藏
2天前
最近高产之后啥牛鬼蛇神都出来了,疯狂抄袭和洗稿我和 ZHo Nano Banana 内容

甚至连照片都用我的,有段话一个字都没改,不知道微信的原创审核干啥吃的
3210
歸藏
2天前
Codex 过去两周的使用量翻了 10 倍,大家终于认识到 GPT-5 的作用了
22
歸藏
2天前
Zed 这个 Claude Code 适配太好了,现在我们可以用带有完整界面适配的 Claude Code

他们不只是把 Claude Code 塞进内置终端,而是让他变成了类似原生的 Agent 对话窗口。

而且还开源了一个通用的框架,封装 Claude Code SDK 并将其交互转换为 ACP JSON RPC 格式,现在其他产品也可以用类似方式集成带界面的 Claude Code

Zed Claude Code 具体支持:

支持实时跟踪其编辑,支持完整语法高亮和语言服务器支持。

在多缓冲区中审阅并批准细粒度更改——接受或拒绝单个代码块。

支持将 Claude Code 的任务列表固定在侧边栏中。

使用 Claude Code 的自定义斜杠命令为最常见的开发任务定义自定义工作流程。
04:34
212
歸藏
2天前
这个研究有意思,可能代表了一种新的 AI 交互方式,支持将故事写作可视化:

能够在写作过程中自动生成时间线、世界地图和人物关系示意图

在编辑文本时,可视化会同步反映故事中的角色互动、地理位置和场景顺序。

而且还能拖动可视化部分的地图、人物、时间线修改文本

研究团队通过两轮用户研究(涵盖无经验和有经验的创意写作者)发现,这种可视化支持能帮助作者高效规划故事结构、追踪关键要素,并激发对故事变体的探索,从而鼓励创造性思维。

详情:arxiv.org
00:23
022
歸藏
2天前
Linear 介绍了一下他们构建 Product Intelligence 这个帮助团队将待办事项进行合适分类的 AI 功能的原则。

关于为推理模型的特性更改 UI 和交互用来适应推理时间和增加推理透明度的这部分很好,建议看看。

具体的三个原则为:

信任——如果你要根据 AI 生成的建议采取行动,就需要看到这些建议的来源并相信它们的准确性。

透明——让模型的推理可见,以便团队验证其输出并随时间改进它。

原生——该功能感觉像 Linear 的自然延伸,而不是附加插件。

linear.app/now/how-we-built-product-intelligence#better-search-+-bigger-models
04