快手在视频上的布局越来越全面了啊,这几天开源了 Kwai Keye-VL-1.5-8B 模型
除了支持图像识别以外,视频理解能力也很强,加上 8B 的大小非常适合本地部署用来做视频标注和内容识别。
我试了一下,给了一个是描述视频画面内容以及查找分镜时间和每个分镜的内容描述都做的不错。
模型主要优势有:
短视频理解:在Video-MME的短视频子集测试中,Keye-VL-1.5-8B获得81.2的高分,超过了GPT-4o及同类模型。
视频定位能力:能够在一个26秒的短视频中,将目标物(如包)出现的时间段精确定位到0.1秒级别
视觉推理能力:能够理解视频中相对复杂的行为动机比如论文案例里面可以从两只狗的行为推测动机。
模型核心创新主要有下面几个方面:
针对视频内容动态且信息密集的特点,Keye-VL-1.5 提出了一种新颖的“Slow-Fast”视频编码策略,以有效平衡空间分辨率和时间覆盖率。
慢速通路以高分辨率处理视觉变化显著的关键帧,而快速通路则以较低分辨率但更高的时间覆盖率处理相对静态的帧。
另外模型采用了精心设计的四阶段渐进式预训练流程,系统性地将模型的上下文长度从8K扩展到128K,可以理解更加复杂的视觉信息。
在后训练阶段为解决冷启动问题,模型设计了一个五步自动化流水线来生成高质量的长链思考数据,包括数据收集、问题重写、多路径推理生成、双层质量评估和人工指导改进。
引入了“渐进式提示采样”机制来处理困难样本,即当模型多次回答错误时,在提示中给予不同层级的提示,以提高训练效率和模型推理能力
项目地址:
github.com这里尝试:
huggingface.co论文:
arxiv.org