今天higgsfield的 draw-to-video非常惊艳,只需上传一张静态图,在上面绘制涂鸦、文字或箭头等元素,即可生成具有电影质感的视频画面,指哪儿打哪儿,一发布就直接爆了。
这个效果应该不是训练一个视频编辑模型,因为它可以基于minimax、veo3、seedance来生成的。
推测是把用户的涂鸦信息转为prompt,直接给视频模型生成,或者用该prompt生成尾帧,然后基于首尾帧来生成视频
其实Higgsfield不是首创了这种涂鸦交互,8月初Jaaz.app就支持在画布上,通过涂鸦、打字、箭头来指挥agent生图,原理就是把用户的涂鸦信息转为prompt,然后结合参考图生成对应的效果图。
更早的时候,3月在公司内 AI群里分享过GPT4O的涂鸦P图案例,是用户自发探索出来的能力。估计当时已经有创业公司在思考怎么把这种交互进行产品化,当时写了这篇文档《当大模型越来越像人,人和模型应该如何交互》
ix5mo5od606.feishu.cn刚刚在Twitter看到AI创作者Brett的一段话,很有感触,在此分享:
The best AI artists aren’t just good at prompting—they’re good at directing.
They know how to generate, filter, combine, and remix until something original emerges.
最出色的 AI 艺术家,不只是会写提示词,更擅长于‘导演’。
他们懂得如何生成、筛选、融合与重组,直到独一无二的作品浮现。