视频超分辨率模型目前Sota应该是SeedVR2,但SeedVR2 使用 DiT 加了时序一致性导致太吃性能了。CCSRv2 基于 SD 2.1 base 的 UNet、VAE和 ControlNet 做了图片超分辨率工作,其实只要在这个基础上把前几帧的信息给到 ControlNet,加上确定性采样、潜变量对齐初始化和噪声场对齐就能缓解潜空间上采样随机性带来时序一致性问题,就可以在 CCSRv2 的基础上做视频超分,性能会比 SeedVR2 强不少,主观感受应该能达到SeedVR2 的水准。不知道这个思路业内有没有人在做。