想象这样一个场景:你戴上AR眼镜漫步在城市街头,眼前的画面随着你的视线实时变化;或者你沉浸在开放世界游戏中,角色在无缝衔接的虚拟世界中自由漫游,游戏引擎需要实时生成一条无限长的视频流。
这些场景对AI视频生成技术提出了前所未有的要求:不仅要生成高质量视频,还要保持长时间连贯性,同时保证实时性。
然而,这正是当前AI视频生成面临的最大瓶颈。现有模型在几秒钟的短片中表现不错,但随着视频延长,问题如滚雪球般放大。这种现象被称为误差累积,就像传话游戏中信息一层层失真,每一帧的微小误差都会被下一帧继承、放大,最终导致画面崩坏——颜色漂移、动作僵硬、主体变形……
今天,由南洋理工大学与腾讯ARC实验室联合研发的Rolling Forcing方法,为我们带来了突破性进展。它成功破解了实时长视频生成的不可能三角,在单张GPU上实现了分钟级高质量视频流的实时生成。
实时长视频的不可能三角
视频生成领域长期存在着一个难以调和的矛盾:高质量、一致性和实时性三者难以兼顾。
现有方法各有局限:
- 传统自回归生成严格遵循逐帧因果性,模型无法修正历史错误,导致误差随视频延长而累积
- 历史腐蚀方法通过噪声注入降低对历史的依赖,却牺牲了帧间连贯性,造成跳帧和长期漂移
- 先预测关键帧再插值的方法虽能减少误差累积,但其乱序生成特性不适用于实时场景
这一困境使得AI视频生成在实际应用中始终停留在短片领域,难以走向真正的实时交互式体验。

Rolling Forcing:边生成边修正的革命性方法
Rolling Forcing的核心思想是将视频生成从严格的串行因果过程,转变为滑动窗口内的并行协作过程。这好比将传统工业上一步接一步、误差逐级放大的串行流水线,升级为一个协同工作、相互校准的并行工作站。
1. 滚动窗口联合降噪
Rolling Forcing采用滑动窗口进行多帧联合优化。模型在单次前向传播中同时处理一个包含多帧的窗口,窗口内各帧通过双向注意力机制进行相互校准。
每完成一次处理,窗口向前滑动:输出首帧作为最终结果,并引入新噪声帧作为窗口末端输入,实现连续流式生成。这种设计允许模型在生成过程中动态修正先前帧的潜在误差,有效抑制误差累积。
2. Attention Sink机制
为解决长视频生成中的漂移问题,Rolling Forcing引入了Attention Sink机制。该机制将初始生成帧作为全局锚点进行持久化缓存。在生成后续所有帧时,模型均能访问这些初始锚点信息,从而有效维持视频的长期视觉属性,包括色调、光照和主体外观的一致性。
3. 高效训练算法
Rolling Forcing设计了一种基于非重叠窗口的高效蒸馏训练算法。该算法在训练过程中使模型使用自身生成的历史帧而非真实数据,有效模拟了推理时的真实场景,缓解了曝光偏差问题。

性能超越:分钟级生成保持高质量
在定量测试中,Rolling Forcing在多项关键指标上超越了现有主流方法。其最突出的优势体现在长期一致性上,衡量视频质量漂移的关键指标ΔDriftQuality远低于对比模型,证明其有效抑制了长视频生成中的误差累积。

在定性比较中,Rolling Forcing的优势更加明显。在长达2分钟的生成过程中,对比模型如SkyReels-V2、MAGI-1等都出现了明显的颜色偏移、细节退化或主体变形,而Rolling Forcing生成的内容在细节、色彩和运动连贯性上均保持了高度稳定。

更令人惊喜的是,这一高质量表现并未以牺牲速度为代价。Rolling Forcing在单张GPU上达到了16 fps的生成速度,真正实现了实时生成,为交互式应用奠定了坚实基础。
交互式视频生成:动态引导内容创作
Rolling Forcing的另一项突破性能力是支持交互式视频流生成。在视频流生成过程中,用户可以随时改变文本提示词,模型能够动态地根据新指令调整后续生成内容,实现内容的无缝切换与引导。
这种能力为实时内容创作开辟了全新可能。创作者可以在视频生成过程中实时调整故事情节、场景风格或角色动作,无需等待整个视频生成完成再重新开始。教育工作者可以动态调整教学演示中的参数,医疗培训可以实时响应学员的操作,游戏体验可以完全由玩家的行为动态塑造。

未来挑战与展望
尽管Rolling Forcing取得了突破性进展,研究团队也坦诚指出了几个值得进一步探索的方向:
- 记忆机制优化:当前方法仅保留初始帧和近期帧的上下文,生成过程中段的内容会被丢弃。未来需要探索更高效的长程记忆机制,实现对视频中段关键信息的动态保存与召回。
- 训练效率提升:大窗口注意力与DMD损失计算导致训练成本较高。未来可以探索在不牺牲性能的前提下降低计算复杂度,将模型扩展到更大规模。
- 交互延迟优化:滚动窗口机制在提升质量的同时会引入微量延迟。针对需要极低延迟的交互场景如VR/AR,需要开发更灵活的推理策略。
开源与实践
值得欣喜的是,研究团队已经发布了完整的开源代码、模型权重和详细文档。开发者无需等待,即可在自己的项目中集成这项前沿技术。
项目地址:
- 论文:https://arxiv.org/abs/2509.25161
- 项目主页:https://kunhao-liu.github.io/Rolling_Forcing_Webpage/
- 代码仓库:https://github.com/TencentARC/RollingForcing
- Huggingface模型:https://huggingface.co/TencentARC/RollingForcing