Imagine um cenário em que está a passear numa rua da cidade com óculos de realidade aumentada e a imagem à sua frente muda em tempo real à medida que desvia o olhar; ou está imerso num jogo de mundo aberto, em que a sua personagem se desloca livremente num mundo virtual sem descontinuidades, e o motor de jogo tem de gerar um fluxo de vídeo infinitamente longo em tempo real.
Estes cenários colocam exigências sem precedentes à tecnologia de geração de vídeo com IA: não só para gerar vídeo de alta qualidade, mas também para manter a coerência durante muito tempo, assegurando simultaneamente o desempenho em tempo real.
No entanto, este é o maior obstáculo que a geração de vídeo com IA enfrenta atualmente. Os modelos existentes têm um bom desempenho em filmes curtos de alguns segundos, mas à medida que o vídeo se prolonga, o problema aumenta como uma bola de neve. Este fenómeno é conhecido como acumulação de erros, como um jogo de passa palavra em que a informação é distorcida camada a camada, e os pequenos erros em cada fotograma são herdados e amplificados pelo seguinte, acabando por conduzir a uma imagem colapsada - cores desfasadas, movimentos rígidos e sujeitos distorcidos ......
Atualmente, o método Rolling Forcing, desenvolvido conjuntamente pela Universidade Tecnológica de Nanyang e pelo Laboratório ARC da Tencent, traz-nos um grande avanço. Conseguiu quebrar o triângulo impossível da geração de vídeo longo em tempo real, alcançando a geração em tempo real de fluxos de vídeo de alta qualidade ao nível do minuto numa única GPU.
O triângulo impossível do vídeo longo em tempo real
O domínio da produção de vídeo sofre desde há muito de uma contradição insanável: a dificuldade de conciliar qualidade, coerência e tempo real.
Os métodos actuais têm as suas limitações:
- A geração autoregressiva tradicional segue estritamente a causalidade quadro a quadro e o modelo não consegue corrigir erros históricos, o que resulta na acumulação de erros com a extensão do vídeo
- A abordagem de corrosão do historial reduz a dependência do historial através da injeção de ruído à custa da coerência interquadros, o que resulta em saltos de quadros e desvios a longo prazo
- O método de previsão de fotogramas-chave antes da interpolação reduz a acumulação de erros, mas a sua geração caótica não é adequada para cenas em tempo real.
Este dilema tem mantido a geração de vídeo com IA no mundo real das curtas-metragens, dificultando a transição para uma verdadeira experiência interactiva em tempo real.

Rolling Forcing: Uma abordagem revolucionária para corrigir enquanto se gera
A ideia central do Rolling Forcing é transformar a geração de vídeo de um processo causal estritamente em série num processo colaborativo paralelo dentro de uma janela deslizante. É como atualizar uma linha de montagem industrial tradicional em série, onde um passo se segue ao outro e os erros são ampliados passo a passo, para uma estação de trabalho paralela que trabalha em conjunto e está calibrada entre si.
1. redução do ruído comum para janelas de enrolar
O Rolling Forcing utiliza uma janela deslizante para a otimização conjunta de vários fotogramas. O modelo processa uma janela que contém vários fotogramas simultaneamente numa única propagação para a frente, e os fotogramas dentro da janela são calibrados entre si através de um mecanismo de atenção bidirecional.
Cada vez que o processamento é concluído, a janela desliza para a frente: o primeiro quadro é emitido como resultado final e um novo quadro de ruído é introduzido como entrada no final da janela, permitindo a geração de fluxo contínuo. Esta conceção permite que o modelo corrija dinamicamente potenciais erros em fotogramas anteriores durante o processo de geração, suprimindo eficazmente a acumulação de erros.
2) Mecanismo de afundamento da atenção
Para resolver o problema da deriva na geração de vídeos longos, o Rolling Forcing introduz o mecanismo Attention Sink. Esse mecanismo armazena em cache os quadros gerados inicialmente como âncoras globais de forma persistente. Ao gerar todos os fotogramas subsequentes, o modelo pode aceder a estas âncoras iniciais, mantendo assim eficazmente os atributos visuais a longo prazo do vídeo, incluindo a consistência do tom, a iluminação e a aparência do sujeito.
3. algoritmos de formação eficientes
O Rolling Forcing concebeu um algoritmo de formação de destilação eficiente baseado em janelas não sobrepostas. O algoritmo faz com que o modelo utilize quadros históricos auto-gerados em vez de dados reais durante o processo de treino, o que simula efetivamente a cena real durante a inferência e alivia o problema do enviesamento da exposição.

Performance Beyond: A geração minuto a minuto mantém a alta qualidade
Em testes quantitativos, o Rolling Forcing supera os métodos tradicionais existentes em várias métricas importantes. A sua vantagem mais proeminente reflecte-se na sua consistência a longo prazo, em que a métrica chave ΔDriftQuality, uma medida de desvio da qualidade do vídeo, é muito inferior ao modelo de comparação, provando que suprime eficazmente a acumulação de erros na geração de vídeos longos.

Na comparação qualitativa, a vantagem do Rolling Forcing é ainda mais óbvia. Durante o processo de geração de 2 minutos, os modelos de comparação, como o SkyReels-V2 e o MAGI-1, mostraram mudanças de cor óbvias, degradação de detalhes ou deformação do objeto, enquanto o conteúdo gerado pelo Rolling Forcing manteve um elevado grau de estabilidade em termos de detalhes, cores e coerência de movimento.

O que é ainda mais surpreendente é que este desempenho de alta qualidade não se faz à custa da velocidade; o Rolling Forcing atinge uma velocidade de geração de 16 fps numa única GPU, o que é verdadeiramente em tempo real e estabelece uma base sólida para aplicações interactivas.
Geração de vídeo interativo: criação de conteúdos guiados dinamicamente
Outra capacidade inovadora do Rolling Forcing é o seu suporte para a geração de fluxos de vídeo interactivos. Durante o processo de geração do fluxo de vídeo, os utilizadores podem alterar as instruções de texto em qualquer altura e o modelo pode ajustar dinamicamente o conteúdo gerado subsequentemente de acordo com as novas instruções, permitindo uma comutação e orientação contínuas do conteúdo.
Esta capacidade abre novas possibilidades para a criação de conteúdos em tempo real. Os criadores podem ajustar enredos, estilos de cenas ou movimentos de personagens em tempo real durante o processo de geração de vídeo, sem terem de esperar que todo o vídeo esteja concluído para recomeçarem. Os educadores podem ajustar dinamicamente os parâmetros nas apresentações pedagógicas, a formação médica pode responder às acções dos formandos em tempo real e as experiências de jogo podem ser moldadas dinamicamente pelo comportamento dos jogadores.

Desafios futuros e perspectivas
Apesar do avanço do Rolling Forcing, a equipa de investigação foi suficientemente honesta para apontar algumas direcções que vale a pena explorar mais:
- Otimização do mecanismo de memóriaA abordagem atual apenas retém o contexto dos fotogramas iniciais e recentes, e o conteúdo do segmento intermédio é descartado durante o processo de geração. No futuro, precisamos de explorar mecanismos de memória de longo alcance mais eficientes para conseguir a preservação dinâmica e a recuperação de informações-chave de segmentos de vídeo intermédios.
- Aumento da eficiência da formaçãoA utilização de grandes janelas de atenção com cálculo de perdas DMD conduz a custos de formação elevados. No futuro, a complexidade computacional pode ser explorada para reduzir a complexidade computacional sem sacrificar o desempenho para escalar o modelo a uma escala maior.
- Otimização da latência da interaçãoO mecanismo da janela de deslocação introduz um traço de latência, melhorando simultaneamente a qualidade. Para cenários de interação que exigem uma latência muito baixa, como a RV/RA, é necessário desenvolver estratégias de inferência mais flexíveis.
Código aberto e prática
Felizmente, a equipa de investigação lançou o código-fonte aberto completo, os pesos dos modelos e a documentação detalhada. Os programadores não têm de esperar para integrar esta tecnologia de ponta nos seus projectos.
Endereço do projeto:
- Tese:https://arxiv.org/abs/2509.25161
- Página inicial do projeto:https://kunhao-liu.github.io/Rolling_Forcing_Webpage/
- Repositório de códigos:https://github.com/TencentARC/RollingForcing
- Modelo Huggingface:https://huggingface.co/TencentARC/RollingForcing