A geração de vídeo em tempo real ao nível do minuto está aqui! A Tencent e a Universidade Tecnológica de Nanyang, em conjunto, eliminam o estrangulamento da produção de vídeos longos

Imagine um cenário em que está a passear numa rua da cidade com óculos de realidade aumentada e a imagem à sua frente muda em tempo real à medida que desvia o olhar; ou está imerso num jogo de mundo aberto, em que a sua personagem se desloca livremente num mundo virtual sem descontinuidades, e o motor de jogo tem de gerar um fluxo de vídeo infinitamente longo em tempo real.

Estes cenários colocam exigências sem precedentes à tecnologia de geração de vídeo com IA: não só para gerar vídeo de alta qualidade, mas também para manter a coerência durante muito tempo, assegurando simultaneamente o desempenho em tempo real.

No entanto, este é o maior obstáculo que a geração de vídeo com IA enfrenta atualmente. Os modelos existentes têm um bom desempenho em filmes curtos de alguns segundos, mas à medida que o vídeo se prolonga, o problema aumenta como uma bola de neve. Este fenómeno é conhecido como acumulação de erros, como um jogo de passa palavra em que a informação é distorcida camada a camada, e os pequenos erros em cada fotograma são herdados e amplificados pelo seguinte, acabando por conduzir a uma imagem colapsada - cores desfasadas, movimentos rígidos e sujeitos distorcidos ......

Atualmente, o método Rolling Forcing, desenvolvido conjuntamente pela Universidade Tecnológica de Nanyang e pelo Laboratório ARC da Tencent, traz-nos um grande avanço. Conseguiu quebrar o triângulo impossível da geração de vídeo longo em tempo real, alcançando a geração em tempo real de fluxos de vídeo de alta qualidade ao nível do minuto numa única GPU.

O triângulo impossível do vídeo longo em tempo real

O domínio da produção de vídeo sofre desde há muito de uma contradição insanável: a dificuldade de conciliar qualidade, coerência e tempo real.

Os métodos actuais têm as suas limitações:

  • A geração autoregressiva tradicional segue estritamente a causalidade quadro a quadro e o modelo não consegue corrigir erros históricos, o que resulta na acumulação de erros com a extensão do vídeo
  • A abordagem de corrosão do historial reduz a dependência do historial através da injeção de ruído à custa da coerência interquadros, o que resulta em saltos de quadros e desvios a longo prazo
  • O método de previsão de fotogramas-chave antes da interpolação reduz a acumulação de erros, mas a sua geração caótica não é adequada para cenas em tempo real.

Este dilema tem mantido a geração de vídeo com IA no mundo real das curtas-metragens, dificultando a transição para uma verdadeira experiência interactiva em tempo real.

Rolling Forcing: Uma abordagem revolucionária para corrigir enquanto se gera

A ideia central do Rolling Forcing é transformar a geração de vídeo de um processo causal estritamente em série num processo colaborativo paralelo dentro de uma janela deslizante. É como atualizar uma linha de montagem industrial tradicional em série, onde um passo se segue ao outro e os erros são ampliados passo a passo, para uma estação de trabalho paralela que trabalha em conjunto e está calibrada entre si.

1. redução do ruído comum para janelas de enrolar

O Rolling Forcing utiliza uma janela deslizante para a otimização conjunta de vários fotogramas. O modelo processa uma janela que contém vários fotogramas simultaneamente numa única propagação para a frente, e os fotogramas dentro da janela são calibrados entre si através de um mecanismo de atenção bidirecional.

Cada vez que o processamento é concluído, a janela desliza para a frente: o primeiro quadro é emitido como resultado final e um novo quadro de ruído é introduzido como entrada no final da janela, permitindo a geração de fluxo contínuo. Esta conceção permite que o modelo corrija dinamicamente potenciais erros em fotogramas anteriores durante o processo de geração, suprimindo eficazmente a acumulação de erros.

2) Mecanismo de afundamento da atenção

Para resolver o problema da deriva na geração de vídeos longos, o Rolling Forcing introduz o mecanismo Attention Sink. Esse mecanismo armazena em cache os quadros gerados inicialmente como âncoras globais de forma persistente. Ao gerar todos os fotogramas subsequentes, o modelo pode aceder a estas âncoras iniciais, mantendo assim eficazmente os atributos visuais a longo prazo do vídeo, incluindo a consistência do tom, a iluminação e a aparência do sujeito.

3. algoritmos de formação eficientes

O Rolling Forcing concebeu um algoritmo de formação de destilação eficiente baseado em janelas não sobrepostas. O algoritmo faz com que o modelo utilize quadros históricos auto-gerados em vez de dados reais durante o processo de treino, o que simula efetivamente a cena real durante a inferência e alivia o problema do enviesamento da exposição.

Performance Beyond: A geração minuto a minuto mantém a alta qualidade

Em testes quantitativos, o Rolling Forcing supera os métodos tradicionais existentes em várias métricas importantes. A sua vantagem mais proeminente reflecte-se na sua consistência a longo prazo, em que a métrica chave ΔDriftQuality, uma medida de desvio da qualidade do vídeo, é muito inferior ao modelo de comparação, provando que suprime eficazmente a acumulação de erros na geração de vídeos longos.

Na comparação qualitativa, a vantagem do Rolling Forcing é ainda mais óbvia. Durante o processo de geração de 2 minutos, os modelos de comparação, como o SkyReels-V2 e o MAGI-1, mostraram mudanças de cor óbvias, degradação de detalhes ou deformação do objeto, enquanto o conteúdo gerado pelo Rolling Forcing manteve um elevado grau de estabilidade em termos de detalhes, cores e coerência de movimento.

O que é ainda mais surpreendente é que este desempenho de alta qualidade não se faz à custa da velocidade; o Rolling Forcing atinge uma velocidade de geração de 16 fps numa única GPU, o que é verdadeiramente em tempo real e estabelece uma base sólida para aplicações interactivas.

Geração de vídeo interativo: criação de conteúdos guiados dinamicamente

Outra capacidade inovadora do Rolling Forcing é o seu suporte para a geração de fluxos de vídeo interactivos. Durante o processo de geração do fluxo de vídeo, os utilizadores podem alterar as instruções de texto em qualquer altura e o modelo pode ajustar dinamicamente o conteúdo gerado subsequentemente de acordo com as novas instruções, permitindo uma comutação e orientação contínuas do conteúdo.

Esta capacidade abre novas possibilidades para a criação de conteúdos em tempo real. Os criadores podem ajustar enredos, estilos de cenas ou movimentos de personagens em tempo real durante o processo de geração de vídeo, sem terem de esperar que todo o vídeo esteja concluído para recomeçarem. Os educadores podem ajustar dinamicamente os parâmetros nas apresentações pedagógicas, a formação médica pode responder às acções dos formandos em tempo real e as experiências de jogo podem ser moldadas dinamicamente pelo comportamento dos jogadores.

Desafios futuros e perspectivas

Apesar do avanço do Rolling Forcing, a equipa de investigação foi suficientemente honesta para apontar algumas direcções que vale a pena explorar mais:

  1. Otimização do mecanismo de memóriaA abordagem atual apenas retém o contexto dos fotogramas iniciais e recentes, e o conteúdo do segmento intermédio é descartado durante o processo de geração. No futuro, precisamos de explorar mecanismos de memória de longo alcance mais eficientes para conseguir a preservação dinâmica e a recuperação de informações-chave de segmentos de vídeo intermédios.
  2. Aumento da eficiência da formaçãoA utilização de grandes janelas de atenção com cálculo de perdas DMD conduz a custos de formação elevados. No futuro, a complexidade computacional pode ser explorada para reduzir a complexidade computacional sem sacrificar o desempenho para escalar o modelo a uma escala maior.
  3. Otimização da latência da interaçãoO mecanismo da janela de deslocação introduz um traço de latência, melhorando simultaneamente a qualidade. Para cenários de interação que exigem uma latência muito baixa, como a RV/RA, é necessário desenvolver estratégias de inferência mais flexíveis.

Código aberto e prática

Felizmente, a equipa de investigação lançou o código-fonte aberto completo, os pesos dos modelos e a documentação detalhada. Os programadores não têm de esperar para integrar esta tecnologia de ponta nos seus projectos.

Endereço do projeto:

Para mais produtos, consultar

Ver mais em

ShirtAI - Inteligência penetrante O Grande Modelo do AIGC: inaugurando uma era de dupla revolução na engenharia e na ciência - Penetrating Intelligence
1:1 Restauração de Claude e GPT Site oficial - AI Cloud Native Aplicação de jogos em direto Leitor de visualização de desporto HD global (recomendado) - Blueshirt Technology
Serviço de trânsito baseado na API oficial - API GPTMeta Ajuda, alguém pode dar algumas dicas sobre como fazer perguntas no GPT? - Conhecimento
Loja digital de bens virtuais globais - Global SmarTone (Feng Ling Ge) Quão poderosa é a funcionalidade Claude airtfacts que o GPT instantaneamente não cheira bem? -BeepBeep