¡Ya está aquí la generación de vídeo en tiempo real a nivel de minutos! Tencent y la Universidad Tecnológica de Nanyang rompen conjuntamente el cuello de botella de la generación de vídeos largos.

Imagine un escenario en el que pasea por una calle de la ciudad con gafas de realidad aumentada y la imagen que tiene delante cambia en tiempo real a medida que mira hacia otro lado; o está inmerso en un juego de mundo abierto, en el que su personaje deambula libremente por un mundo virtual sin fisuras, y el motor del juego necesita generar un flujo de vídeo infinitamente largo en tiempo real.

Estos escenarios plantean exigencias sin precedentes a la tecnología de generación de vídeo de IA: no sólo generar vídeo de alta calidad, sino también mantener la coherencia a largo plazo al tiempo que se garantiza el rendimiento en tiempo real.

Sin embargo, este es el mayor cuello de botella al que se enfrenta la generación de vídeo con IA en la actualidad. Los modelos existentes funcionan bien en películas cortas de pocos segundos, pero a medida que el vídeo se alarga, el problema se magnifica como una bola de nieve. Este fenómeno se conoce como acumulación de errores, como un juego de pasapalabra en el que la información se distorsiona capa a capa, y los pequeños errores de cada fotograma se heredan y amplifican en el siguiente, lo que en última instancia conduce a una imagen colapsada: colores a la deriva, movimientos rígidos y sujetos distorsionados ......

Hoy, el método Rolling Forcing, desarrollado conjuntamente por la Universidad Tecnológica de Nanyang y el laboratorio ARC de Tencent, nos trae un gran avance. Ha conseguido descifrar el triángulo imposible de la generación de vídeo largo en tiempo real, logrando generar en tiempo real flujos de vídeo de alta calidad a nivel de minutos en una sola GPU.

El triángulo imposible del vídeo largo en tiempo real

El campo de la generación de vídeo sufre desde hace tiempo una contradicción irreconciliable: la dificultad de conciliar alta calidad, coherencia y tiempo real.

Los métodos existentes tienen sus limitaciones:

  • La generación autorregresiva tradicional sigue estrictamente la causalidad fotograma a fotograma, y el modelo es incapaz de corregir los errores históricos, con lo que los errores se acumulan con la extensión del vídeo
  • El enfoque de la corrosión de la historia reduce la dependencia de la historia mediante la inyección de ruido a expensas de la coherencia entre fotogramas, lo que provoca saltos de fotogramas y deriva a largo plazo.
  • El método de predicción de fotogramas clave antes de interpolar reduce la acumulación de errores, pero su generación caótica no es adecuada para escenas en tiempo real.

Este dilema ha mantenido la generación de vídeo con IA en el mundo real de los cortometrajes, dificultando el avance hacia una verdadera experiencia interactiva en tiempo real.

Rolling Forcing: Un enfoque revolucionario para corregir mientras se genera

La idea central de Rolling Forcing es transformar la generación de vídeo de un proceso causal estrictamente en serie a un proceso colaborativo paralelo dentro de una ventana deslizante. Es como actualizar una cadena de montaje industrial tradicional en serie, en la que un paso sigue a otro y los errores se magnifican paso a paso, en una estación de trabajo paralela que colabora y se calibra entre sí.

1. Reducción conjunta del ruido de las ventanas enrollables

Rolling Forcing utiliza una ventana deslizante para la optimización conjunta de varios fotogramas. El modelo procesa una ventana que contiene varios fotogramas simultáneamente en una única propagación hacia delante, y los fotogramas dentro de la ventana se calibran entre sí mediante un mecanismo de atención bidireccional.

Cada vez que se completa el procesamiento, la ventana se desliza hacia delante: el primer fotograma se emite como resultado final, y se introduce un nuevo fotograma de ruido como entrada al final de la ventana, lo que permite la generación continua de secuencias. Este diseño permite al modelo corregir dinámicamente los posibles errores en tramas anteriores durante el proceso de generación, suprimiendo eficazmente la acumulación de errores.

2. Atención Mecanismo de fregado

Para resolver el problema de la deriva en la generación de vídeos largos, Rolling Forcing introduce el mecanismo Attention Sink. Este mecanismo almacena en caché los fotogramas generados inicialmente como anclas globales de forma persistente. Al generar todos los fotogramas posteriores, el modelo puede acceder a estos anclajes iniciales, manteniendo así de forma eficaz los atributos visuales a largo plazo del vídeo, incluida la coherencia del tono, la iluminación y el aspecto del sujeto.

3. Algoritmos de formación eficaces

Rolling Forcing diseña un eficaz algoritmo de entrenamiento de destilación basado en ventanas no solapadas. El algoritmo hace que el modelo utilice fotogramas históricos autogenerados en lugar de datos reales durante el proceso de entrenamiento, lo que simula eficazmente la escena real durante la inferencia y alivia el problema del sesgo de exposición.

Más allá del rendimiento: la generación minuto a minuto mantiene una alta calidad

En las pruebas cuantitativas, Rolling Forcing supera a los principales métodos existentes en varias métricas clave. Su ventaja más destacada se refleja en su consistencia a largo plazo, donde la métrica clave ΔDriftQuality, una medida de la deriva de la calidad del vídeo, es muy inferior a la del modelo de comparación, lo que demuestra que suprime eficazmente la acumulación de errores en la generación de vídeos largos.

En la comparación cualitativa, la ventaja del Rolling Forcing es aún más evidente. Durante el proceso de generación, de 2 minutos de duración, los modelos de comparación como SkyReels-V2 y MAGI-1 mostraron evidentes cambios de color, degradación de los detalles o deformación de los sujetos, mientras que los contenidos generados por Rolling Forcing mantuvieron un alto grado de estabilidad en cuanto a detalles, colores y coherencia del movimiento.

Lo que es aún más sorprendente es que este rendimiento de alta calidad no se consigue a expensas de la velocidad; Rolling Forcing alcanza una velocidad de generación de 16 fps en una sola GPU, lo que es realmente tiempo real, y sienta una base sólida para las aplicaciones interactivas.

Generación de vídeo interactivo: creación de contenidos guiada dinámicamente

Otra capacidad innovadora de Rolling Forcing es su compatibilidad con la generación interactiva de secuencias de vídeo. Durante el proceso de generación del flujo de vídeo, los usuarios pueden cambiar las instrucciones de texto en cualquier momento, y el modelo puede ajustar dinámicamente el contenido generado posteriormente según las nuevas instrucciones, lo que permite cambiar y guiar el contenido sin interrupciones.

Esta capacidad abre nuevas posibilidades para la creación de contenidos en tiempo real. Los creadores pueden ajustar los argumentos, los estilos de las escenas o los movimientos de los personajes en tiempo real durante el proceso de generación del vídeo, sin tener que esperar a que se genere todo el vídeo y volver a empezar. Los educadores pueden ajustar dinámicamente los parámetros de las presentaciones didácticas, la formación médica puede responder a las acciones de los alumnos en tiempo real y las experiencias de juego pueden adaptarse dinámicamente al comportamiento del jugador.

Retos futuros y perspectivas

A pesar del gran avance de Rolling Forcing, el equipo de investigación fue lo bastante honesto como para señalar algunas direcciones que merece la pena seguir explorando:

  1. Optimización del mecanismo de memoriaEl enfoque actual sólo conserva el contexto de los fotogramas iniciales y recientes, y el contenido del segmento medio se descarta durante el proceso de generación. En el futuro, debemos explorar mecanismos de memoria de largo alcance más eficientes para lograr la conservación dinámica y la recuperación de la información clave de los segmentos medios de vídeo.
  2. Mayor eficacia de la formaciónEl uso de grandes ventanas de atención con cálculo de pérdidas DMD conlleva elevados costes de formación. En el futuro, la complejidad computacional puede explorarse para reducir la complejidad computacional sin sacrificar el rendimiento para escalar el modelo a una escala mayor.
  3. Optimización de la latencia de las interaccionesEl mecanismo de ventana desplazable introduce un rastro de latencia al tiempo que mejora la calidad. Para escenarios de interacción que requieren una latencia muy baja, como la RV/RA, es necesario desarrollar estrategias de inferencia más flexibles.

Código abierto y práctica

Afortunadamente, el equipo de investigadores ha publicado el código fuente abierto completo, los pesos de los modelos y documentación detallada. Los desarrolladores no tienen que esperar para integrar esta tecnología puntera en sus proyectos.

Dirección del proyecto:

Para más productos, visite

Más información en

ShirtAI - Inteligencia penetrante El Gran Modelo AIGC: el comienzo de una era de doble revolución en ingeniería y ciencia - Inteligencia Penetrante
Restauración 1:1 de Claude y GPT Sitio web oficial - AI Cloud Native Live Match App Global HD Sports Viewing Player (Recomendada) - Blueshirt Technology
Servicio de tránsito basado en la API oficial - GPTMeta API Ayuda, ¿alguien de ustedes puede proporcionar algunos consejos sobre cómo hacer preguntas en GPT? - Conocimientos
Tienda digital global de bienes virtuales - Global SmarTone (Feng Ling Ge) ¿Qué tan poderoso es Claude airtfacts característica que GPT al instante no huele bien? -BeepBeep