分钟级实时视频生成来了！腾讯与南洋理工联合突破长视频生成瓶颈

Представьте себе сценарий, в котором вы прогуливаетесь по городской улице в AR-очках, а изображение перед вами меняется в реальном времени по мере того, как вы смотрите вдаль; или вы погружаетесь в игру с открытым миром, где ваш персонаж свободно перемещается по бесшовному виртуальному миру, а игровому движку необходимо генерировать бесконечно длинный видеопоток в реальном времени.

Эти сценарии предъявляют беспрецедентные требования к технологии генерации видео с помощью искусственного интеллекта: не только генерировать высококачественное видео, но и сохранять длительную согласованность при обеспечении производительности в реальном времени.

Однако это самое большое узкое место, с которым сегодня сталкивается ИИ при создании видео. Существующие модели хорошо справляются с короткими фильмами продолжительностью в несколько секунд, но по мере удлинения видео проблема нарастает как снежный ком. Это явление известно как накопление ошибок. Оно напоминает игру "передай слово", в которой информация искажается слой за слоем, а крошечные ошибки в каждом кадре наследуются и усиливаются в следующем, что в конечном итоге приводит к разрушению картинки - дрейфующие цвета, неловкие движения и искаженные объекты .......

Сегодня метод Rolling Forcing, совместно разработанный Наньянгским технологическим университетом и лабораторией ARC Lab компании Tencent, принес нам прорыв. Он успешно преодолел невозможный треугольник генерации длинного видео в реальном времени, обеспечив генерацию высококачественных видеопотоков минутного уровня в реальном времени на одном GPU.

Невозможный треугольник длинного видео в реальном времени

Сфера создания видео уже давно страдает от непримиримого противоречия: трудно совместить высокое качество, последовательность и реальное время.

Существующие методы имеют свои ограничения:

Традиционная авторегрессионная генерация строго следует покадровой причинно-следственной связи, и модель не способна корректировать исторические ошибки, в результате чего ошибки накапливаются по мере расширения видео.
Подход, основанный на коррозии истории, уменьшает зависимость от истории за счет введения шума в ущерб межкадровой когерентности, что приводит к пропуску кадров и долгосрочному дрейфу
Метод предсказания ключевых кадров перед интерполяцией уменьшает накопление ошибок, но его хаотическое генерирование не подходит для сцен реального времени.

Эта дилемма заставляет искусственный интеллект генерировать видео в реальном мире короткометражных фильмов, затрудняя переход к настоящему интерактивному опыту в реальном времени.

Rolling Forcing: революционный подход к коррекции во время генерации

Основная идея Rolling Forcing заключается в том, чтобы превратить генерацию видео из строго последовательного причинно-следственного процесса в параллельный совместный процесс в рамках скользящего окна. Это похоже на модернизацию традиционной промышленной последовательной сборочной линии, где один шаг следует за другим, а ошибки увеличиваются шаг за шагом, в параллельную рабочую станцию, которая работает в тандеме и откалибрована друг с другом.

1. Совместное шумоподавление для откатных окон

Rolling Forcing использует скользящее окно для совместной многокадровой оптимизации. Модель обрабатывает окно, содержащее несколько кадров, одновременно в одном прямом распространении, а кадры в окне калибруются друг с другом с помощью двустороннего механизма внимания.

Каждый раз, когда обработка завершается, окно сдвигается вперед: первый кадр выводится как конечный результат, а новый шумовой кадр вводится в качестве входного в конце окна, что обеспечивает непрерывную генерацию потока. Такая конструкция позволяет модели динамически исправлять потенциальные ошибки в предыдущих кадрах в процессе генерации, эффективно подавляя накопление ошибок.

2. внимание механизм раковины

Чтобы решить проблему дрейфа при генерации длинных видео, Rolling Forcing вводит механизм Attention Sink. Этот механизм кэширует начальные сгенерированные кадры в качестве глобальных якорей в постоянном режиме. При генерации всех последующих кадров модель может обращаться к этим начальным якорям, тем самым эффективно поддерживая долгосрочные визуальные атрибуты видео, включая согласованность тона, освещения и внешнего вида объекта.

3. Эффективные алгоритмы обучения

В Rolling Forcing разработан эффективный алгоритм обучения дистилляции на основе непересекающихся окон. Алгоритм заставляет модель использовать в процессе обучения не реальные данные, а самогенерирующиеся кадры истории, что эффективно имитирует реальную сцену при выводе и снимает проблему смещения экспозиции.

Производительность выше: поминутная генерация сохраняет высокое качество

В количественных тестах Rolling Forcing превосходит существующие основные методы по нескольким ключевым показателям. Его наиболее заметное преимущество проявляется в долгосрочной стабильности, где ключевая метрика ΔDriftQuality, мера дрейфа качества видео, значительно ниже, чем у сравнительной модели, что доказывает, что он эффективно подавляет накопление ошибок при генерации длинного видео.

При качественном сравнении преимущество Rolling Forcing становится еще более очевидным. Во время 2-минутного процесса генерации сравнительные модели, такие как SkyReels-V2 и MAGI-1, демонстрировали очевидные цветовые сдвиги, ухудшение детализации или деформацию объектов, в то время как контент, сгенерированный Rolling Forcing, сохранял высокую степень стабильности в плане деталей, цветов и когерентности движения.

Что еще более удивительно, так это то, что такое высокое качество производительности не идет в ущерб скорости: Rolling Forcing достигает скорости генерации 16 кадров в секунду на одном GPU, что является действительно реальным временем и закладывает прочную основу для интерактивных приложений.

Создание интерактивного видео: динамически управляемое создание контента

Еще одна революционная возможность Rolling Forcing - поддержка интерактивной генерации видеопотока. В процессе генерации видеопотока пользователь может в любой момент изменить текстовые подсказки, а модель динамически корректирует последующий генерируемый контент в соответствии с новыми инструкциями, обеспечивая плавное переключение контента и наведение.

Эта возможность открывает новые возможности для создания контента в режиме реального времени. Создатели могут корректировать сюжетные линии, стили сцен или движения персонажей в режиме реального времени в процессе создания видео, не дожидаясь завершения всего видео, чтобы начать заново. Преподаватели могут динамически настраивать параметры учебных презентаций, медицинские курсы могут реагировать на действия обучаемых в режиме реального времени, а игровой процесс может динамически формироваться в зависимости от поведения игрока.

Будущие проблемы и перспективы

Несмотря на прорыв Rolling Forcing, команда исследователей честно указала на несколько направлений, которые стоит изучить в дальнейшем:

Оптимизация механизма памяти: Текущий подход сохраняет только контекст начального и последнего кадров, а содержание среднего сегмента отбрасывается в процессе генерации. В будущем нам необходимо изучить более эффективные механизмы дальнего запоминания, чтобы добиться динамического сохранения и вызова ключевой информации из середины видеофрагментов.
Повышение эффективности обучения: Большие окна внимания с вычислением потерь DMD приводят к высоким затратам на обучение. В будущем вычислительная сложность может быть исследована для снижения вычислительной сложности без ущерба для производительности, чтобы масштабировать модель до больших масштабов.
Оптимизация задержки при взаимодействии: Механизм прокрутки окна вносит небольшую задержку при улучшении качества. Для сценариев взаимодействия, требующих очень низкой задержки, таких как VR/AR, необходимо разработать более гибкие стратегии вывода.

Открытый исходный код и практика

К счастью, исследовательская группа выпустила полный открытый исходный код, весовые коэффициенты моделей и подробную документацию. Разработчикам не нужно ждать, чтобы интегрировать эту передовую технологию в свои проекты.

Адрес проекта:

Диссертация:https://arxiv.org/abs/2509.25161
Домашняя страница проекта:https://kunhao-liu.github.io/Rolling_Forcing_Webpage/
Репозиторий кода:https://github.com/TencentARC/RollingForcing
Модель с обнимающимся лицом:https://huggingface.co/TencentARC/RollingForcing

Для получения дополнительной продукции, пожалуйста, ознакомьтесь с	См. подробнее
ShirtAI - проникающий интеллект	Большая модель AIGC: начало эры двойной революции в инженерном деле и науке - Проникающая разведка
1:1 Восстановление Клода и GPT Официальный сайт - AI Cloud Native	Приложение для просмотра прямых трансляций матчей Global HD Sports Viewing Player (рекомендуется) - Blueshirt Technology
Транзитный сервис на основе официального API - GPTMeta API	Помогите, может ли кто-нибудь из вас дать несколько советов о том, как задавать вопросы в GPT? - знание
Глобальный цифровой магазин виртуальных товаров - Global SmarTone (Feng Ling Ge)	Насколько мощной является функция Claude airtfacts, что GPT мгновенно перестает хорошо пахнуть? -BeepBeep