Представьте себе сценарий, в котором вы прогуливаетесь по городской улице в AR-очках, а изображение перед вами меняется в реальном времени по мере того, как вы смотрите вдаль; или вы погружаетесь в игру с открытым миром, где ваш персонаж свободно перемещается по бесшовному виртуальному миру, а игровому движку необходимо генерировать бесконечно длинный видеопоток в реальном времени.
Эти сценарии предъявляют беспрецедентные требования к технологии генерации видео с помощью искусственного интеллекта: не только генерировать высококачественное видео, но и сохранять длительную согласованность при обеспечении производительности в реальном времени.
Однако это самое большое узкое место, с которым сегодня сталкивается ИИ при создании видео. Существующие модели хорошо справляются с короткими фильмами продолжительностью в несколько секунд, но по мере удлинения видео проблема нарастает как снежный ком. Это явление известно как накопление ошибок. Оно напоминает игру "передай слово", в которой информация искажается слой за слоем, а крошечные ошибки в каждом кадре наследуются и усиливаются в следующем, что в конечном итоге приводит к разрушению картинки - дрейфующие цвета, неловкие движения и искаженные объекты .......
Сегодня метод Rolling Forcing, совместно разработанный Наньянгским технологическим университетом и лабораторией ARC Lab компании Tencent, принес нам прорыв. Он успешно преодолел невозможный треугольник генерации длинного видео в реальном времени, обеспечив генерацию высококачественных видеопотоков минутного уровня в реальном времени на одном GPU.
Невозможный треугольник длинного видео в реальном времени
Сфера создания видео уже давно страдает от непримиримого противоречия: трудно совместить высокое качество, последовательность и реальное время.
Существующие методы имеют свои ограничения:
- Традиционная авторегрессионная генерация строго следует покадровой причинно-следственной связи, и модель не способна корректировать исторические ошибки, в результате чего ошибки накапливаются по мере расширения видео.
- Подход, основанный на коррозии истории, уменьшает зависимость от истории за счет введения шума в ущерб межкадровой когерентности, что приводит к пропуску кадров и долгосрочному дрейфу
- Метод предсказания ключевых кадров перед интерполяцией уменьшает накопление ошибок, но его хаотическое генерирование не подходит для сцен реального времени.
Эта дилемма заставляет искусственный интеллект генерировать видео в реальном мире короткометражных фильмов, затрудняя переход к настоящему интерактивному опыту в реальном времени.

Rolling Forcing: революционный подход к коррекции во время генерации
Основная идея Rolling Forcing заключается в том, чтобы превратить генерацию видео из строго последовательного причинно-следственного процесса в параллельный совместный процесс в рамках скользящего окна. Это похоже на модернизацию традиционной промышленной последовательной сборочной линии, где один шаг следует за другим, а ошибки увеличиваются шаг за шагом, в параллельную рабочую станцию, которая работает в тандеме и откалибрована друг с другом.
1. Совместное шумоподавление для откатных окон
Rolling Forcing использует скользящее окно для совместной многокадровой оптимизации. Модель обрабатывает окно, содержащее несколько кадров, одновременно в одном прямом распространении, а кадры в окне калибруются друг с другом с помощью двустороннего механизма внимания.
Каждый раз, когда обработка завершается, окно сдвигается вперед: первый кадр выводится как конечный результат, а новый шумовой кадр вводится в качестве входного в конце окна, что обеспечивает непрерывную генерацию потока. Такая конструкция позволяет модели динамически исправлять потенциальные ошибки в предыдущих кадрах в процессе генерации, эффективно подавляя накопление ошибок.
2. внимание механизм раковины
Чтобы решить проблему дрейфа при генерации длинных видео, Rolling Forcing вводит механизм Attention Sink. Этот механизм кэширует начальные сгенерированные кадры в качестве глобальных якорей в постоянном режиме. При генерации всех последующих кадров модель может обращаться к этим начальным якорям, тем самым эффективно поддерживая долгосрочные визуальные атрибуты видео, включая согласованность тона, освещения и внешнего вида объекта.
3. Эффективные алгоритмы обучения
В Rolling Forcing разработан эффективный алгоритм обучения дистилляции на основе непересекающихся окон. Алгоритм заставляет модель использовать в процессе обучения не реальные данные, а самогенерирующиеся кадры истории, что эффективно имитирует реальную сцену при выводе и снимает проблему смещения экспозиции.

Производительность выше: поминутная генерация сохраняет высокое качество
В количественных тестах Rolling Forcing превосходит существующие основные методы по нескольким ключевым показателям. Его наиболее заметное преимущество проявляется в долгосрочной стабильности, где ключевая метрика ΔDriftQuality, мера дрейфа качества видео, значительно ниже, чем у сравнительной модели, что доказывает, что он эффективно подавляет накопление ошибок при генерации длинного видео.

При качественном сравнении преимущество Rolling Forcing становится еще более очевидным. Во время 2-минутного процесса генерации сравнительные модели, такие как SkyReels-V2 и MAGI-1, демонстрировали очевидные цветовые сдвиги, ухудшение детализации или деформацию объектов, в то время как контент, сгенерированный Rolling Forcing, сохранял высокую степень стабильности в плане деталей, цветов и когерентности движения.

Что еще более удивительно, так это то, что такое высокое качество производительности не идет в ущерб скорости: Rolling Forcing достигает скорости генерации 16 кадров в секунду на одном GPU, что является действительно реальным временем и закладывает прочную основу для интерактивных приложений.
Создание интерактивного видео: динамически управляемое создание контента
Еще одна революционная возможность Rolling Forcing - поддержка интерактивной генерации видеопотока. В процессе генерации видеопотока пользователь может в любой момент изменить текстовые подсказки, а модель динамически корректирует последующий генерируемый контент в соответствии с новыми инструкциями, обеспечивая плавное переключение контента и наведение.
Эта возможность открывает новые возможности для создания контента в режиме реального времени. Создатели могут корректировать сюжетные линии, стили сцен или движения персонажей в режиме реального времени в процессе создания видео, не дожидаясь завершения всего видео, чтобы начать заново. Преподаватели могут динамически настраивать параметры учебных презентаций, медицинские курсы могут реагировать на действия обучаемых в режиме реального времени, а игровой процесс может динамически формироваться в зависимости от поведения игрока.

Будущие проблемы и перспективы
Несмотря на прорыв Rolling Forcing, команда исследователей честно указала на несколько направлений, которые стоит изучить в дальнейшем:
- Оптимизация механизма памяти: Текущий подход сохраняет только контекст начального и последнего кадров, а содержание среднего сегмента отбрасывается в процессе генерации. В будущем нам необходимо изучить более эффективные механизмы дальнего запоминания, чтобы добиться динамического сохранения и вызова ключевой информации из середины видеофрагментов.
- Повышение эффективности обучения: Большие окна внимания с вычислением потерь DMD приводят к высоким затратам на обучение. В будущем вычислительная сложность может быть исследована для снижения вычислительной сложности без ущерба для производительности, чтобы масштабировать модель до больших масштабов.
- Оптимизация задержки при взаимодействии: Механизм прокрутки окна вносит небольшую задержку при улучшении качества. Для сценариев взаимодействия, требующих очень низкой задержки, таких как VR/AR, необходимо разработать более гибкие стратегии вывода.
Открытый исходный код и практика
К счастью, исследовательская группа выпустила полный открытый исходный код, весовые коэффициенты моделей и подробную документацию. Разработчикам не нужно ждать, чтобы интегрировать эту передовую технологию в свои проекты.
Адрес проекта:
- Диссертация:https://arxiv.org/abs/2509.25161
- Домашняя страница проекта:https://kunhao-liu.github.io/Rolling_Forcing_Webpage/
- Репозиторий кода:https://github.com/TencentARC/RollingForcing
- Модель с обнимающимся лицом:https://huggingface.co/TencentARC/RollingForcing