Die Erzeugung von Echtzeit-Videos auf Minutenebene ist da! Tencent und die Nanyang Technological University überwinden gemeinsam den Engpass bei der Erstellung langer Videos

Stellen Sie sich ein Szenario vor, in dem Sie mit einer AR-Brille durch eine Stadt schlendern und sich das Bild vor Ihnen in Echtzeit ändert, während Sie wegschauen. Oder Sie tauchen in ein Open-World-Spiel ein, in dem sich Ihre Spielfigur frei in einer nahtlosen virtuellen Welt bewegt, und die Spiel-Engine muss einen unendlich langen Videostream in Echtzeit erzeugen.

Diese Szenarien stellen noch nie dagewesene Anforderungen an die Technologie zur Erzeugung von KI-Videos: Sie muss nicht nur qualitativ hochwertige Videos erzeugen, sondern auch die Langzeitkohärenz aufrechterhalten und gleichzeitig eine Echtzeitleistung gewährleisten.

Dies ist jedoch der größte Engpass, mit dem die KI-Videogenerierung heute zu kämpfen hat. Bestehende Modelle funktionieren gut bei kurzen Filmen von wenigen Sekunden, aber wenn das Video länger wird, vergrößert sich das Problem wie ein Schneeball. Dieses Phänomen ist als Fehlerakkumulation bekannt, wie ein Spiel, bei dem Informationen Schicht für Schicht verzerrt werden und winzige Fehler in jedem Bild vom nächsten übernommen und verstärkt werden, was schließlich zu einem kollabierten Bild führt - abweichende Farben, steife Bewegungen und verzerrte Personen ......

Heute haben wir mit der Rolling-Forcing-Methode, die gemeinsam von der Technischen Universität Nanyang und dem Tencent ARC Lab entwickelt wurde, einen Durchbruch erzielt. Sie hat erfolgreich das unmögliche Dreieck der Erzeugung langer Videos in Echtzeit geknackt und erreicht die Echtzeit-Erzeugung von qualitativ hochwertigen Videoströmen im Minutentakt auf einer einzigen GPU.

Das unmögliche Dreieck der langen Echtzeit-Videos

Der Bereich der Videogenerierung leidet seit langem unter einem unüberbrückbaren Widerspruch: der Schwierigkeit, hohe Qualität, Konsistenz und Echtzeit miteinander zu vereinbaren.

Bestehende Methoden haben ihre Grenzen:

  • Die herkömmliche autoregressive Generierung folgt strikt der Bild-für-Bild-Kausalität, und das Modell ist nicht in der Lage, historische Fehler zu korrigieren, was dazu führt, dass sich die Fehler mit der Verlängerung des Videos häufen.
  • Der "History Corrosion"-Ansatz reduziert die Abhängigkeit von der Historie durch Rauschinjektion auf Kosten der Interframe-Kohärenz, was zu Frame-Skipping und Langzeitdrift führt.
  • Die Methode der Vorhersage von Keyframes vor der Interpolation verringert die Fehlerhäufigkeit, aber ihre chaotische Erzeugung ist nicht für Echtzeitszenen geeignet.

Dieses Dilemma hat dazu geführt, dass die KI-Videoproduktion in der realen Welt der Kurzfilme verbleibt, was den Übergang zu einem echten interaktiven Echtzeit-Erlebnis erschwert.

Rolling Forcing: Ein revolutionärer Ansatz zum Korrigieren beim Generieren

Der Kerngedanke des Rolling Forcing ist die Umwandlung der Videoerstellung von einem streng seriellen kausalen Prozess in einen parallelen kollaborativen Prozess innerhalb eines gleitenden Fensters. Das ist so, als würde man ein traditionelles industrielles serielles Fließband, bei dem ein Schritt auf den anderen folgt und die Fehler Schritt für Schritt vergrößert werden, in eine parallele Arbeitsstation umwandeln, die im Tandem arbeitet und aufeinander kalibriert ist.

1. gemeinsame Lärmreduzierung für Rollfenster

Rolling Forcing verwendet ein gleitendes Fenster für die gemeinsame Optimierung mehrerer Bilder. Das Modell verarbeitet ein Fenster mit mehreren Einzelbildern gleichzeitig in einer einzigen Vorwärtspropagation, und die Einzelbilder innerhalb des Fensters werden durch einen wechselseitigen Aufmerksamkeitsmechanismus aufeinander abgestimmt.

Jedes Mal, wenn die Verarbeitung abgeschlossen ist, schiebt sich das Fenster vorwärts: Das erste Bild wird als Endergebnis ausgegeben, und am Ende des Fensters wird ein neues Rauschbild als Eingabe eingeführt, was eine kontinuierliche Streaming-Erzeugung ermöglicht. Auf diese Weise kann das Modell potenzielle Fehler in früheren Frames während des Generierungsprozesses dynamisch korrigieren, wodurch eine Fehlerakkumulation wirksam verhindert wird.

2. aufmerksamkeitsstarker Senkenmechanismus

Zur Lösung des Driftproblems bei der Generierung langer Videos wird mit Rolling Forcing der Mechanismus Attention Sink eingeführt. Dieser Mechanismus speichert die anfänglich generierten Frames als globale Anker in einer dauerhaften Weise. Bei der Generierung aller nachfolgenden Bilder kann das Modell auf diese anfänglichen Anker zugreifen, wodurch die langfristigen visuellen Attribute des Videos, einschließlich der Konsistenz des Tons, der Beleuchtung und des Aussehens des Objekts, effektiv erhalten bleiben.

3. effiziente Trainingsalgorithmen

Mit Rolling Forcing wurde ein effizienter Trainingsalgorithmus für die Destillation entwickelt, der auf nicht überlappenden Fenstern basiert. Der Algorithmus sorgt dafür, dass das Modell während des Trainingsprozesses anstelle von realen Daten selbsterstellte Historienbilder verwendet, was die reale Szene während der Inferenz effektiv simuliert und das Problem der Verzerrung durch die Belichtung mindert.

Mehr Leistung: Die minutengenaue Erstellung sorgt für hohe Qualität

In quantitativen Tests übertrifft Rolling Forcing die bestehenden Mainstream-Methoden in mehreren Schlüsselmetriken. Der größte Vorteil des Rolling Forcing zeigt sich in seiner langfristigen Konsistenz. Die Schlüsselkennzahl ΔDriftQuality, ein Maß für die Drift der Videoqualität, ist viel niedriger als beim Vergleichsmodell, was beweist, dass es die Ansammlung von Fehlern bei der Erzeugung langer Videos wirksam unterdrückt.

Im qualitativen Vergleich wird der Vorteil von Rolling Forcing noch deutlicher. Während des zweiminütigen Generierungsprozesses zeigten Vergleichsmodelle wie SkyReels-V2 und MAGI-1 offensichtliche Farbverschiebungen, Detailverschlechterungen oder Motivverformungen, während die mit Rolling Forcing generierten Inhalte ein hohes Maß an Stabilität in Bezug auf Details, Farben und Bewegungskohärenz aufwiesen.

Noch überraschender ist, dass diese hohe Qualitätsleistung nicht auf Kosten der Geschwindigkeit geht: Rolling Forcing erreicht 16 fps auf einem einzigen Grafikprozessor und ist damit eine echte Echtzeitlösung und eine solide Grundlage für interaktive Anwendungen.

Interaktive Videoerstellung: dynamisch geführte Inhaltserstellung

Eine weitere bahnbrechende Fähigkeit von Rolling Forcing ist die Unterstützung der interaktiven Videostreamerzeugung. Während der Generierung des Videostroms können die Benutzer die Textaufforderungen jederzeit ändern, und das Modell kann die anschließend generierten Inhalte dynamisch an die neuen Anweisungen anpassen, was einen nahtlosen Wechsel der Inhalte und eine nahtlose Anleitung ermöglicht.

Diese Funktion eröffnet neue Möglichkeiten für die Erstellung von Inhalten in Echtzeit. Die Autoren können die Handlung, den Stil der Szene oder die Bewegungen der Figuren während der Videoerstellung in Echtzeit anpassen, ohne dass sie warten müssen, bis das gesamte Video fertiggestellt ist, bevor sie neu beginnen. Pädagogen können Parameter in Unterrichtspräsentationen dynamisch anpassen, medizinische Schulungen können in Echtzeit auf die Handlungen der Teilnehmer reagieren, und Spielerlebnisse können dynamisch durch das Verhalten der Spieler gestaltet werden.

Künftige Herausforderungen und Ausblick

Trotz des Durchbruchs von Rolling Forcing war das Forschungsteam ehrlich genug, um auf einige Richtungen hinzuweisen, die weiter erforscht werden sollten:

  1. Optimierung des SpeichermechanismusDer aktuelle Ansatz behält nur den Kontext der ersten und letzten Bilder bei, und der Inhalt des mittleren Segments wird während des Generierungsprozesses verworfen. In Zukunft müssen wir effizientere Mechanismen für den Langzeitspeicher erforschen, um die Schlüsselinformationen der mittleren Videosegmente dynamisch zu erhalten und abzurufen.
  2. Höhere Effizienz der AusbildungGroßes Aufmerksamkeitsfenster mit DMD-Verlustberechnung führt zu hohen Trainingskosten. In der Zukunft kann die Rechenkomplexität erforscht werden, um die Rechenkomplexität zu reduzieren, ohne die Leistung zu opfern, um das Modell auf eine größere Skala zu skalieren.
  3. Optimierung der InteraktionslatenzDer Mechanismus des scrollenden Fensters führt eine Spur von Latenz ein, verbessert aber die Qualität. Für Interaktionsszenarien, die sehr geringe Latenzzeiten erfordern, wie VR/AR, müssen flexiblere Inferenzstrategien entwickelt werden.

Open Source und Praxis

Erfreulicherweise hat das Forschungsteam den vollständigen Open-Source-Code, die Modellgewichte und die ausführliche Dokumentation veröffentlicht. Entwickler müssen nicht warten, bis sie diese Spitzentechnologie in ihre Projekte integrieren können.

Adresse des Projekts:

Weitere Produkte finden Sie unter

Siehe mehr unter

ShirtAI - Durchdringende Intelligenz Das AIGC Big Model: der Beginn einer Ära der doppelten Revolution in Technik und Wissenschaft - Penetrating Intelligence
1:1 Wiederherstellung von Claude und GPT Offizielle Website - AI Cloud Native Live Match App Global HD Sports Viewing Player (empfohlen) - Blueshirt Technology
Transitdienst auf der Grundlage der offiziellen API - GPTMeta API Hilfe, kann jemand von Ihnen Tipps geben, wie man Fragen auf GPT stellt? - Wissen
Global Virtual Goods Digital Store - Global SmarTone (Feng Ling Ge) Wie leistungsfähig ist Claude airtfacts, dass GPT sofort nicht mehr gut riecht? -BeepBeep