LTX-2 ist explodiert! Das weltweit erste audio-video-synchronisierte Modell der 4K-Video-Generation, unterstützt von ComfyUI!

"Die KI erzeugt nicht mehr nur Bilder, sondern beginnt, Filme zu drehen."

Gerade heute wurde ein bahnbrechender Durchbruch im Bereich KI-Video - dieLightricks veröffentlicht offiziell LTX-2Ein neues Produkt, das sichGenerieren Sie in einem einzigen Durchgang 20-sekündige HD-Videos mit 4K-Auflösung und 50 Bildern pro Sekunde in Erzählqualität mit vollständigen Soundeffekten und Lippensynchronisation.Das generative Modell der

Mehr zur Sache:Es ist bereits online bei ComfyUIEs unterstützt Text- und Bildeingaben, produziert Filme in Sekundenschnelle und läuft lokal!

Wenn Sora ein Trailer für die Zukunft ist, dann ist der LTX-2 ein Trailer für die Zukunft.Kreative Werkzeuge, die tatsächlich funktionieren-Es macht "einen Absatz schreiben → einen Kurzfilm drehen" zu einer Realität.

🎬 Was ist LTX-2? Es geht nicht nur um die Videoerstellung, sondern um die "Erstellung auf Regieebene".

LTX-2 von einem renommierten Unternehmen für kreative Software Lightricks(das Team hinter Facetune und Videoleap), ist es derzeit das beliebtesteErste Synchronisierung von Bild und Ton in einem einzigen Diffusionsprozessdes Videomodells.

Kern-Durchbruch:

  • Synchronisierte Audio- und VideoerzeugungCharaktere sprechen mit Mündern, die zu ihren Stimmen passen, Soundeffekte, die sich mit Lichtblitzen synchronisieren, wenn sie explodieren, und Laufrhythmen, die zu ihren Schritten passen;
  • Native 4K / 50fps AusgabeÜbertrifft den traditionellen 24fps-Standard für Film und Fernsehen, ohne Flimmern oder strukturelle Unterbrechungen des Bildes;
  • Multimodale EingängeKlartext-, Bild- und Skizzentreiber werden unterstützt;
  • Feinregie KontrolleSie können den Kamerapfad, die Objektbewegung, den Beleuchtungsstil und das Clip-Tempo festlegen;
  • Vollständige Open-Source-InitiativeModellgewichte, Codes und Benchmarks werden in der Datenbank verfügbar sein. Offene Quelle Ende November 2025.;
  • lokaler BetriebRTX 4090 oder Mac Studio sind sofort einsatzbereit, ohne dass Sie auf die Cloud angewiesen sind.

Es handelt sich nicht um ein "KI-animiertes Spielzeug".Professionelle Werkzeuge, die direkt in Werbespots, Skizzen und Filmvorschauen verwendet werden können.

🧪 Anwendungsfall aus der Praxis: Was kann LTX-2 wirklich?

LTX-2 ist nicht nur ein "Videogenerator", sondern ein "KI-Regisseur", der die Beziehung zwischen Kamerasprache, Tempo, Stimmung und Ton wirklich versteht. Im Folgenden finden Sie fünf repräsentative Testfälle, die alle auf dem von Ihnen vorgegebenen Prompt basieren und von LTX-2 auf einmal generiert werden.Grafik, Handlung, Dialoge, Soundeffekte und Kamerabewegungen sind alle synchronisiert.

✅ Fall 1: Flucht aus den nächtlichen Straßen von New York - Filmische Spannung im Kreislauf

Eingabeaufforderung::

Der Mann sagt leise: "Wir müssen fliehen." Die Kamera zoomt auf seinen Mund und schreit sofort: "JETZT!". Die Kamera zoomt wieder heraus, er dreht sich um und rennt los, die Kamera verfolgt seine Flucht. Die Kamera zoomt wieder heraus, er dreht sich um und fängt an wegzurennen, die Kamera verfolgt seinen Lauf im Handstyle. Die Kamera schwenkt nach oben und zeigt, wie er in einer belebten New Yorker Nacht die Straße entlang in die Ferne läuft.

am Ende::

  • Der Anfang ist still, während die Kamera langsam näher an die Lippen des Mannes heranfährt, dessen Atem leicht zittert;
  • "JETZT!" In dem Moment, in dem er ausbricht, zucken die Soundeffekte und die Kamera weg, während die Straßenlaternen flackern und der Verkehr dröhnt;
  • Das Laufen mit der Hand ist natürlich und flüssig, und die Schritte passen zum Rhythmus der Atemzüge;
  • Die abschließende Aufnahme mit dem Kran fährt hoch, während die Silhouette des Mannes durch die neonbeleuchteten Straßen von New York verschwindet, mit Geräuschkulissen (Sirenen, Hupen, Menschenmengen) im Hintergrund.

Dabei handelt es sich nicht um eine "KI-Animation", sondern um filmreife Aufnahmen, die direkt im Vorspann eines Actionfilms verwendet werden können.

✅ Fall 2: Monster Truck Rampage - Bewegungsunschärfe trifft auf Linsenverfolgung!

Eingabeaufforderung::

eine actiongeladene, filmische Aufnahme eines Monstertrucks, der schnell auf die Kamera zufährt. Der Truck fährt an der Kamera vorbei, während diese nach links schwenkt, um die rücksichtslose Fahrt des Trucks zu verfolgen. Der Lkw driftet und wendet dann und fährt wieder auf die Kamera zu, bis er in extremer Entfernung zu sehen ist. Der Lkw driftet und wendet, fährt dann wieder auf die Kamera zu, bis er in extremer Nahaufnahme zu sehen ist.

am Ende::

  • Der Lastwagen rast frontal, die Reifen wirbeln Staub auf, und die Kamera wackelt heftig, um eine Handkameraaufnahme zu simulieren;
  • Das Bild erzeugt natürlich Bewegungsunschärfe und die Tiefenschärfe ändert sich, wenn das Fahrzeug vorbeifährt;
  • Die Drift-Slalom-Action ist geschmeidig, der Motor dröhnt im Einklang mit dem Geräusch der Reifenreibung;
  • Schließlich setzt sich die extreme Nahaufnahme auf die Scheinwerfer des Autos, die verzerrtes Licht und Schatten reflektieren, und die Soundeffekte hören abrupt auf, um dramatische Spannung zu erzeugen.

Das Verständnis von "Geschwindigkeit" und "physischem Feedback" von LTX-2 ist dem Niveau professioneller Spezialeffekt-Teams sehr nahe.

Fall 3: Tagesaktuelle Talkshow - Emotionale Spannung und Präzision im Schnitttempo

Eingabeaufforderung::

NT. TAGES-TALKSHOW-SET - NACHMITTAG
Das Publikum murmelt leise vor sich hin, als die Kamera auf drei Gäste schwenkt, die auf einer Couch sitzen - ein Ehepaar mittleren Alters und der Moderator der Sendung, der ihnen gegenüber sitzt. ein Ehepaar mittleren Alters und der Moderator der Show, der ihnen gegenüber sitzt.
Der Gastgeber beugt sich vor, mit ruhiger, aber forschender Stimme.
Moderator: "Wann haben Sie zum ersten Mal bemerkt, dass Ihre Tochter Missy anfing, sich zu drehen?"
Das Gesicht der Frau verzieht sich, sie holt zittrig Luft und fängt an zu weinen. Ihr Mann legt ihr tröstend die Hand auf die Schulter und schaut zu Boden, bevor er sich wieder dem Gastgeber zuwendet. Ihr Mann legt ihr tröstend die Hand auf die Schulter und schaut zu Boden, bevor er sich wieder dem Gastgeber zuwendet.
Vater (leise, mit Schuldgefühlen): "Wir... wir wissen nicht, was wir falsch gemacht haben."
Das Studio verstummt für einen Moment, die Kamera schwenkt auf den Moderator, der ernst in die Linse schaut.
Moderator (in die Kamera): "Schauen wir uns einen kurzen Beitrag an, den unser Team vorbereitet hat - eine Chronik von Missys Weg nach unten. Abwärtspfad."
Das Licht verdunkelt sich leicht, als die Kamera auf das tränenüberströmte Gesicht der Mutter zufährt. Die Studiomonitore flackern auf und beginnen, den Beitrag abzuspielen, während das Publikum den Atem anhält. Die Studiomonitore flackern auf und beginnen, den Beitrag abzuspielen, während das Publikum den Atem anhält.

am Ende::

  • Das Bild stellt die klassische Beleuchtung und die Töne einer Tages-Talkshow wieder her, wobei das warme, gelbe, weiche Licht eine bedrückende Atmosphäre schafft;
  • Die Mutter weint mit subtilen Mikroausdrücken im Gesicht und den natürlichen Handbewegungen des Ehemanns;
  • Der Moderator wendet sich an die "vierte Wand" der Kamera und durchbricht sie, indem er in einem ruhigen Ton spricht und das Publikum direkt anschaut;
  • Als die Kamera näher an das tränenüberströmte Gesicht der Mutter heranfährt, verstummt die Geräuschkulisse und es bleibt nur noch das Geräusch des Atmens;
  • Die Quintessenz ist diese.Wenn der Moderator sagt: "Schauen wir mal...", erzeugt der LTX-2 automatisch einen "Film-im-Film"-Übergang - die Leinwand leuchtet auf, das Bild schaltet um, das Publikum hält den Atem an - und das Publikum bleibt atemlos. -Die Leinwand leuchtet auf, das Bild wechselt, das Publikum hält den Atem an.Der gesamte Prozess wird in einem Durchgang durchgeführt, ein nachträgliches Spleißen ist nicht erforderlich..

Es ist nicht mehr die "Video-Generation", es ist dieAutomatische Konstruktion von narrativen Strukturen.

✅ Fall 4: Absurdes Familiendrama - Humor der toten Seite und visuelle Kontraste zusammengeführt

Eingabeaufforderung::

Ein warmer, sonniger Hinterhof: Die Kamera beginnt mit einer Nahaufnahme einer Frau und eines Mannes in den 30ern, die sich mit ernstem Gesichtsausdruck gegenüberstehen. Die Frau, emotional und dramatisch, sagt leise: "Das war's... Dad hat es verloren. Papa hat es verloren. Und wir haben Papa verloren."
Der Mann atmet leicht genervt aus: "Sei nicht so dramatisch, Jess".
Er wirft einen Blick zur Seite und murmelt dann abwehrend: "Er hat nur Spaß."
Die Kamera schwenkt langsam nach rechts und zeigt den Großvater im Garten, der riesige Schmetterlingsflügel trägt und mit den Armen in der Luft fuchtelt, als wolle er als wolle er abheben.
Er schreit: "Juhu!" und schlägt mit vollem Einsatz mit den Flügeln.
Die Frau bedeckt ihr Gesicht, sie ist den Tränen nahe, der Tonfall ist unbewegt, absurd und leise tragisch.

am Ende::

  • In der Eröffnungsszene stehen sich die beiden Männer in einer bedrückenden Stimmung gegenüber, während die Kamera langsam nach rechts schwenkt;
  • Der Großvater platzt mit riesigen Schmetterlingsflügeln ins Bild, seine Bewegungen sind übertrieben, aber rhythmisch präzise;
  • "Igitt!", rief er, als der Flügelschlag eine leichte Brise aufkommen ließ und die Blätter leicht zitterten;
  • Die Reaktion der Tochter, die ihr Gesicht bedeckt, und des Sohnes, der mit den Augen rollt, ist echt und natürlich;
  • Der Soundtrack wird von einem sanften Gitarrensoundtrack begleitet, der einen Kontrast zur Absurdität der Bilder bildet.

LTX-2 schafft es, den subtilen Ton von "absurd und doch tragisch" einzufangen - der schwierigste Teil der hohen Komik.

Fall 5: Backofentheater im Pixar-Stil - Anthropomorphismus + Dramatisierung + Synchronisierung von Audio und Video

Eingabeaufforderung::

Statische Kamera aus dem Inneren des Backofens, Blick durch die leicht beschlagene Glastür nach draußen. Warmes goldenes Licht leuchtet um frisch gebackene Kekse herum. Warmes, goldenes Licht umgibt frisch gebackene Kekse. Das Gesicht des Bäckers füllt den Bildausschnitt, die Augen weit aufgerissen, sein Atem beschlägt das Glas, während er sich hineinbeugt. Subtile Reflexionen bewegen sich über das Glas, während Dampf aufsteigt.
Bäcker (flüstert dramatisch): "Heute... erreiche ich Vollkommenheit."
Er lehnt sich noch näher heran, so dass seine Nase fast das Glas berührt.
"Goldene Ränder, weicher Kern - die Götter selbst werden diese Kekse riechen und weinen."
Bäcker: "Warte..."
(Beat)
"Habe ich... die Schokoladenchips vergessen?"
Schnitt zur Seitenansicht - ein Kollege erscheint im Bild und kaut lässig.
Mitarbeiterin (mit vollem Mund): "Nein, Sie haben den Zucker vergessen."
Schnelles Zoomen zurück auf das entsetzte Gesicht des Bäckers, der an die Ofentür gepresst ist, während die Kekse hinter dem Glas zusammenfallen. Dampf steigt in Zeitlupe nach oben Dampf steigt in Zeitlupe nach oben.
Schauspielerei und Timing im Pixar-Stil

am Ende::

  • Die Aufnahme ist aus dem Inneren des Ofens aufgenommen und zeigt realistische Details wie Glasnebel, Dampf und Spiegelungen;
  • Der Gesichtsausdruck des Bäckers ist übertrieben, aber nicht übertrieben, und sein Blick wechselt von Raserei zu Verzweiflung;
  • "Die Götter selbst werden diese Kekse riechen und weinen" zu einem feierlichen Soundtrack;
  • Plötzlich kommt ein Kollege ins Bild und kaut mit vollem Mund: "Nö. Du hast den Zucker vergessen.".Mundform, Kaugeräusche und Schluckbewegungen sind perfekt synchronisiert.;
  • Der Keks fällt in sich zusammen und der Dampf steigt in Zeitlupe auf, mit einem herzzerreißenden "ding"-Effekt.Das Timing im Pixar-Stil wird genau wiedergegeben..

Nachdem das Video in der Community veröffentlicht wurde, bezeichneten es die Internetnutzer als "den heilsamsten und herzzerreißendsten KI-Kurzfilm des Jahres".

🛠️ Wie funktioniert es? ComfyUI ist ein Ein-Klick-Prozess.

LTX-2 wurde angenommen alsOffizieller KooperationsknotenIntegration in ComfyUI mit einer sehr niedrigen Nutzungsbarriere:

Die Schritte sind wie folgt:

  1. ComfyUI aktualisieren auf die neueste Version (stellen Sie sicher, dass das Videomodul unterstützt wird);
  2. Suche in der Vorlagenbibliothek "LTX-2".;
  3. Wählen Sie den Modus:
  • Schneller Modus6-10 Sekunden Video für schnelle Vorschauen;
  • Profi-ModusHohe Qualität der Ausgabe, geeignet für Werbespots/Kurzfilme;
  1. Geben Sie z. B. das Aufforderungswort ein:
    eine Tänzerin unter Neonlicht, filmisch, 4K, 50fps
  2. Einstellparameter: Auflösung (720p~4K), Bildrate (bis zu 50fps), Dauer (6/8/10 Sekunden);
  3. Klicken Sie auf Ausführen.Film in 10 Sekunden oder weniger.

Fortgeschrittene Anwender können auch ControlNet- und VHS-Knoten für komplexe Prozesse wie Multikamera-Stitching und Stilmigration kombinieren.

⚖️ Stärken und Schwächen

✅ Stärken:

  • Synchronisation zwischen Ton und BildEin Novum in der Branche: Verabschieden Sie sich vom "Post-Dubbing";
  • Schnelle Argumentation: 10-Sekunden-Videos werden in etwas mehr als 10 Sekunden erstellt;
  • Physikalischer RealismusHaut-, Metall- und Stofftexturen sind realistisch;
  • Kontrolle der DirektorenebeneSchüsse, Tempo und Stil sind alle einstellbar;
  • Open Source + lokaler BetriebDatenschutz und Sicherheit ohne Plattformabhängigkeit.

⚠️ Einschränkungen:

  • ZeitlimitDerzeit bis zu 10 Sekunden (20 Sekunden auf offiziellen Plattformen);
  • Audio-Bias "Referenzpegel": Geeignet für Umgebungsgeräusche, vorerst kein Ersatz für professionelle Soundtracks;
  • Hohe Anforderungen an den Grafikspeicher4K-Ausgabe erfordert einen Grafikprozessor der RTX 4090-Klasse;
  • StichwortsensibilitätVage Beschreibungen sind leicht "verzerrt" und müssen präzise formuliert werden.

🔗 Wie ist die Erfahrung?

  • Online-Erfahrung::https://ltx.video/
  • ComfyUI-KnotenVorlage: Bibliothekssuche "LTX-2"
  • Unterstützte PlattformenFal, Replizieren, RunDiffusion, ComfyUI
  • Open-Source-ProgrammGewichte und Code des offenen Modells Ende November 2025

🎥 Zum Schluss schreiben

In der Vergangenheit haben wir gesagt, dass "KI-generierte Videos" eine Spielerei sind;
Also, LTX-2-Beweis:Die KI konnte am echten kreativen Prozess teilnehmen.

Sie mag nicht perfekt sein, aber die Richtung ist unverkennbar.
Der Kreativität sind keine technischen Grenzen mehr gesetzt, so dass die Idee in Sekundenschnelle in ein Bild verwandelt werden kann.

Wenn Sie bei Ihrem eigenen 4K-Film "Regie" führen möchten, können Sie dies selbst tun.
Jetzt ist der beste Zeitpunkt, um dies zu tun.

Öffnen Sie ComfyUI und geben Sie das erste Wort der Eingabeaufforderung ein.
Die Welt wird sich für Sie bewegen.

Weitere Produkte finden Sie unter

Siehe mehr unter

ShirtAI - Durchdringende Intelligenz Das AIGC Big Model: der Beginn einer Ära der doppelten Revolution in Technik und Wissenschaft - Penetrating Intelligence
1:1 Wiederherstellung von Claude und GPT Offizielle Website - AI Cloud Native Live Match App Global HD Sports Viewing Player (empfohlen) - Blueshirt Technology
Transitdienst auf der Grundlage der offiziellen API - GPTMeta API Hilfe, kann jemand von Ihnen Tipps geben, wie man Fragen auf GPT stellt? - Wissen
Global Virtual Goods Digital Store - Global SmarTone (Feng Ling Ge) Wie leistungsfähig ist Claude airtfacts, dass GPT sofort nicht mehr gut riecht? -BeepBeep