「AIはもはや映像を生成するだけでなく、映画を監督し始めている。
ちょうど今日、AIビデオにおける画期的なブレークスルーがあった。ライトリックスがLTX-2を正式リリースを可能にする新製品である。20秒、4K解像度、50fps、フルサウンドエフェクトとリップシンク付きのストーリーグレードのHDビデオをシングルパスで生成。の生成モデルである。
もっと重要なことがある:すでにComfyUIでオンライン化されている。テキスト/画像入力をサポートし、数秒でフィルムを作成し、ローカルで動作する!
ソラが未来への予告編なら、LTX-2は未来への予告編だ。実際に機能するクリエイティブツール--段落を書く→短編映画を撮る」が現実になる。
LTX-2とは?単なる映像生成ではなく、「監督レベルのクリエイション」です。
有名なクリエイティブ・ソフトウェア会社のLTX-2 ライトリックス(FacetuneとVideoleapの開発チーム)、それは現在最も人気があります。単一の拡散プロセスで画像と音声をシンクロナイズさせた最初の例ビデオモデルの
コア・ブレイクスルー
- ✅ オーディオとビデオの同期生成キャラクターは声に合わせて口を動かし、爆発時には閃光とシンクロした効果音を発し、足音に合わせて歩くリズムを刻む;
- ✅ ネイティブ4K/50fps出力従来の映画やテレビの24fps規格を上回り、画像のちらつきや構造的な破綻がない;
- ✅ マルチモーダル入力プレーンテキスト、イメージ、スケッチドライバーに対応しています;
- ✅ ファイン・ディレクター・コントロールカメラパス、オブジェクトの動き、ライティングスタイル、クリップテンポを指定できます;
- ✅ フルオープンソース・イニシアティブモデルのウェイト、コード、ベンチマークは、以下のサイトでご覧いただけます。 2025年11月下旬オープンソース.;
- ✅ ローカルオペレーションRTX 4090またはMac Studioは、クラウドに依存することなく、すぐに導入できます。
AIアニメのおもちゃ」ではない。CM、スケッチ、映画のプレビューにそのまま使えるプロ仕様のツール.
実際の使用例:LTX-2で何ができるのか?
LTX-2は単なる "ビデオジェネレーター "ではなく、カメラ言語、テンポ、ムード、サウンドの関係を真に理解する "AIディレクター "です。以下は、LTX-2が一度に生成した、あなたが提供したプロンプトに基づく5つの代表的なテストケースです。グラフィック、アクション、台詞、効果音、カメラの動きはすべてシンクロしている。.
ケース1:ニューヨークの夜の街からの脱出 - 映画的な緊張感が一周する
プロンプト::
カメラは彼の口をズームアップし、すぐに「今だ!」と叫ぶ。カメラは再びズームアウトし、彼は振り返って走り出す。 カメラは再びズームアウトし、彼は振り返って走り去り始め、カメラは手持ちスタイルで彼の走りを追跡する。カメラはクレーンアップし、彼がニューヨークの賑やかな夜の通りを遠くへ走っていく様子を映す。
結局::
- カメラが男の唇にゆっくりと近づき、彼の息がわずかに震えている間、オープニングは静寂に包まれる;
- 「噴火の瞬間、街灯が明滅し、交通音が轟く中、効果音とカメラが揺れ動く;
- 手足を使ったフォロースルーのランニング・アクションは自然で流れるようで、あえぎ声のリズムに合わせた足音が響く;
- 何層にも重なる環境音(サイレン、クラクション、群衆)をバックに、男のシルエットがニューヨークのネオンの通りをフェードアウトしていく中、最後のクレーンアップショットが引き上げられる。
これは "AIアニメーション "ではなく、アクション映画のオープニングにそのまま使える映画品質の映像だ。
ケース2:Monster Truck Rampage - モーション・ブラーとレンズ・トラッキングの融合!
プロンプト::
モンスタートラックがカメラに向かって疾走するアクション満載の映画のようなショットで、トラックはその無謀な走りを追うように左へパンしながらカメラを追い越していく。その後、トラックはドリフトしながら向きを変え、極端な距離までカメラに向かって戻ってくる。その後、トラックはドリフトし、向きを変え、極端なクローズアップで見られるまでカメラに向かって戻ってドライブする。
結局::
- トラックは真正面から突進し、タイヤは砂埃を巻き上げ、カメラは手持ち撮影をシミュレートするために激しく揺れる;
- 画像は自然にモーションブラーを発生させ、被写界深度は車両が通過するにつれて変化する;
- ドリフトスラロームのアクションはスムーズで、タイヤの摩擦音に同期してエンジンが唸りを上げる;
- やがて極端なクローズアップ・ショットが車のヘッドライトに落ち着き、歪んだ光と影が映し出され、効果音がドラマチックな緊張感を生み出すために突然止まる。
LTX-2の「スピード」と「物理的フィードバック」に対する理解は、プロの特殊効果チームのレベルに近い。
ケース3:昼間のトークショー - 感情のテンションと編集ペースの正確さ
プロンプト::
nt. 昼間トークショーセット - 午後
柔らかなスタジオ照明が温かみのあるセットを照らす。 観客がかすかにざわめく中、カメラがパンし、ソファーに座る3人のゲスト(中年夫婦とその向かいに座る番組司会者)が映し出される。中年のカップルとその向かいに座る番組の司会者。
ホストは身を乗り出し、声は安定しているが、探りを入れている。
ホスト:"娘さんのミッシーがスパイラルに陥り始めたことに最初に気づいたのはいつですか?"
彼女の夫は彼女の肩に慰めの手を置き、ホストの方を振り向く前に下を向く。彼女の夫は彼女の肩に慰めの手を置き、ホストの方に振り返る前に下を向く。
父(静かに、罪悪感とともに):"私たちは...自分たちが何を間違ったのかわからない"
スタジオは一瞬静まり返り、カメラは司会者に切り替わる。
ホスト(カメラに向かって):「私たちのチームが用意した、ミッシーの下降線を描いた短い作品を見てみましょう。下降の道"
スタジオのモニターが明滅し、観客が固唾を飲む中、映像が流れ始める。スタジオのモニターが明滅し、観客が息を止めている間にセグメントの再生が始まる。
結局::
- この映像は古典的な昼間のトーク番組の照明と色調を復元したもので、温かみのある黄色の柔らかい光が憂鬱な雰囲気を醸し出している;
- 母親は繊細な顔の微表情と夫の自然な手の動きで泣く;
- プレゼンターはカメラという "第4の壁 "を壊し、落ち着いた口調で聴衆を直視する;
- カメラが母親の泣き顔に近づくと、背景の音は消え、呼吸音だけが残る;
- 結論はこうだ。プレゼンターが「ちょっと見てみましょうか」と言うと、LTX-2は自動的に "映画の中の映画 "のようなトランジションを発生させます-スクリーンが点灯し、映像が切り替わり、観客は息をのみます-。-スクリーンが光り、映像が切り替わり、観客は息をのむ。全工程を一度に行うので、ポストプロダクションでのスプライシングは必要ない.
それはもう「ビデオ世代」ではない。物語構造の自動構築.
ケース4:不条理な家族ドラマ-デッドサイドのユーモアと視覚的なコントラストが引き立つ
プロンプト::
暖かい日差しが降り注ぐ裏庭。 カメラは真剣な表情で向かい合う30代の女性と男性を、映画的なクローズアップでとらえる。女性は感情的に、そしてドラマチックに、優しく言う。そして私たちは父さんを失った。
大げさだよ、ジェス」。
彼はちらりと脇を見た後、"彼は楽しんでいるだけだ "と擁護するようにつぶやいた。
カメラがゆっくりと右へパンすると、庭にいる祖父が巨大な蝶の羽をつけ、飛び立とうとするように腕を振っているのが見える。まるで飛び立とうとしているかのように。
全力で羽ばたきながら「ウィーッ!」と叫ぶ。
涙を流しそうになりながら顔を覆う女性。 その口調は無表情で、不条理で、静かに悲劇的だ。
結局::
- 冒頭のシーンは、カメラがゆっくりと右へパンしながら、2人が憂鬱なムードで向かい合っている;
- 巨大な蝶の羽をつけた祖父は、大げさだがリズミカルで正確な動きで絵の中に飛び込んでくる;
- 「羽ばたきが微風を起こし、葉がわずかに揺れた;
- 娘が顔を覆い、息子が目を丸くするリアクションはリアルで自然だ;
- サウンドトラックにはソフトなギターが添えられ、映像の不条理さと対照的な「デッドサイドコメディ」を作り出している。
LTX-2は、"不条理でありながら悲劇的 "という、ハイ・コメディの最も難しい部分である微妙なトーンをうまく捉えている。
ケース5:ピクサー・スタイルのオーブンシアター - 擬人化+ドラマ化+音声と映像の同期化
プロンプト::
焼きたてのクッキーを温かい金色の光が包む。暖かい金色の光が焼きたてのクッキーを照らす。 パン職人の顔がフレームいっぱいに映し出され、目を見開いて集中し、身を乗り出す彼の息がガラスを曇らせる。湯気が立ち上り、微妙な反射がガラスを横切る。
ベイカー(ドラマチックにささやく):"今日...私は完璧を達成します"。
彼はさらに近づき、鼻がグラスに触れそうになる。
"黄金色のエッジ、ソフトなセンター。 神々がこのクッキーの匂いを嗅いで泣くだろう。"
ベイカー: "待って..."
(ビート)
"チョコレート・チップを忘れたかな?"
サイドビューに切り替わり、同僚がフレームに飛び込んでくる。
同僚(口がふさがってる):"いや、砂糖を忘れてるよ"。
ガラスの向こうでクッキーが膨らみ、オーブンのドアに押しつけられるパン職人の恐怖におののく顔へのクイック・ズームバック。 スローモーションで蒸気が上へ上へと流れていく。蒸気がスローモーションで上方へ流れていく。
ピクサー・スタイルの演技とタイミング
結局::
- オーブン内部から外を撮影したもので、ガラスの霧、湯気、反射などのディテールがリアルに表現されている;
- パン職人の表情は誇張されているが、やりすぎではなく、その目は狂乱から荒廃へと変化している;
- 荘厳なサウンドトラックに乗せて、「神々がこのクッキーの匂いを嗅いで泣くだろう」;
- 同僚が突然写真に入ってきて、口いっぱいに頬張っている。口の形、咀嚼音、嚥下運動が完全に同期している.;
- チーン」という悲痛な効果音とともに、スローモーションでビスケットが崩れ、湯気が上がる。ピクサースタイルのタイミングは正確に再現されている。.
この動画がコミュニティで公開された後、ネットユーザーからは「今年最も癒され、心が痛むAIショートフィルム」との声が上がった。
🛠️ どうやって使うのですか? ComfyUIはワンクリックで操作できます。
LTX-2が採用された公式協力ノードComfyUIに統合され、利用障壁が非常に低くなりました:
手順は以下の通り:
- ComfyUIのアップデート を最新バージョンに変更してください(ビデオモジュールがサポートされていることを確認してください);
- テンプレートライブラリの検索 「LTX-2.;
- モードを選択します:
- 高速モードクイックプレビュー用に6~10秒のビデオを用意;
- プロ・モードCMやショートフィルムに最適な高画質出力;
- プロンプトの単語を入力する:
ネオン下のダンサー, シネマティック, 4K, 50fps - 設定パラメーター:解像度(720p~4K)、フレームレート(最大50fps)、継続時間(6/8/10秒);
- 実行をクリックする。10秒以内で撮影.
上級ユーザーは、ControlNetとVHSノードを組み合わせて、マルチカメラのスティッチングやスタイル移行などの複雑な処理を行うこともできます。
⚖️ 強みと限界
強み:
- 音と映像の同期業界初、"ポスト・ダビング "に別れを告げる;
- 高速推論10秒のビデオは10秒強で生成される;
- 物理的リアリズム肌、金属、布の質感がリアル;
- 監督レベルコントロールショット、テンポ、スタイルはすべて調整可能だ;
- オープンソース+現地オペレーションプラットフォームをロックインすることなく、プライバシーとセキュリティを確保。
⚠️ 制限:
- 制限時間現在、最大10秒(公式プラットフォームでは20秒);
- オーディオ・バイアス "基準レベル"アンビエント効果音に適しており、当面はプロのサウンドトラックの代わりにはならない;
- 高いグラフィックメモリ要件4K出力にはRTX 4090クラスのGPUが必要です;
- キュー・ワードの感度曖昧な表現は "偏り "を生みやすいので、正確に表現する必要がある。
どうですか?
- オンライン体験::https://ltx.video/
- ComfyUIノードテンプレートライブラリ検索 "LTX-2"
- 対応プラットフォームファル、レプリケート、RunDiffusion、ComfyUI
- オープンソース・プログラム2025年11月下旬にモデルのウェイトとコードを公開
🎥 最後に書く
以前、私たちは「AIが生成するビデオ」はギミックだと言った;
さて、LTX-2の証明である:AIは真の創造的プロセスに参加できるようになった.
完璧ではないかもしれないが、方向性は間違いない-。
創造性は、もはや技術的な敷居に縛られることなく、アイデアを数秒で絵に変えることができる。
自分の4K映画を "監督 "したいなら、自分でできる。
今がベストなタイミングだ。
ComfyUIを開き、最初のプロンプトの単語を入力します。
世界は、あなたのために動く。