分レベルのリアルタイム動画生成が登場!テンセントと南洋理工大学が共同で長尺動画生成のボトルネックを解消

ARメガネをかけて街中を歩いていて、目をそらすと目の前の映像がリアルタイムで変化するようなシナリオや、オープンワールドゲームに没頭していて、キャラクターがシームレスな仮想世界を自由に歩き回っていて、ゲームエンジンが無限に長いビデオストリームをリアルタイムで生成する必要があるようなシナリオを想像してみてほしい。

このようなシナリオでは、AI映像生成技術にかつてない要求が課される。高品質の映像を生成するだけでなく、リアルタイムのパフォーマンスを確保しながら長時間コヒーレンスを維持することも求められる。

しかし、これが現在のAI動画生成が直面している最大のボトルネックである。既存のモデルは数秒の短い映像ではうまく機能するが、映像が長くなるにつれ、問題は雪だるま式に拡大する。この現象はエラーの累積として知られており、情報がレイヤーごとに歪んでいくパス・ザ・ワードゲームのようなもので、各フレームの小さなエラーは次のフレームに受け継がれ、増幅され、最終的には色彩の漂い、硬い動き、歪んだ被写体......といった崩壊した映像につながる。

今日、南洋理工大学とテンセントのARCラボが共同開発したローリングフォース方式がブレークスルーをもたらした。それは、リアルタイム長尺ビデオ生成の不可能なトライアングルを見事に打ち破り、1つのGPUで分レベルの高品質ビデオストリームのリアルタイム生成を実現した。

リアルタイム長尺ビデオの不可能な三角形

映像生成の分野は、高品質、一貫性、リアルタイム性を両立させることの難しさという、両立しがたい矛盾に長い間悩まされてきた。

既存の方法には限界がある:

  • 従来の自己回帰生成は、フレームごとの因果関係に厳密に従うため、モデルは過去の誤差を修正できず、その結果、映像の延長とともに誤差が蓄積される。
  • 履歴腐食アプローチは、フレーム間のコヒーレンスを犠牲にしてノイズ注入による履歴への依存を減らし、フレームスキッピングと長期ドリフトをもたらす。
  • キーフレームを予測してから補間する方法は、誤差の蓄積を抑えることができるが、カオス的な生成のため、リアルタイムのシーンには適さない。

このジレンマが、AIによる映像生成をショートフィルムという現実の世界にとどめ、真のリアルタイム・インタラクティブ体験への移行を難しくしている。

ローリングフォース:ボールを生み出しながら修正する画期的なアプローチ

ローリングフォースティングの核となるアイデアは、ビデオ生成を、厳密にシリアルな因果プロセスから、スライディングウィンドウ内のパラレルな共同プロセスへと変換することである。これは、1つのステップが別のステップに続き、エラーがステップごとに拡大される従来の工業用直列組立ラインを、連動して動作し、互いに調整された並列ワークステーションにアップグレードするようなものである。

1.ローリングウインドウの共同騒音低減

ローリングフォースティングは、スライディングウィンドウを使用してマルチフレームのジョイント最適化を行う。このモデルは、1回の順伝播で複数のフレームを含むウィンドウを同時に処理し、ウィンドウ内のフレームは双方向の注意メカニズムによって互いに較正される。

処理が完了するたびにウィンドウが前方にスライドし、最初のフレームが最終結果として出力され、ウィンドウの最後に新しいノイズフレームが入力として導入され、連続的なストリーミング生成が可能になる。この設計により、生成処理中に前のフレームの潜在的なエラーを動的に修正し、エラーの蓄積を効果的に抑制することができる。

2.アテンション・シンク機構

長いビデオ生成におけるドリフト問題を解決するために、ローリングフォースティングはアテンションシンク機構を導入する。このメカニズムは、最初に生成されたフレームをグローバルアンカーとして永続的にキャッシュする。後続のすべてのフレームを生成する際、モデルはこれらの初期アンカーにアクセスできるため、トーン、照明、被写体の外観の一貫性など、映像の長期的な視覚属性を効果的に維持することができる。

3.効率的な学習アルゴリズム

ローリングフォースは、非重複ウィンドウに基づく効率的な蒸留学習アルゴリズムを設計した。このアルゴリズムにより、モデルは学習過程で実データの代わりに自己生成した履歴フレームを使用するようになり、推論時に実シーンを効果的にシミュレートし、露出バイアスの問題を緩和する。

パフォーマンス・ビヨンド:分刻みの生成で高品質を維持

定量的なテストでは、ローリングフォースティングは、いくつかの主要なメトリクスにおいて、既存の主流手法を凌駕しています。その最も顕著な利点は長期的な一貫性に反映されており、ビデオ品質のドリフトを示す主要指標ΔDriftQualityは比較モデルよりもはるかに低く、長時間のビデオ生成におけるエラーの蓄積を効果的に抑制していることが証明されています。

質的な比較では、Rolling Forcingの優位性はさらに明らかです。2分間の生成プロセスにおいて、SkyReels-V2やMAGI-1のような比較モデルは、明らかなカラーシフト、ディテールの劣化、被写体の変形を示したが、Rolling Forcingで生成されたコンテンツは、ディテール、カラー、モーションの一貫性において高い安定性を維持した。

Rolling ForcingはシングルGPUで16fpsを達成し、真にリアルタイムでインタラクティブ・アプリケーションの強固な基盤となっている。

インタラクティブなビデオ生成:動的に誘導されるコンテンツ作成

Rolling Forcingのもう一つの画期的な機能は、インタラクティブなビデオストリーム生成のサポートである。ビデオストリームの生成プロセス中、ユーザーはいつでもテキストプロンプトを変更することができ、モデルは新しい指示に従って、後続の生成コンテンツを動的に調整することができ、シームレスなコンテンツの切り替えとガイダンスを可能にします。

この機能は、リアルタイムのコンテンツ制作に新たな可能性をもたらします。クリエイターはビデオ生成の過程で、ストーリーラインやシーンのスタイル、キャラクターの動きをリアルタイムで調整できる。教育者はプレゼンテーションのパラメーターを動的に調整することができ、医療訓練は訓練生の行動にリアルタイムで反応することができ、ゲーム体験はプレイヤーの行動によって動的に形成される。

今後の課題と展望

ローリングフォースの躍進にもかかわらず、研究チームはさらに探求する価値のあるいくつかの方向性を正直に指摘した:

  1. メモリー機構の最適化現在のアプローチでは、初期フレームと最近のフレームのコンテキストのみが保持され、中間セグメントのコンテンツは生成プロセス中に破棄される。将来的には、映像の中間セグメントの重要な情報の動的な保存と呼び出しを実現するために、より効率的な長距離記憶メカニズムを探求する必要がある。
  2. トレーニング効率の向上DMD損失計算を用いた大きな注意窓は、高い訓練コストにつながる。将来的には、モデルをより大規模にスケールアップするために、性能を犠牲にすることなく計算の複雑さを軽減することを探求することができる。
  3. インタラクション遅延の最適化スクロールウィンドウメカニズムは、品質を向上させる一方で、微量の待ち時間を導入する。VR/ARのような非常に低遅延を必要とするインタラクションシナリオでは、より柔軟な推論戦略を開発する必要がある。

オープンソースと実践

嬉しいことに、研究チームは完全なオープンソースコード、モデルウェイト、詳細なドキュメントを公開している。開発者は自分のプロジェクトにこの最先端技術を組み込むのに待つ必要はない。

プロジェクトの住所

その他の製品については

詳細はこちら

シャツAI - 貫通する知性 AIGCビッグモデル:工学と科学の二大革命の時代を切り開く - Penetrating Intelligence
クロードとGPTの1:1復元 公式サイト - AI Cloud Native ライブマッチアプリ グローバルHDスポーツ観戦プレーヤー(推奨) - Blueshirt Technology
公式APIに基づくトランジットサービス - GPTMeta API GPTでの質問の仕方を教えてください。- 知識
グローバルバーチャルグッズデジタルストア - グローバルスマートーン(馮玲葛) GPTが瞬時にいい匂いを感じなくなるクロード・エアトファクト機能の実力は?-ピーピーピー