もはや "外部の助け "は必要なく、独立したアーティストとしてようやく成長しつつある。
AIの画像生成の分野では、私たちは長い間、この役割分担に慣れてきたようだ:
拡散モデリングは「描く」、CLIPは「見る」、VQ-VAEは「圧縮する」、LLMは「考える」!"......
という新製品が発表された。 ネクストステップ-1 オープンソースモデルは、そのパラダイムを覆そうとしている。14Bパラメータに対する純粋自己回帰アーキテクチャーその結果、トップクラスのディフュージョンモデルに匹敵するジェネレーションクオリティが得られ、日常的な言葉を理解し、その場で画像を編集する能力も備わった。
ステップファン・チームが今回発表した "大きな一手 "とは?さっそく見てみよう。

🎨 自己還元の再定義:「海外援助」に別れを告げ、本物のアーティストになる!
自己回帰モデルは、テキスト領域では長い間無敵だったが、画像生成トラックでは長年「適していない」。
過去の試みのほとんどは、2つのジレンマに陥っていた:
- 個別のジレンマVQ-VAEによって画像は有限個の離散シンボルに圧縮されなければならず、その結果、情報が失われる。
- 外部援助依存デコーダー "として大規模な拡散モデルを必要とするため、アーキテクチャが肥大化し、学習が複雑になる。
NextStep-1のコア・ブレイクスルー::
連続視覚空間でパッチ画像を自己回帰的に直接生成する。
2つの部分から構成されている:
- 14Bパラメータを持つ変圧器バックボーン内容を理解し、構成を考え、全体をコントロールする。
- 157Mパラメータのフロー・マッチング・ヘッド。トランスフォーマー:「絵筆」のようにアイデアをピクセルに変換する。
このアーキテクチャは革命的な変化をもたらす:
✅ 離散化の必要なしビジュアル・データの豊かさを完全に保持。
✅ エンド・ツー・エンド・トレーニング:: もはや外部の普及モデルに "救われる "ことはない
✅ 極めてクリーンなアーキテクチャより効率的なトレーニングのために、システム全体が高いレベルで調和されている。
ある研究者は、"まるで自分の子供が、親に手を引かれることなく、やっと一人で絵を完成させることができるようになったのを見ているようだ "と絶賛した。

つの技術的な "錬金術":自己回帰モデルを画像のために本当に機能させる
Step Starチームは、自己回帰画像生成の "ゴールドスタンダード "と呼べる論文の中で、2つの重要な発見をした:
1️⃣ 本物の "アーティスト "はトランスフォーマーだ!
研究チームは実験を通じてそのことを突き止めた:ストリームマッチングヘッドのサイズ(157M → 528M)は、最終的な画質にほとんど影響しない。.
ということだ:
- トランスフォーマーのバックボーンは90%+の "創造的な仕事 "を引き受ける
- ストリーム・マッチ・ヘッダは、アイデアを忠実に画像に変換する、軽量の "執行者 "としてのみ機能する。
- 自己回帰モデルは、まさに自分で「考え」「創造する」ことができる。
"これは、トランスフォーマーが言語であるだけでなく、ビジュアル分野におけるアーティストにもなり得ることを証明している"--研究チーム
2️⃣ トケナイザーの2大 "マジック"
継続的なビジュアルラベリングの運用において、チームは2つの重要な技術を発見した:
- チャンネルごとの正規化
マーカーの統計的特性は、単純な正規化によって効果的に安定化されます。最高強度のCFGガイダンス下でも、アーチファクトのない鮮明な画像を生成。 - "ノイズが多い=質が高い"
直感に反する発見:トーケナイザーをトレーニングするときノイズの正則化の追加その代わり、最終的な画質が大幅に向上する。
研究チームは、これによって、よりロバストで均等に分布したポテンシャル空間が形成され、自己回帰モデルに理想的な「キャンバス」が提供されるという仮説を立てた。

🖼️ 機能のデモンストレーション:単に生成するだけでなく、「変える」。
NextStep-1は、"何もないところから "画像を生成するだけでなく、人間のコマンドを理解し、プロのデザイナーのように正確に編集します。
高忠実度ブンゼンバーナー ✅ 高忠実度ブンゼンバーナー
1つのコマンドで、細部まで構成された画像を生成します:
"夜明けの静かな湖畔、静かな水面に映る松の木、水面から立ち上る霧、遠くの山の峰々を突き抜ける柔らかな金色の光、超現実的な写真"."夜明けの静かな湖畔、静かな水面に映る松の木、水面から立ち上る霧、遠くの山の峰々を突き抜ける柔らかな金色の光、超現実的な写真"
オールラウンド画像エディタ
オブジェクトの追加と削除::
「コーヒーテーブルの上にノートパソコンを置き、その横に湯気の立つコーヒーを置く。
背景の修正::
"この写真の背景をオフィスからビーチの夕焼けに変えよう"
モーション修正::
「写真の犬をお座りの状態からジャンプの状態にする。
スタイル移行::
「この写真をゴッホスタイルの油絵に変換する。
実際の結果は驚くべきもので、日常的な言語を理解するだけでなく、編集前と編集後の状態を維持することができる。視覚的コヒーレンスこれにより、従来の手法にありがちな「アイデンティティ・ドリフト」の問題を回避することができる。
あるデザイナーは、"何もないところから創作し、あなたのアイデアに合わせて的確に修正してくれる万能のアシスタントを雇うようなものだ "とコメントしている。

パフォーマンス・データ:自己回帰はSOTAの課題でもある。
権威あるレビューでは、NextStep-1は嬉しい驚きだった:
| ベンチマーク | ネクストステップ-1 パフォーマンス | 意義 |
|---|---|---|
| ジェンエバル | 0.73(セルフCoT使用) | ほとんどの自己回帰モデルを超えて、近似拡散モデル |
| GenAIベンチ | アドバンスド・チップ0.67、ベーシック・チップ0.88 | 複雑なシナリオの理解 |
| DPGベンチ | 85.28点 | 長いキューに対する強い理解力 |
| WISE | 0.54点 | 世界の知識の優れた統合 |
| GEdit-ベンチ | 他の自己回帰モデルを大きくリード | 卓越した画像編集機能 |
さらにエキサイティングだ:NextStep-1は、いくつかのベンチマークテストにおいて、トップクラスの拡散モデルと真っ向から競い合うことができた。これは、自己回帰的なアーキテクチャーにおける前例のないブレークスルーである。

⚠️ 挑戦に立ち向かう:成長への "つまずき"
ステップスター・チームは、このモデルの限界から逃げることなく、4つの主要な課題を率直に挙げた:
1️⃣ 不安定な生成過程
高次元連続空間(16チャンネル)において、生成中に時々発生する:
- 局所的なノイズ/ブロック・アーティファクト
- グローバルノイズ干渉
- グリッドのようなアーティファクト(1次元位置コーディングに関連している可能性がある)
2️ȃ シーケンシャル・デコード・ディレイ
自己回帰モデルの "性質 "は、スピードのボトルネックにつながる:
- 14B パラメーター・トランスの逐次デコードがボトルネックに
- ストリームマッチングヘッダーの多段階サンプリングもオーバーヘッドをもたらす
- H100で1回のトークン生成にかかる時間は約47.6ms
3️⃣ 高解像度への挑戦
- 収束の非効率性:より多くのトレーニングステップが必要
- 困難な輸送拡散モデリングのための高解像度技術
- 2次元空間への誘導バイアスの欠如
4️↪SFT(Supervised Fine Tuning)の難しさ
- 安定した微調整のためには、大規模なデータ(数百万)に依存する
- 小さなデータセットでの脆弱なパフォーマンス:ほとんど成功しないか、完全にオーバーフィットする。
- "一般的なコンピテンシー "と "特定のスタイル "のバランスを見つけることの難しさ
チームは、"これらの課題について正直に話すことが、この分野を前進させる第一歩である "と認めている。


🚀 どのように始めるか?完全オープンソース、ワンクリックで導入
ステップスター・チームは、ネクストステップ-1を結成した。完全なオープンソース非常に研究者や開発者に優しく、インストールに必要なコマンドは3行だけだ:
git clone https://github.com/stepfun-ai/NextStep-1
cd NextStep-1
pip install -r requirements.txtチームはまた、基本的な使い方から高度なカスタマイズまで、さまざまなアプリケーションのシナリオをカバーする詳細なチュートリアルも提供している。
今後の展望:自己回帰的画像生成の新時代
NextStep-1のリリースは、自己回帰画像生成の新たな段階を示すものである:
- 建築的なシンプルさもう複雑なパッチワークは必要ない。
- 効率的なトレーニング多段階最適化における不安定性を回避するためのend-to-endトレーニング
- コンピテンシーの統合生成と編集の両方に精通し、自然言語による指示を理解する。
StepStarのチームが明らかにした今後の方向性:
- ストリーム・マッチング・ヘッダの最適化:パラメータの削減、ステップレス生成の実現
- 加速自己回帰:マルチトークン予測などの新しいテクニックの探求
- 高解像度生成:画像に特化した2次元位置コーディングの開発
- SFTの改善:小規模データに対する効率的な微調整技術
"これは探求の第一歩に過ぎない。この "クリーン "な道は、マルチモーダル発電の分野に新たな視点を与えてくれると信じている。"

一日の終わりに書く。
ネクストステップ-1は新モデル以上のものであり、重要なアイデアを証明するものだ:
シンプルなアーキテクチャでありながら、強力な機能を実現。
最大の模型を作る」ことに固執するのではなく、「模型にいかにして創造物を理解させるか」という本質に立ち返ったとき、AI世代のテクノロジーは新たな飛躍を告げるかもしれない。
「拡散モデルに取って代わるものではなく、画像生成の新しい可能性を提供するものである。-- ステップスター・チーム
AI技術が急速に変化するこの時代に、NextStep-1は私たちに気づかせてくれる:
最も革命的なイノベーションは、根底にあるパラダイムを見直すことからこそ生まれることがある。
関連リンク::
- 論文:https://arxiv.org/abs/2508.10711
- コード・リポジトリ:https://github.com/stepfun-ai/NextStep-1
- モデルのダウンロードhttps://huggingface.co/collections/stepfun-ai/nextstep-1
- プロジェクトのホームページ:https://stepfun.ai/research/en/nextstep1