NextStep-1：自回归图像生成的"终极形态"，14B参数模型开源了！

"Sie braucht keine 'Hilfe von außen' mehr und wächst endlich als unabhängige Künstlerin."

Auf dem Gebiet der KI-Bilderzeugung scheinen wir uns an diese Arbeitsteilung schon lange gewöhnt zu haben:
Diffusion Modelling "zeichnet", CLIP "sieht", VQ-VAE "komprimiert" und LLM "denkt"! "......

Doch heute wird ein neues Produkt namens NextStep-1 das Open-Source-Modell, das versucht, das Paradigma auf den Kopf zu stellen - es verwendet nur dieRein autoregressive Architektur für 14B ParameterDas Ergebnis ist eine Erzeugungsqualität, die mit den besten Diffusionsmodellen mithalten kann, sowie die Fähigkeit, Alltagssprache zu verstehen und Bilder in Echtzeit zu bearbeiten.

Welchen "großen Wurf" hat das StepFun-Team dieses Mal gelandet? Lasst es uns herausfinden.

🎨 Selbsthilfe neu definieren: Verabschiede dich von der "Auslandshilfe" und werde ein echter Künstler!

Autoregressive Modelle sind im Textbereich seit langem unbesiegbar, aber in der Bilderzeugungsschiene seit vielen Jahren "nicht geeignet".
Bisherige Versuche sind meist in zwei Dilemmas verfallen:

das diskrete DilemmaDas Bild muss durch VQ-VAE in eine endliche Anzahl von diskreten Symbolen komprimiert werden, was zu einem Informationsverlust führt.
Abhängigkeit von der AußenhilfeErfordert ein großes Diffusionsmodell als "Decoder", das architektonisch aufgebläht und komplex zu trainieren ist.

NextStep-1's Kern-Durchbruch::

Generierung von Bildfeldern direkt im kontinuierlichen visuellen Raum auf autoregressive Weise

Sie besteht aus zwei Teilen:

Transformator-Backbone mit 14B-ParameternVerantwortlich für das Verständnis des Inhalts, die Planung des Aufbaus und die Kontrolle des Gesamtbildes
Flow Matching Head für den Parameter 157M.Transformer: Verwandelt Ideen in Pixel wie ein "Pinsel".

Diese Architektur bringt revolutionäre Veränderungen mit sich:
✅ Diskretisierung nicht erforderlich: bewahrt den vollen Reichtum der visuellen Daten
✅ Umfassende Ausbildung:: Nicht mehr auf externe Diffusionsmodelle angewiesen, um "den Tag zu retten"
✅ Äußerst saubere ArchitekturEin hohes Maß an Harmonisierung innerhalb des Systems für eine effizientere Ausbildung

Ein Forscher sagte: "Es ist, als würde man seinem eigenen Kind dabei zusehen, wie es endlich in der Lage ist, ein Gemälde alleine zu vollenden, ohne dass ein Elternteil dabei sein muss, um ihm die Hand zu halten".

🔬 Zwei technische "Alchemien": Autoregressive Modelle für Bilder wirklich nutzbar machen

Das Step Star-Team hat in seiner Arbeit, die als "Goldstandard" für die autoregressive Bilderzeugung bezeichnet werden kann, zwei wichtige Erkenntnisse gewonnen:

1️⃣ Der wahre "Künstler" ist Transformer!

Das Team fand dies durch Experimente heraus:Die Größe des Stream-Matching-Kopfes (157M → 528M) hat nur minimale Auswirkungen auf die endgültige Bildqualität..
Das bedeutet:

Transformator-Backbone leistet 90%+ an "kreativer Arbeit"
Stream Match Header fungiert lediglich als leichtgewichtiger "Vollstrecker", der Ideen getreu in Bilder umwandelt.
Autoregressive Modelle können wirklich eigenständig "denken" und "schaffen".

"Dies beweist, dass Transformer nicht nur eine Sprache, sondern auch ein Künstler im visuellen Bereich sein kann." --Forschungsteam

2️⃣ Die zwei wichtigsten "Zaubertricks" von Tokenizer

Bei der kontinuierlichen visuellen Kennzeichnung entdeckte das Team zwei Schlüsseltechniken:

Kanalweise Normalisierung
Die statistischen Eigenschaften der Marker werden durch einfache Normalisierung wirksam stabilisiert. Erzeugt klare Bilder ohne Artefakte, selbst bei höchster Intensität der CFG-Führung.
"Mehr Lärm = bessere Qualität".
Eine kontraintuitive Erkenntnis: Beim Training des TokenizersHinzufügen einer RauschregulierungStattdessen wird die endgültige Bildqualität erheblich verbessert.
Das Team stellte die Hypothese auf, dass dadurch ein robusterer und gleichmäßiger verteilter Potenzialraum entsteht, der eine ideale "Leinwand" für autoregressive Modelle darstellt.

🖼️ Demonstration der Funktionalität: nicht nur erzeugen, sondern "verändern".

NextStep-1 erzeugt nicht nur Bilder "aus dem Nichts", sondern versteht auch menschliche Befehle und bearbeitet sie mit der Präzision eines professionellen Designers.

✅ High Fidelity Bunsenbrenner

Erzeugen Sie detaillierte, gut komponierte Bilder mit einem einzigen Befehl:

"Ein ruhiges Seeufer in der Morgendämmerung, Kiefern spiegeln sich im stillen Wasser, Nebel steigt von der Oberfläche auf, weiches goldenes Licht bricht durch die Berggipfel in der Ferne, hyperrealistische Fotografie". "Ein ruhiges Seeufer in der Morgendämmerung, Kiefern spiegeln sich im stillen Wasser, Nebel steigt von der Oberfläche auf, sanftes goldenes Licht bricht durch die Berggipfel in der Ferne, hyperrealistische Fotografie".

✅ Allround-Bildbearbeitungsprogramm

Hinzufügen und Löschen von Objekten::

"Stellen Sie einen offenen Laptop auf den Couchtisch, neben dem eine dampfende Tasse Kaffee steht."

Änderung des Hintergrunds::

"Ändern Sie den Hintergrund dieses Fotos vom Büro zu einem Sonnenuntergang am Strand".

Änderung des Antrags::

"Lass den Hund auf dem Bild von einer sitzenden in eine springende Position gehen."

Stilmigration::

"Dieses Foto in ein Ölgemälde im Stil Van Goghs umwandeln, wobei alle Charaktere und Details der Szene erhalten bleiben.

Die Ergebnisse in der Praxis sind verblüffend - es versteht nicht nur die Alltagssprache, sondern pflegt auch die Vor- und Nachbearbeitungvisuelle KohärenzDadurch wird das Problem der "Identitätsabweichung" vermieden, das bei herkömmlichen Methoden häufig auftritt.

Ein Designer kommentierte: "Es ist, als würde man einen Allround-Assistenten einstellen, der etwas aus dem Nichts erschafft, es aber auch genau nach den eigenen Vorstellungen verändern kann."

📊 Leistungsdaten: Selbstregression kann auch SOTA herausfordern

Das NextStep-1 hat in maßgeblichen Rezensionen eine angenehme Überraschung dargestellt:

Benchmarks	NextStep-1 Leistung	Bedeutung
GenEval	0,73 (unter Verwendung von self-CoT)	Über die meisten autoregressiven Modelle hinaus, approximieren Diffusionsmodelle
GenAI-Bench	Fortgeschrittene Tipps 0,67, einfache Tipps 0,88	Ausgeprägtes Verständnis für komplexe Szenarien
DPG-Bench	85,28 Punkte	Starkes Verständnis von langen Stichworten
WISE	0,54 Gesamtpunkte	Ausgezeichnete Integration von Weltwissen
GEdit-Bench	Deutlicher Vorsprung vor anderen autoregressiven Modellen	Hervorragende Bildbearbeitungsfunktionen

Noch spannender:NextStep-1 konnte in mehreren Benchmark-Tests mit den besten Diffusionsmodellen mithaltenwas einen beispiellosen Durchbruch in der selbstregressiven Architektur darstellt.

⚠️ Die Herausforderung annehmen: "Stolpersteine" für das Wachstum

Das Step Star-Team hat die Grenzen des Modells nicht verschwiegen und offen vier große Herausforderungen genannt:

1️⃣ Instabiler Erzeugungsprozess

Gelegentliches Auftreten während der Erzeugung im hochdimensionalen kontinuierlichen Raum (16 Kanäle):

Lokales Rauschen/blockierende Artefakte
Globale Lärmstörungen
Rasterartige Artefakte (möglicherweise im Zusammenhang mit der 1D-Positionskodierung)

2️⃣ Sequentielle Dekodierverzögerung

Die "Natur" der autoregressiven Modelle führt zu Geschwindigkeitsengpässen:

14B Parameter Die sequentielle Dekodierung von Transformatoren ist der größte Engpass
Die mehrstufige Abtastung des Stream Matching Headers führt ebenfalls zu Overhead
Die Erzeugung eines einzelnen Tokens dauert beim H100 etwa 47,6 ms.

3️⃣ Hochauflösende Herausforderung

Ineffiziente Konvergenz: mehr Trainingsschritte erforderlich
Hochauflösende Techniken für die schwierige Modellierung von Transport und Diffusion
Fehlende Verzerrung bei der Induktion des 2D-Raums

4️⃣ Schwierigkeiten bei der überwachten Feinabstimmung (SFT)

Abhängig von großen Datenmengen (Millionen) für eine stabile Feinabstimmung
Fragile Leistung bei kleinen Datensätzen: entweder wenig Erfolg oder völlige Überanpassung
Schwierigkeit, ein Gleichgewicht zwischen "überfachlichen Kompetenzen" und "spezifischen Stilen" zu finden

Das Team räumt ein: "Ehrlich über diese Herausforderungen zu sprechen, ist der erste Schritt, um das Feld voranzubringen."

🚀 Wie fängt man an? Vollständig quelloffen, Bereitstellung mit einem Mausklick

Das Step Star-Team hat das NextStep-1 zusammengestelltVollständig quelloffenDas Programm ist extrem forscher- und entwicklerfreundlich, die Installation erfordert nur drei Befehlszeilen:

git clone https://github.com/stepfun-ai/NextStep-1
cd NextStep-1
pip install -r anforderungen.txt

Das Team bietet außerdem detaillierte Anleitungen zu einer Vielzahl von Anwendungsszenarien, von der grundlegenden Nutzung bis hin zu fortgeschrittenen Anpassungen.

🔮 Zukunftsperspektiven: eine neue Ära der autoregressiven Bilderzeugung

Die Veröffentlichung von NextStep-1 markiert eine neue Stufe der autoregressiven Bilderzeugung:

Architektonische EinfachheitKein komplexes Flickwerk mehr, ein einheitliches Modell
Effiziente AusbildungEnd-to-End-Training zur Vermeidung von Instabilität bei mehrstufiger Optimierung
Integration von ZuständigkeitenFachkenntnisse in den Bereichen Erstellung und Bearbeitung, Verständnis natürlichsprachlicher Anweisungen

Die zukünftige Richtung, die das Team von StepStar aufzeigt:

Optimierung der Stream-Matching-Header: Reduzierung der Parameter, Ermöglichung einer stufenlosen Erzeugung
Beschleunigte Autoregression: Erkundung neuer Techniken wie der Multi-Token-Vorhersage
Hochauflösende Erzeugung: Entwicklung einer bildspezifischen 2D-Positionskodierung
Verbesserung der SFT: Effiziente Feinabstimmungstechniken für kleine Daten

"Dies ist nur der erste Schritt in der Erforschung. Wir glauben, dass dieser 'saubere' Weg eine neue Perspektive auf dem Gebiet der multimodalen Erzeugung eröffnen wird."

🌟 Schreiben Sie am Ende des Tages.

Das NextStep-1 ist viel mehr als ein neues Modell, es ist der Beweis für ein wichtiges Konzept:
Einfache Architektur, die gleichzeitig leistungsstarke Funktionen ermöglicht.

Wenn wir nicht mehr davon besessen sind, "das größte Modell zusammenzustellen", sondern uns auf das Wesentliche besinnen, "wie man das Modell dazu bringt, die Schöpfung wirklich zu verstehen", kann die Technologie der KI-Generation einen neuen Sprung einleiten.

"Es ist nicht dazu gedacht, Diffusionsmodelle zu ersetzen, sondern einen neuen möglichen Weg der Bilderzeugung zu eröffnen." -- Step Star Team

In dieser Ära der sich schnell verändernden KI-Technologie erinnert uns NextStep-1 daran:
Manchmal entstehen die revolutionärsten Innovationen gerade dadurch, dass das zugrunde liegende Paradigma überdacht wird.

Verwandte Links::

Dissertation:https://arxiv.org/abs/2508.10711
Code-Repository:https://github.com/stepfun-ai/NextStep-1
Modell-Download:https://huggingface.co/collections/stepfun-ai/nextstep-1
Projekt-Homepage:https://stepfun.ai/research/en/nextstep1

Weitere Produkte finden Sie unter	Siehe mehr unter
ShirtAI - Durchdringende Intelligenz	Das AIGC Big Model: der Beginn einer Ära der doppelten Revolution in Technik und Wissenschaft - Penetrating Intelligence
1:1 Wiederherstellung von Claude und GPT Offizielle Website - AI Cloud Native	Live Match App Global HD Sports Viewing Player (empfohlen) - Blueshirt Technology
Transitdienst auf der Grundlage der offiziellen API - GPTMeta API	Hilfe, kann jemand von Ihnen Tipps geben, wie man Fragen auf GPT stellt? - Wissen
Global Virtual Goods Digital Store - Global SmarTone (Feng Ling Ge)	Wie leistungsfähig ist Claude airtfacts, dass GPT sofort nicht mehr gut riecht? -BeepBeep