"Sie braucht keine 'Hilfe von außen' mehr und wächst endlich als unabhängige Künstlerin."
Auf dem Gebiet der KI-Bilderzeugung scheinen wir uns an diese Arbeitsteilung schon lange gewöhnt zu haben:
Diffusion Modelling "zeichnet", CLIP "sieht", VQ-VAE "komprimiert" und LLM "denkt"! "......
Doch heute wird ein neues Produkt namens NextStep-1 das Open-Source-Modell, das versucht, das Paradigma auf den Kopf zu stellen - es verwendet nur dieRein autoregressive Architektur für 14B ParameterDas Ergebnis ist eine Erzeugungsqualität, die mit den besten Diffusionsmodellen mithalten kann, sowie die Fähigkeit, Alltagssprache zu verstehen und Bilder in Echtzeit zu bearbeiten.
Welchen "großen Wurf" hat das StepFun-Team dieses Mal gelandet? Lasst es uns herausfinden.

🎨 Selbsthilfe neu definieren: Verabschiede dich von der "Auslandshilfe" und werde ein echter Künstler!
Autoregressive Modelle sind im Textbereich seit langem unbesiegbar, aber in der Bilderzeugungsschiene seit vielen Jahren "nicht geeignet".
Bisherige Versuche sind meist in zwei Dilemmas verfallen:
- das diskrete DilemmaDas Bild muss durch VQ-VAE in eine endliche Anzahl von diskreten Symbolen komprimiert werden, was zu einem Informationsverlust führt.
- Abhängigkeit von der AußenhilfeErfordert ein großes Diffusionsmodell als "Decoder", das architektonisch aufgebläht und komplex zu trainieren ist.
NextStep-1's Kern-Durchbruch::
Generierung von Bildfeldern direkt im kontinuierlichen visuellen Raum auf autoregressive Weise
Sie besteht aus zwei Teilen:
- Transformator-Backbone mit 14B-ParameternVerantwortlich für das Verständnis des Inhalts, die Planung des Aufbaus und die Kontrolle des Gesamtbildes
- Flow Matching Head für den Parameter 157M.Transformer: Verwandelt Ideen in Pixel wie ein "Pinsel".
Diese Architektur bringt revolutionäre Veränderungen mit sich:
✅ Diskretisierung nicht erforderlich: bewahrt den vollen Reichtum der visuellen Daten
✅ Umfassende Ausbildung:: Nicht mehr auf externe Diffusionsmodelle angewiesen, um "den Tag zu retten"
✅ Äußerst saubere ArchitekturEin hohes Maß an Harmonisierung innerhalb des Systems für eine effizientere Ausbildung
Ein Forscher sagte: "Es ist, als würde man seinem eigenen Kind dabei zusehen, wie es endlich in der Lage ist, ein Gemälde alleine zu vollenden, ohne dass ein Elternteil dabei sein muss, um ihm die Hand zu halten".

🔬 Zwei technische "Alchemien": Autoregressive Modelle für Bilder wirklich nutzbar machen
Das Step Star-Team hat in seiner Arbeit, die als "Goldstandard" für die autoregressive Bilderzeugung bezeichnet werden kann, zwei wichtige Erkenntnisse gewonnen:
1️⃣ Der wahre "Künstler" ist Transformer!
Das Team fand dies durch Experimente heraus:Die Größe des Stream-Matching-Kopfes (157M → 528M) hat nur minimale Auswirkungen auf die endgültige Bildqualität..
Das bedeutet:
- Transformator-Backbone leistet 90%+ an "kreativer Arbeit"
- Stream Match Header fungiert lediglich als leichtgewichtiger "Vollstrecker", der Ideen getreu in Bilder umwandelt.
- Autoregressive Modelle können wirklich eigenständig "denken" und "schaffen".
"Dies beweist, dass Transformer nicht nur eine Sprache, sondern auch ein Künstler im visuellen Bereich sein kann." --Forschungsteam
2️⃣ Die zwei wichtigsten "Zaubertricks" von Tokenizer
Bei der kontinuierlichen visuellen Kennzeichnung entdeckte das Team zwei Schlüsseltechniken:
- Kanalweise Normalisierung
Die statistischen Eigenschaften der Marker werden durch einfache Normalisierung wirksam stabilisiert. Erzeugt klare Bilder ohne Artefakte, selbst bei höchster Intensität der CFG-Führung. - "Mehr Lärm = bessere Qualität".
Eine kontraintuitive Erkenntnis: Beim Training des TokenizersHinzufügen einer RauschregulierungStattdessen wird die endgültige Bildqualität erheblich verbessert.
Das Team stellte die Hypothese auf, dass dadurch ein robusterer und gleichmäßiger verteilter Potenzialraum entsteht, der eine ideale "Leinwand" für autoregressive Modelle darstellt.

🖼️ Demonstration der Funktionalität: nicht nur erzeugen, sondern "verändern".
NextStep-1 erzeugt nicht nur Bilder "aus dem Nichts", sondern versteht auch menschliche Befehle und bearbeitet sie mit der Präzision eines professionellen Designers.
✅ High Fidelity Bunsenbrenner
Erzeugen Sie detaillierte, gut komponierte Bilder mit einem einzigen Befehl:
"Ein ruhiges Seeufer in der Morgendämmerung, Kiefern spiegeln sich im stillen Wasser, Nebel steigt von der Oberfläche auf, weiches goldenes Licht bricht durch die Berggipfel in der Ferne, hyperrealistische Fotografie". "Ein ruhiges Seeufer in der Morgendämmerung, Kiefern spiegeln sich im stillen Wasser, Nebel steigt von der Oberfläche auf, sanftes goldenes Licht bricht durch die Berggipfel in der Ferne, hyperrealistische Fotografie".
✅ Allround-Bildbearbeitungsprogramm
Hinzufügen und Löschen von Objekten::
"Stellen Sie einen offenen Laptop auf den Couchtisch, neben dem eine dampfende Tasse Kaffee steht."
Änderung des Hintergrunds::
"Ändern Sie den Hintergrund dieses Fotos vom Büro zu einem Sonnenuntergang am Strand".
Änderung des Antrags::
"Lass den Hund auf dem Bild von einer sitzenden in eine springende Position gehen."
Stilmigration::
"Dieses Foto in ein Ölgemälde im Stil Van Goghs umwandeln, wobei alle Charaktere und Details der Szene erhalten bleiben.
Die Ergebnisse in der Praxis sind verblüffend - es versteht nicht nur die Alltagssprache, sondern pflegt auch die Vor- und Nachbearbeitungvisuelle KohärenzDadurch wird das Problem der "Identitätsabweichung" vermieden, das bei herkömmlichen Methoden häufig auftritt.
Ein Designer kommentierte: "Es ist, als würde man einen Allround-Assistenten einstellen, der etwas aus dem Nichts erschafft, es aber auch genau nach den eigenen Vorstellungen verändern kann."

📊 Leistungsdaten: Selbstregression kann auch SOTA herausfordern
Das NextStep-1 hat in maßgeblichen Rezensionen eine angenehme Überraschung dargestellt:
| Benchmarks | NextStep-1 Leistung | Bedeutung |
|---|---|---|
| GenEval | 0,73 (unter Verwendung von self-CoT) | Über die meisten autoregressiven Modelle hinaus, approximieren Diffusionsmodelle |
| GenAI-Bench | Fortgeschrittene Tipps 0,67, einfache Tipps 0,88 | Ausgeprägtes Verständnis für komplexe Szenarien |
| DPG-Bench | 85,28 Punkte | Starkes Verständnis von langen Stichworten |
| WISE | 0,54 Gesamtpunkte | Ausgezeichnete Integration von Weltwissen |
| GEdit-Bench | Deutlicher Vorsprung vor anderen autoregressiven Modellen | Hervorragende Bildbearbeitungsfunktionen |
Noch spannender:NextStep-1 konnte in mehreren Benchmark-Tests mit den besten Diffusionsmodellen mithaltenwas einen beispiellosen Durchbruch in der selbstregressiven Architektur darstellt.

⚠️ Die Herausforderung annehmen: "Stolpersteine" für das Wachstum
Das Step Star-Team hat die Grenzen des Modells nicht verschwiegen und offen vier große Herausforderungen genannt:
1️⃣ Instabiler Erzeugungsprozess
Gelegentliches Auftreten während der Erzeugung im hochdimensionalen kontinuierlichen Raum (16 Kanäle):
- Lokales Rauschen/blockierende Artefakte
- Globale Lärmstörungen
- Rasterartige Artefakte (möglicherweise im Zusammenhang mit der 1D-Positionskodierung)
2️⃣ Sequentielle Dekodierverzögerung
Die "Natur" der autoregressiven Modelle führt zu Geschwindigkeitsengpässen:
- 14B Parameter Die sequentielle Dekodierung von Transformatoren ist der größte Engpass
- Die mehrstufige Abtastung des Stream Matching Headers führt ebenfalls zu Overhead
- Die Erzeugung eines einzelnen Tokens dauert beim H100 etwa 47,6 ms.
3️⃣ Hochauflösende Herausforderung
- Ineffiziente Konvergenz: mehr Trainingsschritte erforderlich
- Hochauflösende Techniken für die schwierige Modellierung von Transport und Diffusion
- Fehlende Verzerrung bei der Induktion des 2D-Raums
4️⃣ Schwierigkeiten bei der überwachten Feinabstimmung (SFT)
- Abhängig von großen Datenmengen (Millionen) für eine stabile Feinabstimmung
- Fragile Leistung bei kleinen Datensätzen: entweder wenig Erfolg oder völlige Überanpassung
- Schwierigkeit, ein Gleichgewicht zwischen "überfachlichen Kompetenzen" und "spezifischen Stilen" zu finden
Das Team räumt ein: "Ehrlich über diese Herausforderungen zu sprechen, ist der erste Schritt, um das Feld voranzubringen."


🚀 Wie fängt man an? Vollständig quelloffen, Bereitstellung mit einem Mausklick
Das Step Star-Team hat das NextStep-1 zusammengestelltVollständig quelloffenDas Programm ist extrem forscher- und entwicklerfreundlich, die Installation erfordert nur drei Befehlszeilen:
git clone https://github.com/stepfun-ai/NextStep-1
cd NextStep-1
pip install -r anforderungen.txtDas Team bietet außerdem detaillierte Anleitungen zu einer Vielzahl von Anwendungsszenarien, von der grundlegenden Nutzung bis hin zu fortgeschrittenen Anpassungen.
🔮 Zukunftsperspektiven: eine neue Ära der autoregressiven Bilderzeugung
Die Veröffentlichung von NextStep-1 markiert eine neue Stufe der autoregressiven Bilderzeugung:
- Architektonische EinfachheitKein komplexes Flickwerk mehr, ein einheitliches Modell
- Effiziente AusbildungEnd-to-End-Training zur Vermeidung von Instabilität bei mehrstufiger Optimierung
- Integration von ZuständigkeitenFachkenntnisse in den Bereichen Erstellung und Bearbeitung, Verständnis natürlichsprachlicher Anweisungen
Die zukünftige Richtung, die das Team von StepStar aufzeigt:
- Optimierung der Stream-Matching-Header: Reduzierung der Parameter, Ermöglichung einer stufenlosen Erzeugung
- Beschleunigte Autoregression: Erkundung neuer Techniken wie der Multi-Token-Vorhersage
- Hochauflösende Erzeugung: Entwicklung einer bildspezifischen 2D-Positionskodierung
- Verbesserung der SFT: Effiziente Feinabstimmungstechniken für kleine Daten
"Dies ist nur der erste Schritt in der Erforschung. Wir glauben, dass dieser 'saubere' Weg eine neue Perspektive auf dem Gebiet der multimodalen Erzeugung eröffnen wird."

🌟 Schreiben Sie am Ende des Tages.
Das NextStep-1 ist viel mehr als ein neues Modell, es ist der Beweis für ein wichtiges Konzept:
Einfache Architektur, die gleichzeitig leistungsstarke Funktionen ermöglicht.
Wenn wir nicht mehr davon besessen sind, "das größte Modell zusammenzustellen", sondern uns auf das Wesentliche besinnen, "wie man das Modell dazu bringt, die Schöpfung wirklich zu verstehen", kann die Technologie der KI-Generation einen neuen Sprung einleiten.
"Es ist nicht dazu gedacht, Diffusionsmodelle zu ersetzen, sondern einen neuen möglichen Weg der Bilderzeugung zu eröffnen." -- Step Star Team
In dieser Ära der sich schnell verändernden KI-Technologie erinnert uns NextStep-1 daran:
Manchmal entstehen die revolutionärsten Innovationen gerade dadurch, dass das zugrunde liegende Paradigma überdacht wird.
Verwandte Links::
- Dissertation:https://arxiv.org/abs/2508.10711
- Code-Repository:https://github.com/stepfun-ai/NextStep-1
- Modell-Download:https://huggingface.co/collections/stepfun-ai/nextstep-1
- Projekt-Homepage:https://stepfun.ai/research/en/nextstep1