NextStep-1: La "forma definitiva" de generación autorregresiva de imágenes, modelo paramétrico 14B ¡Código abierto!

"Ya no necesita 'ayuda externa' y por fin está creciendo como artista independiente".

En el campo de la generación de imágenes por IA, parece que llevamos mucho tiempo acostumbrados a esta división del trabajo:
Diffusion Modelling ¡"dibuja", CLIP "ve", VQ-VAE "comprime" y LLM "piensa"! "......

Pero hoy, un nuevo producto llamado SiguientePaso-1 el modelo de código abierto que trata de dar la vuelta al paradigma: sólo utiliza elArquitectura autorregresiva pura para 14B parámetrosEl resultado es una calidad de generación que rivaliza con los mejores modelos de difusión, así como la capacidad de comprender el lenguaje cotidiano y editar imágenes sobre la marcha.

¿Qué "gran movimiento" ha lanzado esta vez el equipo de StepFun? Averigüémoslo.

🎨 Redefinir el retorno propio: ¡Di adiós a la "ayuda exterior" y sé un artista de verdad!

Los modelos autorregresivos han sido invencibles durante mucho tiempo en el ámbito del texto, pero en el de la generación de imágenes "no son adecuados" desde hace muchos años.
La mayoría de los intentos anteriores han caído en dos dilemas:

  • el dilema discretola imagen debe comprimirse en un número finito de símbolos discretos mediante VQ-VAE, lo que supone una pérdida de información
  • Dependencia de la ayuda exteriorRequiere un gran modelo de difusión como "descodificador", que es arquitectónicamente voluminoso y complejo de entrenar.

SiguienteEl gran avance de Step-1::

Generar parches de imagen directamente en el espacio visual continuo de forma autorregresiva

Consta de dos partes:

  • Transformador troncal con parámetros 14BResponsable de la comprensión del contenido, la planificación de la composición y el control de la imagen general.
  • Cabezal de adaptación de caudal para el parámetro 157M.Transformer: ¡Transforma las ideas en píxeles, como un "pincel"!

Esta arquitectura aporta cambios revolucionarios:
Sin necesidad de discretización: conserva toda la riqueza de los datos visuales
Formación integral:: Ya no hay que depender de modelos de difusión externos para "salvar el día"
Arquitectura extremadamente limpiaAlto nivel de armonización en todo el sistema para una formación más eficaz

Un investigador exclamó: "Es como ver a tu propio hijo ser capaz por fin de completar un cuadro por sí mismo, sin necesidad de que un padre esté cerca para llevarle de la mano."

🔬 Dos "alquimias" técnicas: hacer que los modelos autorregresivos funcionen de verdad para las imágenes

El equipo de Step Star reveló dos hallazgos clave en su artículo, que puede considerarse el "patrón oro" de la generación autorregresiva de imágenes:

1️⃣ ¡El verdadero "artista" es Transformer!

El equipo lo descubrió mediante la experimentación:El tamaño del cabezal de correspondencia de flujos (157M → 528M) tiene un efecto mínimo en la calidad final de la imagen..
Es decir:

  • La columna vertebral del transformador realiza 90%+ de "trabajo creativo"
  • Stream Match Header actúa sólo como un ligero "ejecutor", convirtiendo fielmente las ideas en imágenes.
  • Los modelos autorregresivos pueden realmente "pensar" y "crear" por sí mismos.

"Esto demuestra que Transformer no sólo puede ser un lenguaje, sino también un artista en el campo visual". --Equipo de investigación

2️⃣ Los dos principales "trucos de magia" de Tokenizer

En la operación de etiquetado visual continuo, el equipo descubrió dos técnicas clave:

  • Normalización por canales
    Las propiedades estadísticas de los marcadores se estabilizan eficazmente mediante una sencilla normalización. Genera imágenes nítidas sin artefactos incluso bajo la guía CFG de mayor intensidad.
  • "Más ruido = mejor calidad".
    Un hallazgo contraintuitivo: cuando se entrena el TokenizerRegularización del ruidoEn cambio, mejora significativamente la calidad de la imagen final.
    El equipo planteó la hipótesis de que esto da forma a un espacio potencial más sólido y uniformemente distribuido, proporcionando un "lienzo" ideal para los modelos autorregresivos.

🖼️ Demostración de funcionalidad: no sólo generar, sino "cambiar".

NextStep-1 no sólo genera imágenes "de la nada", sino que también entiende las órdenes humanas y las edita con la precisión de un diseñador profesional.

✅ Mechero Bunsen de alta fidelidad

Genere imágenes detalladas y bien compuestas con un solo comando:

"Una serena orilla de lago al amanecer, pinos reflejados en aguas tranquilas, niebla surgiendo de la superficie, suave luz dorada abriéndose paso entre los picos de las montañas en la distancia, fotografía hiperrealista". "Una serena orilla de un lago al amanecer, pinos reflejados en el agua en calma, niebla que se eleva desde la superficie, suave luz dorada que se abre paso a través de los picos de las montañas en la distancia, fotografía hiperrealista".

Editor de imágenes polivalente

Adición y supresión de objetos::

"Añade un portátil abierto en la mesita con una taza de café humeante al lado".

Modificación de fondo::

"Cambia el fondo de esta foto de la oficina a una puesta de sol en la playa".

Modificación de la moción::

"Haz que el perro de la imagen pase de la posición sentada a la de salto".

migración de estilos::

"Convierte esta foto en una pintura al óleo al estilo Van Gogh, conservando todo el carácter y los detalles de la escena"

Los resultados en el mundo real son asombrosos: no sólo entiende el lenguaje cotidiano, sino que mantiene la preedición y la postedición.coherencia visualAsí se evita el problema de la "deriva de identidad", habitual en los métodos tradicionales.

Un diseñador comentó: "Es como contratar a un asistente polifacético que puede crear de la nada, pero también modificarlo con precisión según tus ideas".

📊 Datos de rendimiento: la autorregresión también puede desafiar al SOTA

En las reseñas autorizadas, el NextStep-1 ha sido una agradable sorpresa:

Puntos de referenciaSiguientePaso-1 Rendimientosignificado
GenEval0,73 (utilizando auto-CoT)Más allá de la mayoría de los modelos autorregresivos, la aproximación de los modelos de difusión
GenAI-BenchConsejos avanzados 0,67, consejos básicos 0,88Gran comprensión de situaciones complejas
DPG-Bench85,28 puntosBuena comprensión de las señales largas
WISE0,54 puntos en totalExcelente integración del conocimiento del mundo
GEdit-BenchSignificativamente por delante de otros modelos autorregresivosExcelentes funciones de edición de imágenes

Aún más emocionante:NextStep-1 ha sido capaz de competir de tú a tú con los mejores modelos de difusión en varias pruebas de referenciaque supone un avance sin precedentes en la arquitectura autorregresiva.

⚠️ Afrontar el reto: "escollos" para el crecimiento

El equipo de Step Star no rehuyó las limitaciones del modelo y enumeró con franqueza cuatro grandes retos:

1️⃣ Proceso de generación inestable

Ocurrencias ocasionales durante la generación en un espacio continuo de alta dimensión (16 canales):

  • Ruido localizado/obstrucción de artefactos
  • interferencia sonora global
  • Artefactos tipo cuadrícula (posiblemente relacionados con la codificación posicional 1D)

2️⃣ Retardo de descodificación secuencial

La "naturaleza" de los modelos autorregresivos provoca cuellos de botella en la velocidad:

  • 14B La descodificación secuencial del transformador de parámetros es el principal cuello de botella
  • El muestreo en varios pasos de la cabecera de concordancia del flujo también introduce sobrecargas
  • La generación de una sola ficha tarda unos 47,6 ms en el H100.

3️⃣ Desafío de alta resolución

  • Ineficacia de la convergencia: se necesitan más pasos de formación
  • Técnicas de alta resolución para la difícil modelización de la difusión del transporte
  • Falta de sesgo de inducción del espacio 2D

4️⃣ Dificultades del Ajuste Fino Supervisado (SFT)

  • Depende de datos a gran escala (millones) para un ajuste fino estable
  • Rendimiento frágil en conjuntos de datos pequeños: poco éxito o sobreajuste completo
  • Dificultad para encontrar un equilibrio entre "competencias genéricas" y "estilos específicos".

El equipo admite: "Ser honestos sobre estos retos es el primer paso para hacer avanzar el campo".

🚀 ¿Cómo empezar? Totalmente de código abierto, despliegue con un solo clic

El equipo de Step Star ha creado el NextStep-1Código totalmente abierto, extremadamente fácil de usar para investigadores y desarrolladores, la instalación sólo requiere tres líneas de comando:

PHP
git clone https://github.com/stepfun-ai/NextStep-1
cd NextStep-1
pip install -r requisitos.txt

El equipo también ofrece tutoriales detallados que cubren diversos escenarios de aplicación, desde el uso básico hasta la personalización avanzada.

🔮 Perspectivas de futuro: una nueva era de generación autorregresiva de imágenes

El lanzamiento de NextStep-1 marca una nueva etapa en la generación autorregresiva de imágenes:

  • Simplicidad arquitectónica: No más mosaicos complejos, un modelo unificado
  • Formación eficazFormación de extremo a extremo para evitar la inestabilidad en la optimización multietapa
  • Integración de competencias: Experiencia tanto en generación como en edición, comprensión de instrucciones en lenguaje natural

La dirección futura revelada por el equipo de StepStar:

  • Optimización de las cabeceras de concordancia de flujos: reducción de parámetros y generación sin etapas
  • Autoregresión acelerada: exploración de nuevas técnicas como la predicción multitoken
  • Generación de alta resolución: desarrollo de la codificación posicional 2D específica de la imagen
  • Mejora de la SFT: técnicas eficientes de ajuste fino para datos pequeños

"Éste es sólo el primer paso en la exploración. Creemos que esta vía 'limpia' aportará una nueva perspectiva al campo de la generación multimodal."

🌟 Escribe al final del día.

El NextStep-1 es mucho más que un nuevo modelo: demuestra un concepto importante:
Arquitectura sencilla que también permite potentes funciones.

Cuando ya no estemos obsesionados con "montar el modelo más grande", sino que volvamos a la esencia de "cómo hacer que el modelo entienda realmente la creación", la tecnología de generación de IA puede marcar el comienzo de un nuevo salto.

"No pretende sustituir a los modelos de difusión, sino ofrecer una nueva vía posible para la generación de imágenes". -- Equipo de Step Star

En esta era de rápida evolución de la tecnología de IA, NextStep-1 nos recuerda:
A veces, las innovaciones más revolucionarias proceden precisamente de replantearse el paradigma subyacente.

Enlaces relacionados::

Para más productos, visite

Más información en

ShirtAI - Inteligencia penetrante El Gran Modelo AIGC: el comienzo de una era de doble revolución en ingeniería y ciencia - Inteligencia Penetrante
Restauración 1:1 de Claude y GPT Sitio web oficial - AI Cloud Native Live Match App Global HD Sports Viewing Player (Recomendada) - Blueshirt Technology
Servicio de tránsito basado en la API oficial - GPTMeta API Ayuda, ¿alguien de ustedes puede proporcionar algunos consejos sobre cómo hacer preguntas en GPT? - Conocimientos
Tienda digital global de bienes virtuales - Global SmarTone (Feng Ling Ge) ¿Qué tan poderoso es Claude airtfacts característica que GPT al instante no huele bien? -BeepBeep