NextStep-1: A "forma definitiva" de geração de imagens autoregressivas, modelo paramétrico 14B de código aberto!

"Já não precisa de 'ajuda externa' e está finalmente a crescer como artista independente."

No domínio da geração de imagens por IA, parece que já estamos habituados a esta divisão do trabalho há muito tempo:
A modelação da difusão "desenha", o CLIP "vê", o VQ-VAE "comprime" e o LLM "pensa"! "......

Mas hoje, um novo produto chamado Próxima etapa-1 o modelo de código aberto que está a tentar inverter o paradigma - utiliza apenas oArquitetura autoregressiva pura para parâmetros 14BO resultado é uma qualidade de geração que rivaliza com os modelos de difusão de topo, bem como a capacidade de compreender a linguagem quotidiana e editar imagens em tempo real.

Que "grande jogada" lançou a equipa StepFun desta vez? Vamos descobrir.

🎨 Redefinindo a Auto-Retenção: Diga adeus à "ajuda externa" e seja um artista de verdade!

Os modelos auto-regressivos são há muito invencíveis no domínio do texto, mas no domínio da geração de imagens são "inadequados" há muitos anos.
As tentativas anteriores caíram, na sua maioria, em dois dilemas:

  • o dilema discretoa imagem deve ser comprimida num número finito de símbolos discretos pelo VQ-VAE, o que resulta numa perda de informação
  • Dependência da ajuda externaRequer um modelo de difusão de grandes dimensões como "descodificador", que é arquitetonicamente volumoso e complexo de treinar.

PróximoA descoberta do núcleo do Step-1::

Gerar a imagem Patch diretamente no espaço visual contínuo de uma forma autoregressiva

É composto por duas partes:

  • Espinha dorsal do transformador com parâmetros 14BResponsável pela compreensão do conteúdo, pelo planeamento da composição e pelo controlo da imagem global
  • Cabeça de correspondência de caudal para o parâmetro 157M.Transformer: Transforma ideias em pixéis, como um "pincel"!

Esta arquitetura traz mudanças revolucionárias:
Não há necessidade de discretização: conserva toda a riqueza dos dados visuais
Formação de ponta a ponta:: Deixar de depender de modelos de difusão externos para "salvar o dia"
Arquitetura extremamente limpaUm elevado nível de harmonização em todo o sistema para uma formação mais eficaz

Um investigador exclamou: "É como ver o nosso próprio filho ser finalmente capaz de completar uma pintura sozinho, sem a necessidade de um pai estar por perto para o segurar".

🔬 Duas "alquimias" técnicas: fazer com que os modelos autoregressivos funcionem efetivamente para imagens

A equipa da Step Star revelou duas descobertas fundamentais no seu artigo, que pode ser considerado o "padrão de ouro" para a geração de imagens auto-regressivas:

1️⃣ O verdadeiro "artista" é o Transformer!

A equipa descobriu-o através da experimentação:O tamanho da cabeça de correspondência de fluxos (157M → 528M) tem um efeito mínimo na qualidade da imagem final..
Isso significa que:

  • O backbone do transformador realiza 90%+ de "trabalho criativo"
  • O Stream Match Header actua apenas como um "executor" ligeiro, convertendo fielmente ideias em imagens.
  • Os modelos autoregressivos podem verdadeiramente "pensar" e "criar" por si próprios.

"Isto prova que o Transformer pode ser não só uma linguagem, mas também um artista no domínio visual." -Equipa de investigação

2️⃣ Os dois principais "truques de magia" do Tokenizer

Na operação de etiquetagem visual contínua, a equipa descobriu duas técnicas fundamentais:

  • Normalização em função do canal
    As propriedades estatísticas dos marcadores são efetivamente estabilizadas através de uma simples normalização. Gera imagens nítidas sem artefactos, mesmo sob a orientação CFG de maior intensidade.
  • "Mais ruído = melhor qualidade".
    Uma descoberta contra-intuitiva: ao treinar o TokenizerAdição de regularização de ruídoEm vez disso, melhora significativamente a qualidade da imagem final.
    A equipa formulou a hipótese de que isto forma um espaço potencial mais robusto e uniformemente distribuído, proporcionando uma "tela" ideal para modelos autoregressivos.

🖼️ Demonstração da funcionalidade: não apenas gerar, mas "mudar".

O NextStep-1 não só gera imagens "a partir do nada", como também compreende os comandos humanos e edita-os com a precisão de um designer profissional.

Bico de Bunsen de alta fidelidade

Crie imagens detalhadas e bem compostas com um único comando:

"Um lago sereno ao amanhecer, pinheiros reflectidos em águas paradas, névoa a subir da superfície, luz dourada suave a romper os picos das montanhas ao longe, fotografia hiper-realista". "Um lago sereno ao amanhecer, pinheiros reflectidos em águas paradas, névoa a subir da superfície, luz dourada suave a romper os picos das montanhas ao longe, fotografia hiper-realista"

Editor de imagens versátil

Adição e eliminação de objectos::

"Acrescente um computador portátil aberto na mesa de café com uma chávena de café a ferver ao lado."

Alteração do contexto::

"Mude o fundo desta fotografia do escritório para um pôr do sol na praia."

Modificação de movimentos::

"Faz com que o cão da imagem passe de uma posição sentada para uma posição de salto."

migração de estilos::

"Converta esta fotografia numa pintura a óleo ao estilo de Van Gogh, mantendo todo o carácter e detalhes da cena"

Os resultados no mundo real são surpreendentes - não só compreende a linguagem quotidiana, como também mantém a pré e pós-ediçãocoerência visualEvita o problema do "desvio de identidade", que é comum nos métodos tradicionais.

Um designer comentou: "É como contratar um assistente versátil que pode criar a partir do nada, mas também modificá-lo precisamente de acordo com as suas ideias."

Dados de desempenho: a auto-regressão também pode desafiar a SOTA

Nas revisões autorizadas, o NextStep-1 tem sido uma agradável surpresa:

ReferênciasDesempenho do NextStep-1significado
GenEval0,73 (utilizando o auto-CoT)Para além da maioria dos modelos autoregressivos, a aproximação dos modelos de difusão
GenAI-BenchSugestões avançadas 0,67, sugestões básicas 0,88Forte compreensão de cenários complexos
DPG-Bench85,28 pontosForte compreensão de pistas longas
SÁBIO0,54 pontos totaisExcelente integração do conhecimento do mundo
GEdit-BenchSignificativamente superior a outros modelos autoregressivosExcelentes capacidades de edição de imagem

Ainda mais emocionante:O NextStep-1 foi capaz de competir frente a frente com os principais modelos de difusão em vários testes de referênciao que constitui um avanço sem precedentes na arquitetura auto-regressiva.

⚠️ Enfrentar o desafio: "Obstáculos" ao crescimento

A equipa da Step Star não se coibiu de falar das limitações do modelo e enumerou, com toda a franqueza, quatro grandes desafios:

1️⃣ Processo de geração instável

Ocorrências ocasionais durante a geração num espaço contínuo de alta dimensão (16 canais):

  • Ruído localizado/artefactos de bloqueio
  • interferência de ruído global
  • Artefactos semelhantes a grelhas (possivelmente relacionados com a codificação posicional 1D)

2️⃣ Atraso de descodificação sequencial

A "natureza" dos modelos autoregressivos leva a estrangulamentos de velocidade:

  • 14B A descodificação sequencial do transformador de parâmetros é o principal estrangulamento
  • A amostragem em várias etapas do cabeçalho de correspondência de fluxo também introduz despesas gerais
  • A geração de um único token demora cerca de 47,6 ms no H100

3️⃣ Desafio de alta resolução

  • Ineficiência de convergência: são necessárias mais etapas de formação
  • Técnicas de alta resolução para modelação da difusão de transporte difícil
  • Falta de preconceito de indução de espaço 2D

4️⃣ Dificuldades de sintonização fina supervisionada (SFT)

  • Dependente de dados em grande escala (milhões) para uma afinação estável
  • Desempenho frágil em pequenos conjuntos de dados: ou pouco sucesso ou sobreajuste total
  • Dificuldade em encontrar um equilíbrio entre "competências genéricas" e "estilos específicos"

A equipa admite que "ser honesto em relação a estes desafios é o primeiro passo para fazer avançar o campo".

Como começar? Totalmente de código aberto, implantação com um clique

A equipa da Step Star criou o NextStep-1Totalmente de código abertoA instalação é extremamente simples para investigadores e programadores e requer apenas três linhas de comando:

PHP
git clone https://github.com/stepfun-ai/NextStep-1
cd NextStep-1
pip install -r requirements.txt

A equipa também fornece tutoriais detalhados que abrangem uma variedade de cenários de aplicação, desde a utilização básica até à personalização avançada.

Perspectivas futuras: uma nova era de geração de imagens autoregressivas

O lançamento do NextStep-1 marca uma nova etapa na geração de imagens autoregressivas:

  • Simplicidade arquitetónica: Acabou-se a manta de retalhos complexa, um modelo unificado
  • Formação eficazFormação de ponta a ponta para evitar a instabilidade na otimização em várias fases
  • Integração de competênciasExperiência em geração e edição, compreensão de instruções em linguagem natural

A direção futura revelada pela equipa da StepStar:

  • Otimização dos cabeçalhos de correspondência de fluxos: redução dos parâmetros, permitindo uma geração com menos passos
  • Autoregressão acelerada: exploração de novas técnicas como a previsão multi-Token
  • Geração de alta resolução: desenvolvimento de codificação posicional 2D específica da imagem
  • Melhorar a SFT: técnicas de afinação eficientes para dados pequenos

"Este é apenas o primeiro passo na exploração. Acreditamos que este caminho 'limpo' proporcionará uma nova perspetiva no domínio da geração multimodal".

Escrever ao fim do dia.

O NextStep-1 é muito mais do que um novo modelo; ele prova um conceito importante:
Arquitetura simples que também permite capacidades poderosas.

Quando já não estivermos obcecados em "criar o maior modelo", mas regressarmos à essência de "como fazer com que o modelo compreenda realmente a criação", a tecnologia de geração de IA poderá dar um novo salto.

"Não se destina a substituir os modelos de difusão, mas a fornecer um novo caminho possível para a geração de imagens." -- Equipa Step Star

Nesta era de rápida evolução da tecnologia de IA, o NextStep-1 recorda-nos:
Por vezes, as inovações mais revolucionárias resultam precisamente do facto de se repensar o paradigma subjacente.

Ligações relacionadas::

Para mais produtos, consultar

Ver mais em

ShirtAI - Inteligência penetrante O Grande Modelo do AIGC: inaugurando uma era de dupla revolução na engenharia e na ciência - Penetrating Intelligence
1:1 Restauração de Claude e GPT Site oficial - AI Cloud Native Aplicação de jogos em direto Leitor de visualização de desporto HD global (recomendado) - Blueshirt Technology
Serviço de trânsito baseado na API oficial - API GPTMeta Ajuda, alguém pode dar algumas dicas sobre como fazer perguntas no GPT? - Conhecimento
Loja digital de bens virtuais globais - Global SmarTone (Feng Ling Ge) Quão poderosa é a funcionalidade Claude airtfacts que o GPT instantaneamente não cheira bem? -BeepBeep