NextStep-1: "Предельная форма" авторегрессионной генерации изображений, 14B-параметрическая модель с открытым исходным кодом!

"Она больше не нуждается в помощи со стороны и наконец-то развивается как независимый художник".

В области создания изображений с помощью искусственного интеллекта мы, похоже, уже давно привыкли к такому разделению труда:
Диффузионное моделирование "рисует", CLIP "видит", VQ-VAE "сжимает" и LLM "думает"! "......

Но сегодня появился новый продукт под названием NextStep-1 Модель с открытым исходным кодом, которая пытается перевернуть парадигму с ног на голову - она использует толькоЧистая авторегрессионная архитектура для 14B параметровРезультат - качество генерации, не уступающее лучшим диффузным моделям, а также способность понимать повседневный язык и редактировать изображения на лету.

Какой "большой ход" выпустила команда StepFun на этот раз? Давайте узнаем.

🎨 Переосмысление самоокупаемости: попрощайтесь с "иностранной помощью" и станьте настоящим художником!

Модели авторегрессии давно стали непобедимыми в текстовой области, но в области генерации изображений "не подходят" уже много лет.
Прошлые попытки в основном сводились к двум дилеммам:

  • Дискретная дилемма: изображение должно быть сжато в конечное число дискретных символов с помощью VQ-VAE, что приводит к потере информации
  • Зависимость от внешней помощи: Требуется большая диффузионная модель в качестве "декодера", которая архитектурно раздута и сложна для обучения.

NextStep-1's Core Breakthrough::

Генерируйте изображение Patch непосредственно в непрерывном визуальном пространстве авторегрессионным способом

Он состоит из двух частей:

  • Трансформаторная магистраль с параметрами 14B: Отвечает за понимание содержания, планирование композиции и контроль общей картины.
  • Головка согласования потока для параметра 157M.Трансформатор: превращает идеи в пиксели, как "кисточка".

Эта архитектура несет в себе революционные изменения:
Нет необходимости в дискретизации: сохраняет все богатство визуальных данных
Комплексное обучение:: Больше не нужно полагаться на внешние модели диффузии, чтобы "спасти положение"
Исключительно чистая архитектура: Высокий уровень гармонизации системы для более эффективного обучения

Один из исследователей воскликнул: "Это как наблюдать за тем, как ваш собственный ребенок наконец-то может самостоятельно закончить картину, без необходимости присутствия рядом родителя, чтобы поддержать его".

🔬 Две технические "алхимии": заставить модели авторегрессии действительно работать для изображений

Команда Step Star раскрыла два ключевых вывода в своей работе, которую можно назвать "золотым стандартом" для авторегрессионной генерации изображений:

1️⃣ Настоящий "художник" - это Трансформер!

Команда выяснила это путем экспериментов:Размер головки согласования потоков (157M → 528M) оказывает минимальное влияние на качество конечного изображения..
Это значит:

  • Трансформаторная магистраль выполняет 90%+ "творческой работы"
  • Stream Match Header выступает лишь в роли легкого "принудителя", добросовестно преобразующего идеи в изображения.
  • Модели авторегрессии действительно могут "думать" и "творить" самостоятельно.

"Это доказывает, что трансформер может быть не только языком, но и художником в визуальной области". -Исследовательская группа

2️⃣ Два основных "волшебных трюка" Tokenizer.

В процессе непрерывной визуальной маркировки команда обнаружила два ключевых метода:

  • Нормализация по каналам
    Статистические свойства маркеров эффективно стабилизируются простой нормализацией. Генерирует четкие изображения без артефактов даже при высокой интенсивности CFG-наведения.
  • "Больше шума = лучше качество".
    Противоположный интуитивный вывод: при обучении ТокенизатораДобавление регуляризации шумаВместо этого он значительно улучшает качество конечного изображения.
    Команда выдвинула гипотезу, что это формирует более надежное и равномерно распределенное потенциальное пространство, обеспечивая идеальный "холст" для моделей авторегрессии.

🖼️ Демонстрация функциональности: не просто генерировать, а "изменять".

NextStep-1 не только генерирует изображения "из ничего", но и понимает команды человека и редактирует их с точностью профессионального дизайнера.

✅ Высококачественная горелка Бунзена

Создавайте детализированные, хорошо скомпонованные изображения с помощью одной команды:

"Безмятежный берег озера на рассвете, сосны отражаются в неподвижной воде, туман поднимается с поверхности, мягкий золотой свет пробивается через горные вершины вдали, гиперреалистичная фотография". "Безмятежный берег озера на рассвете, сосны отражаются в неподвижной воде, туман поднимается с поверхности, мягкий золотой свет пробивается через горные вершины вдали, гиперреалистичная фотография".

✅ Универсальный редактор изображений

Добавление и удаление объектов::

"Добавьте открытый ноутбук на журнальный столик, рядом с которым стоит чашка дымящегося кофе".

Модификация фона::

"Измените фон этой фотографии с офисного на пляжный закат".

Изменение движения::

"Заставьте собаку на картинке перейти из положения сидя в положение прыжка".

миграция стиля::

"Превратите эту фотографию в картину маслом в стиле Ван Гога, сохранив все персонажи и детали сцены".

Реальные результаты поражают - он не только понимает повседневный язык, но и поддерживает предварительное и последующее редактирование.визуальная когерентностьЭто позволяет избежать проблемы "дрейфа идентичности", характерной для традиционных методов.

Один из дизайнеров сказал: "Это как нанять универсального помощника, который может создать что-то из воздуха, а также изменить это в точном соответствии с вашими идеями".

📊 Данные о производительности: саморегрессия также может стать проблемой для SOTA

В авторитетных обзорах NextStep-1 приятно удивил:

БенчмаркиNextStep-1 Performanceзначение
GenEval0,73 (с использованием self-CoT)В отличие от большинства моделей авторегрессии, аппроксимирующие модели диффузии
GenAI-BenchПродвинутые советы 0,67, базовые советы 0,88Глубокое понимание сложных сценариев
DPG-Bench85,28 баллаСильное понимание длинных подсказок
WISE0,54 баллаОтличная интеграция знаний о мире
GEdit-BenchЗначительно опережает другие модели авторегрессииВыдающиеся возможности редактирования изображений

Еще интереснее:NextStep-1 смог сравниться с лучшими диффузионными моделями в нескольких эталонных тестахчто является беспрецедентным прорывом в области саморегрессирующей архитектуры.

⚠️ Перед лицом вызова: "камни преткновения" на пути к росту

Команда Step Star не стала скрывать недостатки модели и откровенно перечислила четыре основные проблемы:

1️⃣ Нестабильный процесс генерации

Случайные появления во время генерации в высокоразмерном непрерывном пространстве (16 каналов):

  • Локальный шум/блокирующие артефакты
  • глобальные шумовые помехи
  • Артефакты, похожие на сетку (возможно, связанные с позиционным кодированием 1D)

2️⃣ Задержка последовательного декодирования

"Природа" моделей авторегрессии приводит к узким местам в скорости:

  • 14B Последовательное декодирование трансформатора параметров является основным узким местом
  • Многоступенчатая выборка заголовков для согласования потоков также приводит к накладным расходам
  • Генерация одного токена занимает около 47,6 мс на H100

3️⃣ Вызов высокого разрешения

  • Неэффективность конвергенции: необходимо больше шагов обучения
  • Методы высокого разрешения для моделирования сложной транспортной диффузии
  • Отсутствие индукционной предвзятости 2D-пространства

4️⃣ Трудности с контролируемой тонкой настройкой (SFT)

  • Зависимость от больших объемов данных (миллионы) для стабильной тонкой настройки
  • Неустойчивая производительность на небольших наборах данных: либо незначительный успех, либо полная перегрузка
  • Трудность в поиске баланса между "общими компетенциями" и "конкретными стилями"

Команда признает: "Честное признание этих проблем - первый шаг к продвижению в этой области".

🚀 Как начать? Полностью открытый исходный код, развертывание одним щелчком мыши

Команда Step Star собрала NextStep-1Полностью открытый исходный кодУстановка требует всего трех командных строк, что очень удобно для исследователей и разработчиков:

PHP
git clone https://github.com/stepfun-ai/NextStep-1
cd NextStep-1
pip install -r requirements.txt

Команда также предоставляет подробные руководства, охватывающие различные сценарии применения - от базового использования до продвинутой настройки.

🔮 Перспективы будущего: новая эра авторегрессионной генерации изображений

Выпуск NextStep-1 знаменует собой новый этап в создании изображений с авторегрессией:

  • Архитектурная простота: Больше никаких сложных лоскутов, одна унифицированная модель
  • Эффективное обучение: сквозное обучение для предотвращения нестабильности при многоступенчатой оптимизации
  • Интеграция компетенций: Опыт создания и редактирования, понимание инструкций на естественном языке

Будущее направление, раскрытое командой StepStar:

  • Оптимизация заголовков потокового согласования: уменьшение параметров, создание меньшего количества шагов
  • Ускоренная авторегрессия: изучение новых методов, таких как многоточечное прогнозирование
  • Генерация с высоким разрешением: разработка позиционного 2D-кодирования с учетом специфики изображения
  • Улучшение SFT: эффективные методы точной настройки для малых данных

"Это только первый шаг в исследовании. Мы верим, что этот "чистый" путь позволит по-новому взглянуть на область мультимодальной генерации".

🌟 Пишите в конце дня.

NextStep-1 - это не просто новая модель, это доказательство важной концепции:
Простая архитектура, обеспечивающая мощные возможности.

Когда мы перестанем быть одержимыми идеей "собрать самую большую модель", а вернемся к сути "как сделать так, чтобы модель действительно понимала творение", технология поколения ИИ может стать началом нового скачка.

"Она не предназначена для замены диффузионных моделей, но предоставляет новый возможный путь для создания изображений". -- Step Star Team

В эпоху быстро меняющихся технологий ИИ компания NextStep-1 напоминает нам об этом:
Иногда самые революционные инновации появляются именно благодаря переосмыслению основной парадигмы.

Похожие ссылки::

Для получения дополнительной продукции, пожалуйста, ознакомьтесь с

См. подробнее

ShirtAI - проникающий интеллект Большая модель AIGC: начало эры двойной революции в инженерном деле и науке - Проникающая разведка
1:1 Восстановление Клода и GPT Официальный сайт - AI Cloud Native Приложение для просмотра прямых трансляций матчей Global HD Sports Viewing Player (рекомендуется) - Blueshirt Technology
Транзитный сервис на основе официального API - GPTMeta API Помогите, может ли кто-нибудь из вас дать несколько советов о том, как задавать вопросы в GPT? - знание
Глобальный цифровой магазин виртуальных товаров - Global SmarTone (Feng Ling Ge) Насколько мощной является функция Claude airtfacts, что GPT мгновенно перестает хорошо пахнуть? -BeepBeep