NextStep-1：自回归图像生成的"终极形态"，14B参数模型开源了！

“它不再需要’外援’，终于成长为独立艺术家。”

在AI图像生成领域，我们似乎早已习惯这样的分工：
扩散模型负责”画画”，CLIP负责”看画”，VQ-VAE负责”压缩”，LLM负责”思考”……

但今天，一款名为 NextStep-1 的开源模型，正试图颠覆这一范式——它仅用14B参数的纯自回归架构，就实现了与顶尖扩散模型相媲美的生成质量，还能听懂日常语言、随心所欲地编辑图像。

阶跃星辰(StepFun)团队这次放出了什么”大招”？让我们一探究竟。

🎨 重新定义自回归：告别”外援”，做真正的艺术家

自回归模型在文本领域早已所向披靡，却在图像生成赛道”水土不服”多年。
过去尝试大多陷入两种困境：

离散化困境：必须通过VQ-VAE将图像压缩成有限的离散符号，造成信息损失
外援依赖：需要庞大的扩散模型作为”解码器”，架构臃肿且训练复杂

NextStep-1的核心突破：

直接在连续的视觉空间中，以自回归方式生成图像Patch

它由两部分组成：

14B参数的Transformer骨干：负责理解内容、规划构图、掌控全局
157M参数的流匹配头(Flow Matching Head)：像”画笔”一样，将Transformer的创意转化为具体像素

这种架构带来的革命性变化：
✅ 无需离散化：保留了视觉数据的全部丰富性
✅ 端到端训练：不再依赖外部扩散模型”救场”
✅ 架构极度简洁：整个系统高度统一，训练更高效

一位研究者感叹：”这就像看着自家孩子终于能独立完成一幅画，不需要父母在旁边手把手指导了。”

🔬 两大技术”炼金术”：让自回归模型真正驾驭图像

阶跃星辰团队在论文中透露了两个关键发现，堪称自回归图像生成的”点金术”：

1️⃣ 真正的”艺术家”是Transformer

团队通过实验发现：流匹配头的大小(157M→528M)对最终图像质量影响极小。
这意味着：

Transformer骨干承担了90%以上的”创意工作”
流匹配头仅作为轻量级”执行者”，忠实地将创意转化为图像
自回归模型可以真正独立”思考”和”创作”

“这证明了Transformer不仅能做语言，也能成为视觉领域的艺术家。”——研究团队

2️⃣ Tokenizer的两大”魔法”

在连续视觉标记的操作中，团队发现了两个关键技巧：

通道归一化(Channel-Wise Normalization)
通过简单归一化，有效稳定了标记的统计特性。即使在最高强度的CFG引导下，也能生成无伪影的清晰图像。
“更多噪声=更好质量”
一个反直觉的发现：在训练Tokenizer时增加噪声正则化，反而显著提升了最终图像质量。
团队推测：这塑造了更鲁棒、分布更均匀的潜在空间，为自回归模型提供了理想”画布”。

🖼️ 功能展示：不只是生成，更要会”改”

NextStep-1不仅会”无中生有”地生成图像，更能听懂人类指令，像专业设计师一样精准编辑。

✅ 高保真文生图

只需一句指令，即可生成细节丰富、构图合理的图像：

“A serene lakeside at dawn, pine trees reflected in still water, mist rising from the surface, soft golden light breaking through mountain peaks in the distance, hyperrealistic photography”

✅ 全能图像编辑

物体增删：

“在咖啡桌上加一个打开的笔记本电脑，旁边放一杯冒着热气的咖啡”

背景修改：

“把这张照片的背景从办公室换成海滩日落”

动作修改：

“让图中的狗从坐着变成跳跃的姿势”

风格迁移：

“将这张照片转换为梵高风格的油画，保留所有人物和场景细节”

实测效果令人惊艳——它不仅能理解日常语言，还能保持编辑前后的视觉一致性，避免了传统方法中常见的”身份漂移”问题。

一位设计师评价：”它就像请了个全能助理，既能凭空创作，又能按你的想法精准修改。”

📊 性能数据：自回归也能挑战SOTA

在权威评测中，NextStep-1的表现令人惊喜：

评测基准	NextStep-1表现	意义
GenEval	0.73 (使用self-CoT)	超越多数自回归模型，逼近扩散模型
GenAI-Bench	高级提示0.67，基础提示0.88	复杂场景理解能力强
DPG-Bench	85.28分	长提示理解能力强
WISE	0.54总分	世界知识整合能力优异
GEdit-Bench	显著领先其他自回归模型	图像编辑能力突出

更令人振奋的是：在多项基准测试中，NextStep-1已能与顶尖扩散模型正面竞争，这在自回归架构中是前所未有的突破。

⚠️ 直面挑战：成长路上的”绊脚石”

阶跃星辰团队没有回避模型的局限，坦诚列出了四大挑战：

1️⃣ 生成过程不稳定

在高维连续空间(16通道)生成时，偶发出现：

局部噪声/块状伪影
全局噪声干扰
网格状伪影(可能与一维位置编码相关)

2️⃣ 顺序解码延迟

自回归模型的”天性”导致速度瓶颈：

14B参数Transformer顺序解码是主要瓶颈
流匹配头的多步采样也带来开销
单token生成在H100上需要约47.6ms

3️⃣ 高分辨率挑战

收敛效率低：需更多训练步数
难以迁移扩散模型的高分辨率技术
缺乏二维空间归纳偏置

4️⃣ 监督微调(SFT)困难

依赖大规模数据(百万级)才能稳定微调
小数据集上表现脆弱：要么收效甚微，要么完全过拟合
难以找到”通用能力”与”特定风格”的平衡点

团队坦言：”坦诚面对这些挑战，是推动领域前进的第一步。”

🚀 如何上手？完全开源，一键部署

阶跃星辰团队已将NextStep-1完全开源，对研究者和开发者极其友好，安装只需三行命令：

git clone https://github.com/stepfun-ai/NextStep-1
cd NextStep-1
pip install -r requirements.txt

团队还提供了详细教程，从基础使用到高级定制，覆盖各种应用场景。

🔮 未来展望：自回归图像生成的新纪元

NextStep-1的发布，标志着自回归图像生成进入新阶段：

架构简洁化：不再需要复杂拼凑，一个统一模型搞定
训练高效化：端到端训练，避免多阶段优化的不稳定性
能力综合化：同时擅长生成与编辑，理解自然语言指令

阶跃星辰团队透露的未来方向：

优化流匹配头：减少参数、实现少步生成
加速自回归：探索多Token预测等新技术
高分辨率生成：研发专门针对图像的二维位置编码
改进SFT：小数据高效微调技术

“这只是探索的第一步。我们相信，这条’简洁’的道路，将为多模态生成领域提供全新视角。”

🌟 写在最后

NextStep-1的意义远不止于一款新模型，它证明了一个重要理念：
简洁的架构，也能实现强大的能力。

当我们不再执着于”拼凑最大模型”，而是回归到”如何让模型真正理解创作”的本质，AI生成技术或许会迎来新的飞跃。

“它不是要取代扩散模型，而是为图像生成提供一条新的可能路径。”——阶跃星辰团队

在这个AI技术日新月异的时代，NextStep-1提醒我们：
有时候，最革命性的创新，恰恰来自对基础范式的重新思考。

相关链接：

论文：https://arxiv.org/abs/2508.10711
代码仓库：https://github.com/stepfun-ai/NextStep-1
模型下载：https://huggingface.co/collections/stepfun-ai/nextstep-1
项目主页：https://stepfun.ai/research/en/nextstep1

更多产品请查看	更多内容请查看
ShirtAI – 渗透智能	AIGC大模型：开创工程与科学双重革命时代 – 渗透智能
1:1还原Claude和GPT官网 – AI云原生	比赛直播APP 全球高清体育观影播放器（推荐） – 蓝衫科技
基于官方API的中转服务 – GPTMeta API	求助，各位大神谁能提供一些GPT的提问技巧？– 知乎
全球化虚拟商品数字商店 – 环球智购（凤灵阁）	Claude airtfacts功能有多强大，GPT瞬间不香了？-哔哩哔哩