“它不再需要’外援’,终于成长为独立艺术家。”
在AI图像生成领域,我们似乎早已习惯这样的分工:
扩散模型负责”画画”,CLIP负责”看画”,VQ-VAE负责”压缩”,LLM负责”思考”……
但今天,一款名为 NextStep-1 的开源模型,正试图颠覆这一范式——它仅用14B参数的纯自回归架构,就实现了与顶尖扩散模型相媲美的生成质量,还能听懂日常语言、随心所欲地编辑图像。
阶跃星辰(StepFun)团队这次放出了什么”大招”?让我们一探究竟。

🎨 重新定义自回归:告别”外援”,做真正的艺术家
自回归模型在文本领域早已所向披靡,却在图像生成赛道”水土不服”多年。
过去尝试大多陷入两种困境:
- 离散化困境:必须通过VQ-VAE将图像压缩成有限的离散符号,造成信息损失
- 外援依赖:需要庞大的扩散模型作为”解码器”,架构臃肿且训练复杂
NextStep-1的核心突破:
直接在连续的视觉空间中,以自回归方式生成图像Patch
它由两部分组成:
- 14B参数的Transformer骨干:负责理解内容、规划构图、掌控全局
- 157M参数的流匹配头(Flow Matching Head):像”画笔”一样,将Transformer的创意转化为具体像素
这种架构带来的革命性变化:
✅ 无需离散化:保留了视觉数据的全部丰富性
✅ 端到端训练:不再依赖外部扩散模型”救场”
✅ 架构极度简洁:整个系统高度统一,训练更高效
一位研究者感叹:”这就像看着自家孩子终于能独立完成一幅画,不需要父母在旁边手把手指导了。”

🔬 两大技术”炼金术”:让自回归模型真正驾驭图像
阶跃星辰团队在论文中透露了两个关键发现,堪称自回归图像生成的”点金术”:
1️⃣ 真正的”艺术家”是Transformer
团队通过实验发现:流匹配头的大小(157M→528M)对最终图像质量影响极小。
这意味着:
- Transformer骨干承担了90%以上的”创意工作”
- 流匹配头仅作为轻量级”执行者”,忠实地将创意转化为图像
- 自回归模型可以真正独立”思考”和”创作”
“这证明了Transformer不仅能做语言,也能成为视觉领域的艺术家。”——研究团队
2️⃣ Tokenizer的两大”魔法”
在连续视觉标记的操作中,团队发现了两个关键技巧:
- 通道归一化(Channel-Wise Normalization)
通过简单归一化,有效稳定了标记的统计特性。即使在最高强度的CFG引导下,也能生成无伪影的清晰图像。 - “更多噪声=更好质量”
一个反直觉的发现:在训练Tokenizer时增加噪声正则化,反而显著提升了最终图像质量。
团队推测:这塑造了更鲁棒、分布更均匀的潜在空间,为自回归模型提供了理想”画布”。

🖼️ 功能展示:不只是生成,更要会”改”
NextStep-1不仅会”无中生有”地生成图像,更能听懂人类指令,像专业设计师一样精准编辑。
✅ 高保真文生图
只需一句指令,即可生成细节丰富、构图合理的图像:
“A serene lakeside at dawn, pine trees reflected in still water, mist rising from the surface, soft golden light breaking through mountain peaks in the distance, hyperrealistic photography”
✅ 全能图像编辑
物体增删:
“在咖啡桌上加一个打开的笔记本电脑,旁边放一杯冒着热气的咖啡”
背景修改:
“把这张照片的背景从办公室换成海滩日落”
动作修改:
“让图中的狗从坐着变成跳跃的姿势”
风格迁移:
“将这张照片转换为梵高风格的油画,保留所有人物和场景细节”
实测效果令人惊艳——它不仅能理解日常语言,还能保持编辑前后的视觉一致性,避免了传统方法中常见的”身份漂移”问题。
一位设计师评价:”它就像请了个全能助理,既能凭空创作,又能按你的想法精准修改。”

📊 性能数据:自回归也能挑战SOTA
在权威评测中,NextStep-1的表现令人惊喜:
| 评测基准 | NextStep-1表现 | 意义 |
|---|---|---|
| GenEval | 0.73 (使用self-CoT) | 超越多数自回归模型,逼近扩散模型 |
| GenAI-Bench | 高级提示0.67,基础提示0.88 | 复杂场景理解能力强 |
| DPG-Bench | 85.28分 | 长提示理解能力强 |
| WISE | 0.54总分 | 世界知识整合能力优异 |
| GEdit-Bench | 显著领先其他自回归模型 | 图像编辑能力突出 |
更令人振奋的是:在多项基准测试中,NextStep-1已能与顶尖扩散模型正面竞争,这在自回归架构中是前所未有的突破。

⚠️ 直面挑战:成长路上的”绊脚石”
阶跃星辰团队没有回避模型的局限,坦诚列出了四大挑战:
1️⃣ 生成过程不稳定
在高维连续空间(16通道)生成时,偶发出现:
- 局部噪声/块状伪影
- 全局噪声干扰
- 网格状伪影(可能与一维位置编码相关)
2️⃣ 顺序解码延迟
自回归模型的”天性”导致速度瓶颈:
- 14B参数Transformer顺序解码是主要瓶颈
- 流匹配头的多步采样也带来开销
- 单token生成在H100上需要约47.6ms
3️⃣ 高分辨率挑战
- 收敛效率低:需更多训练步数
- 难以迁移扩散模型的高分辨率技术
- 缺乏二维空间归纳偏置
4️⃣ 监督微调(SFT)困难
- 依赖大规模数据(百万级)才能稳定微调
- 小数据集上表现脆弱:要么收效甚微,要么完全过拟合
- 难以找到”通用能力”与”特定风格”的平衡点
团队坦言:”坦诚面对这些挑战,是推动领域前进的第一步。”


🚀 如何上手?完全开源,一键部署
阶跃星辰团队已将NextStep-1完全开源,对研究者和开发者极其友好,安装只需三行命令:
git clone https://github.com/stepfun-ai/NextStep-1
cd NextStep-1
pip install -r requirements.txt团队还提供了详细教程,从基础使用到高级定制,覆盖各种应用场景。
🔮 未来展望:自回归图像生成的新纪元
NextStep-1的发布,标志着自回归图像生成进入新阶段:
- 架构简洁化:不再需要复杂拼凑,一个统一模型搞定
- 训练高效化:端到端训练,避免多阶段优化的不稳定性
- 能力综合化:同时擅长生成与编辑,理解自然语言指令
阶跃星辰团队透露的未来方向:
- 优化流匹配头:减少参数、实现少步生成
- 加速自回归:探索多Token预测等新技术
- 高分辨率生成:研发专门针对图像的二维位置编码
- 改进SFT:小数据高效微调技术
“这只是探索的第一步。我们相信,这条’简洁’的道路,将为多模态生成领域提供全新视角。”

🌟 写在最后
NextStep-1的意义远不止于一款新模型,它证明了一个重要理念:
简洁的架构,也能实现强大的能力。
当我们不再执着于”拼凑最大模型”,而是回归到”如何让模型真正理解创作”的本质,AI生成技术或许会迎来新的飞跃。
“它不是要取代扩散模型,而是为图像生成提供一条新的可能路径。”——阶跃星辰团队
在这个AI技术日新月异的时代,NextStep-1提醒我们:
有时候,最革命性的创新,恰恰来自对基础范式的重新思考。
相关链接:
- 论文:https://arxiv.org/abs/2508.10711
- 代码仓库:https://github.com/stepfun-ai/NextStep-1
- 模型下载:https://huggingface.co/collections/stepfun-ai/nextstep-1
- 项目主页:https://stepfun.ai/research/en/nextstep1