NextStep-1:自回归图像生成的”终极形态”,14B参数模型开源了!

“它不再需要’外援’,终于成长为独立艺术家。”

在AI图像生成领域,我们似乎早已习惯这样的分工:
扩散模型负责”画画”,CLIP负责”看画”,VQ-VAE负责”压缩”,LLM负责”思考”……

但今天,一款名为 NextStep-1 的开源模型,正试图颠覆这一范式——它仅用14B参数的纯自回归架构,就实现了与顶尖扩散模型相媲美的生成质量,还能听懂日常语言、随心所欲地编辑图像。

阶跃星辰(StepFun)团队这次放出了什么”大招”?让我们一探究竟。

🎨 重新定义自回归:告别”外援”,做真正的艺术家

自回归模型在文本领域早已所向披靡,却在图像生成赛道”水土不服”多年。
过去尝试大多陷入两种困境:

  • 离散化困境:必须通过VQ-VAE将图像压缩成有限的离散符号,造成信息损失
  • 外援依赖:需要庞大的扩散模型作为”解码器”,架构臃肿且训练复杂

NextStep-1的核心突破

直接在连续的视觉空间中,以自回归方式生成图像Patch

它由两部分组成:

  • 14B参数的Transformer骨干:负责理解内容、规划构图、掌控全局
  • 157M参数的流匹配头(Flow Matching Head):像”画笔”一样,将Transformer的创意转化为具体像素

这种架构带来的革命性变化:
无需离散化:保留了视觉数据的全部丰富性
端到端训练:不再依赖外部扩散模型”救场”
架构极度简洁:整个系统高度统一,训练更高效

一位研究者感叹:”这就像看着自家孩子终于能独立完成一幅画,不需要父母在旁边手把手指导了。”

🔬 两大技术”炼金术”:让自回归模型真正驾驭图像

阶跃星辰团队在论文中透露了两个关键发现,堪称自回归图像生成的”点金术”:

1️⃣ 真正的”艺术家”是Transformer

团队通过实验发现:流匹配头的大小(157M→528M)对最终图像质量影响极小
这意味着:

  • Transformer骨干承担了90%以上的”创意工作”
  • 流匹配头仅作为轻量级”执行者”,忠实地将创意转化为图像
  • 自回归模型可以真正独立”思考”和”创作”

“这证明了Transformer不仅能做语言,也能成为视觉领域的艺术家。”——研究团队

2️⃣ Tokenizer的两大”魔法”

在连续视觉标记的操作中,团队发现了两个关键技巧:

  • 通道归一化(Channel-Wise Normalization)
    通过简单归一化,有效稳定了标记的统计特性。即使在最高强度的CFG引导下,也能生成无伪影的清晰图像。
  • “更多噪声=更好质量”
    一个反直觉的发现:在训练Tokenizer时增加噪声正则化,反而显著提升了最终图像质量。
    团队推测:这塑造了更鲁棒、分布更均匀的潜在空间,为自回归模型提供了理想”画布”。

🖼️ 功能展示:不只是生成,更要会”改”

NextStep-1不仅会”无中生有”地生成图像,更能听懂人类指令,像专业设计师一样精准编辑。

✅ 高保真文生图

只需一句指令,即可生成细节丰富、构图合理的图像:

“A serene lakeside at dawn, pine trees reflected in still water, mist rising from the surface, soft golden light breaking through mountainpeaks in the distance, hyperrealistic photography”

✅ 全能图像编辑

物体增删

“在咖啡桌上加一个打开的笔记本电脑,旁边放一杯冒着热气的咖啡”

背景修改

“把这张照片的背景从办公室换成海滩日落”

动作修改

“让图中的狗从坐着变成跳跃的姿势”

风格迁移

“将这张照片转换为梵高风格的油画,保留所有人物和场景细节”

实测效果令人惊艳——它不仅能理解日常语言,还能保持编辑前后的视觉一致性,避免了传统方法中常见的”身份漂移”问题。

一位设计师评价:”它就像请了个全能助理,既能凭空创作,又能按你的想法精准修改。”

📊 性能数据:自回归也能挑战SOTA

在权威评测中,NextStep-1的表现令人惊喜:

评测基准NextStep-1表现意义
GenEval0.73 (使用self-CoT)超越多数自回归模型,逼近扩散模型
GenAI-Bench高级提示0.67,基础提示0.88复杂场景理解能力强
DPG-Bench85.28分长提示理解能力强
WISE0.54总分世界知识整合能力优异
GEdit-Bench显著领先其他自回归模型图像编辑能力突出

更令人振奋的是:在多项基准测试中,NextStep-1已能与顶尖扩散模型正面竞争,这在自回归架构中是前所未有的突破。

⚠️ 直面挑战:成长路上的”绊脚石”

阶跃星辰团队没有回避模型的局限,坦诚列出了四大挑战:

1️⃣ 生成过程不稳定

在高维连续空间(16通道)生成时,偶发出现:

  • 局部噪声/块状伪影
  • 全局噪声干扰
  • 网格状伪影(可能与一维位置编码相关)

2️⃣ 顺序解码延迟

自回归模型的”天性”导致速度瓶颈:

  • 14B参数Transformer顺序解码是主要瓶颈
  • 流匹配头的多步采样也带来开销
  • 单token生成在H100上需要约47.6ms

3️⃣ 高分辨率挑战

  • 收敛效率低:需更多训练步数
  • 难以迁移扩散模型的高分辨率技术
  • 缺乏二维空间归纳偏置

4️⃣ 监督微调(SFT)困难

  • 依赖大规模数据(百万级)才能稳定微调
  • 小数据集上表现脆弱:要么收效甚微,要么完全过拟合
  • 难以找到”通用能力”与”特定风格”的平衡点

团队坦言:”坦诚面对这些挑战,是推动领域前进的第一步。”

🚀 如何上手?完全开源,一键部署

阶跃星辰团队已将NextStep-1完全开源,对研究者和开发者极其友好,安装只需三行命令:

PHP
git clone https://github.com/stepfun-ai/NextStep-1
cd NextStep-1
pip install -r requirements.txt

团队还提供了详细教程,从基础使用到高级定制,覆盖各种应用场景。

🔮 未来展望:自回归图像生成的新纪元

NextStep-1的发布,标志着自回归图像生成进入新阶段:

  • 架构简洁化:不再需要复杂拼凑,一个统一模型搞定
  • 训练高效化:端到端训练,避免多阶段优化的不稳定性
  • 能力综合化:同时擅长生成与编辑,理解自然语言指令

阶跃星辰团队透露的未来方向:

  • 优化流匹配头:减少参数、实现少步生成
  • 加速自回归:探索多Token预测等新技术
  • 高分辨率生成:研发专门针对图像的二维位置编码
  • 改进SFT:小数据高效微调技术

“这只是探索的第一步。我们相信,这条’简洁’的道路,将为多模态生成领域提供全新视角。”

🌟 写在最后

NextStep-1的意义远不止于一款新模型,它证明了一个重要理念:
简洁的架构,也能实现强大的能力。

当我们不再执着于”拼凑最大模型”,而是回归到”如何让模型真正理解创作”的本质,AI生成技术或许会迎来新的飞跃。

“它不是要取代扩散模型,而是为图像生成提供一条新的可能路径。”——阶跃星辰团队

在这个AI技术日新月异的时代,NextStep-1提醒我们:
有时候,最革命性的创新,恰恰来自对基础范式的重新思考。

相关链接

更多产品请查看

更多内容请查看

ShirtAI – 渗透智能 AIGC大模型:开创工程与科学双重革命时代 – 渗透智能
1:1还原Claude和GPT官网 – AI云原生 比赛直播APP 全球高清体育观影播放器(推荐) – 蓝衫科技
基于官方API的中转服务 – GPTMeta API 求助,各位大神谁能提供一些GPT的提问技巧?– 知乎
全球化虚拟商品数字商店 – 环球智购(凤灵阁) Claude airtfacts功能有多强大,GPT瞬间不香了?-哔哩哔哩