简单分析Flux和Z-image中Transformer架构区别

Flux 与 Z-Image

在当前的图像/视频生成领域,Diffusion Transformer (DiT) 已成为主流架构。然而,面对如何处理多模态(图像与文本)信息交织的问题,Flux 和 Z-Image 走向了截然不同的演进路线:Flux 选择了双流混合路线,而 Z-Image 则开辟了可扩展单流(S3-DiT)路线。

Flux:双流混合

Flux 的设计哲学倾向于先隔离后混合 (Dual-Stream to Single-Stream)。它在网络的前期将文本和图像特征严格区分,通过庞大的参数规模和复杂的联合注意力机制来保证极高的保真度。

核心架构特征

  • 双流过渡网络 (Hybrid Architecture)
    • 前期双流 (Dual-stream):代码中的 FluxTransformerBlock 模块处理前期的模态交互。图像特征和文本特征在各自独立的通道中流动,仅在 Attention 层将 Q、K、V 拼接进行“联合注意力 (Joint Attention)”计算,随后立刻拆分,各自通过独立的 FeedForward 网络 (FFN)。
    • 后期单流 (Single-stream):在网络的后半段(FluxSingleTransformerBlock),文本和图像才在序列维度被硬性拼接成一个整体序列,进行统一的深度处理。
  • 位置编码 (RoPE):使用 FluxPosEmbed 模块。它在推理过程中动态计算 1D 旋转位置编码,并在每次注意力计算前叠加到 Query 和 Key 上。
  • 归一化策略:采用了 DiT 标志性的 AdaLayerNormZero(零初始化自适应层归一化),利用时间步和条件嵌入来动态缩放和平移特征空间。

架构评价

Flux 的架构极为庞大且精密。通过双流设计,它最大程度地保留了文本指令的原始语义和图像生成的空间细节,这也是其画质惊艳的核心原因。但代价是参数利用率较低,对算力和显存的要求极高。

Z-Image:可扩展单流

与 Flux 不计成本扩大规模的做法相反,Z-Image 旨在打破“规模即一切 (scale-at-all-costs)”的诅咒。它采用了 S3-DiT (Scalable Single-Stream Diffusion Transformer) 架构,仅用 60 亿 (6B) 参数就在消费级硬件上实现了顶级的双语渲染和生成质量。

核心架构特征

  • 可扩展单流设计 (Scalable Single-Stream)
    • 浅层独立精炼:代码中仅保留了极浅的预处理层(Noise Refiner 处理图像,Context Refiner 处理文本)。
    • 深层密集交互:这是 Z-Image 的灵魂所在。精炼后的文本和图像特征被迅速拼接(unified),进入深达 30 层的单流主干网络(layers)。这种设计在每一层都强制进行密集的跨模态交互,极大地提升了参数的利用效率。
  • 现代 LLM 基因的注入
    • RMSNorm 与 SwiGLU:Z-Image 抛弃了传统的 FFN 和 LayerNorm,转而采用与 LLaMA 等大语言模型同源的 RMSNorm 和带有 SiLU 门控机制的前馈网络(SwiGLU)。
    • 复数多轴 RoPE:位置编码 (RopeEmbedder) 采用复数预计算 (freqs_cis),不仅效率更高,而且原生支持对多轴(如视频/多帧序列的 Frame, Height, Width)进行灵活的三维空间切片建模。
  • 工业级时空数据支持:代码展示了极其严谨的 Patch 化逻辑、变长序列对齐 (SEQ_MULTI_OF = 32) 以及复杂的 Attention Mask 机制,这意味着 Z-Image 从底层架构上就为多分辨率和时空生成(视频)做好了准备。

架构评价

Z-Image 是一次对模型效率的降维打击。它不仅架构紧凑,还能在小于 16GB VRAM 的显卡上运行。配合其独有的 Decoupled-DMD 蒸馏技术,更是能实现 8 步极速推理。它证明了通过让多模态在单流架构中尽早、深度地纠缠,小参数模型同样可以战胜巨型商业模型。

核心差异总结表

对比维度 Flux Z-Image
核心范式 混合双流 (重度双流隔离 + 后期单流融合) 可扩展单流 S3-DiT (极浅独立处理 + 深度完全融合)
模态交互深度 前期具有隔离性,通过联合注意力局部交换 密集交互,从早期主干层开始强制深度纠缠
归一化与激活层 AdaLayerNormZero + 标准 FFN (DiT 经典流派) RMSNorm + SwiGLU 门控机制 (现代 LLM 流派)
位置编码处理 动态计算 1D 旋转位置编码并相乘 预计算多轴复数张量 (freqs_cis),支持 3D 时空
资源与效率 参数量巨大,追求纯粹的保真度上限,算力要求极高 参数高效 (6B),支持消费级硬件,配合蒸馏可 8 步成图
序列处理逻辑 相对简单的拼接与计算 原生支持 3D 变长序列 Padding 与复杂 Mask 掩码

简单分析Flux和Z-image中Transformer架构区别
https://huan-yin.github.io/2026/04/15/简单分析flux和z-image中transformer架构区别/
作者
李相越
发布于
2026年4月15日
许可协议