简单分析Flux和Z-image中Transformer架构区别

Flux 与 Z-Image

在当前的图像/视频生成领域，Diffusion Transformer (DiT) 已成为主流架构。然而，面对如何处理多模态（图像与文本）信息交织的问题，Flux 和 Z-Image 走向了截然不同的演进路线：Flux 选择了双流混合路线，而 Z-Image 则开辟了可扩展单流（S3-DiT）路线。

Flux：双流混合

Flux 的设计哲学倾向于先隔离后混合 (Dual-Stream to Single-Stream)。它在网络的前期将文本和图像特征严格区分，通过庞大的参数规模和复杂的联合注意力机制来保证极高的保真度。

核心架构特征

双流过渡网络 (Hybrid Architecture)：
- 前期双流 (Dual-stream)：代码中的 FluxTransformerBlock 模块处理前期的模态交互。图像特征和文本特征在各自独立的通道中流动，仅在 Attention 层将 Q、K、V 拼接进行“联合注意力 (Joint Attention)”计算，随后立刻拆分，各自通过独立的 FeedForward 网络 (FFN)。
- 后期单流 (Single-stream)：在网络的后半段（FluxSingleTransformerBlock），文本和图像才在序列维度被硬性拼接成一个整体序列，进行统一的深度处理。
位置编码 (RoPE)：使用 FluxPosEmbed 模块。它在推理过程中动态计算 1D 旋转位置编码，并在每次注意力计算前叠加到 Query 和 Key 上。
归一化策略：采用了 DiT 标志性的 AdaLayerNormZero（零初始化自适应层归一化），利用时间步和条件嵌入来动态缩放和平移特征空间。

架构评价

Flux 的架构极为庞大且精密。通过双流设计，它最大程度地保留了文本指令的原始语义和图像生成的空间细节，这也是其画质惊艳的核心原因。但代价是参数利用率较低，对算力和显存的要求极高。

Z-Image：可扩展单流

与 Flux 不计成本扩大规模的做法相反，Z-Image 旨在打破“规模即一切 (scale-at-all-costs)”的诅咒。它采用了 S3-DiT (Scalable Single-Stream Diffusion Transformer) 架构，仅用 60 亿 (6B) 参数就在消费级硬件上实现了顶级的双语渲染和生成质量。

核心架构特征

可扩展单流设计 (Scalable Single-Stream)：
- 浅层独立精炼：代码中仅保留了极浅的预处理层（Noise Refiner 处理图像，Context Refiner 处理文本）。
- 深层密集交互：这是 Z-Image 的灵魂所在。精炼后的文本和图像特征被迅速拼接（unified），进入深达 30 层的单流主干网络（layers）。这种设计在每一层都强制进行密集的跨模态交互，极大地提升了参数的利用效率。
现代 LLM 基因的注入：
- RMSNorm 与 SwiGLU：Z-Image 抛弃了传统的 FFN 和 LayerNorm，转而采用与 LLaMA 等大语言模型同源的 RMSNorm 和带有 SiLU 门控机制的前馈网络（SwiGLU）。
- 复数多轴 RoPE：位置编码 (RopeEmbedder) 采用复数预计算 (freqs_cis)，不仅效率更高，而且原生支持对多轴（如视频/多帧序列的 Frame, Height, Width）进行灵活的三维空间切片建模。
工业级时空数据支持：代码展示了极其严谨的 Patch 化逻辑、变长序列对齐 (SEQ_MULTI_OF = 32) 以及复杂的 Attention Mask 机制，这意味着 Z-Image 从底层架构上就为多分辨率和时空生成（视频）做好了准备。

架构评价

Z-Image 是一次对模型效率的降维打击。它不仅架构紧凑，还能在小于 16GB VRAM 的显卡上运行。配合其独有的 Decoupled-DMD 蒸馏技术，更是能实现 8 步极速推理。它证明了通过让多模态在单流架构中尽早、深度地纠缠，小参数模型同样可以战胜巨型商业模型。

核心差异总结表

对比维度	Flux	Z-Image
核心范式	混合双流 (重度双流隔离 + 后期单流融合)	可扩展单流 S3-DiT (极浅独立处理 + 深度完全融合)
模态交互深度	前期具有隔离性，通过联合注意力局部交换	密集交互，从早期主干层开始强制深度纠缠
归一化与激活层	`AdaLayerNormZero` + 标准 FFN (DiT 经典流派)	`RMSNorm` + SwiGLU 门控机制 (现代 LLM 流派)
位置编码处理	动态计算 1D 旋转位置编码并相乘	预计算多轴复数张量 (`freqs_cis`)，支持 3D 时空
资源与效率	参数量巨大，追求纯粹的保真度上限，算力要求极高	参数高效 (6B)，支持消费级硬件，配合蒸馏可 8 步成图
序列处理逻辑	相对简单的拼接与计算	原生支持 3D 变长序列 Padding 与复杂 Mask 掩码

图像生成

#可控图像生成 #DiT

简单分析Flux和Z-image中Transformer架构区别

https://huan-yin.github.io/2026/04/15/简单分析flux和z-image中transformer架构区别/

作者

李相越

发布于

2026年4月15日

许可协议

初识Qwen的VL系列模型上一篇

初识wan系列模型下一篇