扩散模型注意力头选择实现精细扰动引导

本文提出HeadHunter框架,通过系统选择扩散变换器中的特定注意力头实现精细控制,解决现有层级别扰动导致的过度平滑问题,并在Stable Diffusion 3等模型上验证了在质量提升和风格控制方面的优越性能。

精细扰动引导通过注意力头选择

近期扩散模型中的引导方法通过扰动模型构建隐式弱模型,并引导生成过程远离该模型。在这些方法中,注意力扰动在无条件场景(分类器无关引导不适用)中展现出强大的实证性能。然而,现有注意力扰动方法缺乏确定扰动应用位置的原则性方法,特别是在质量相关计算分布在各层的扩散变换器(DiT)架构中。

本文研究了注意力扰动的粒度范围(从层级别到单个注意力头),发现特定头部控制着不同的视觉概念(如结构、风格和纹理质量)。基于这一发现,提出"HeadHunter"系统框架,通过迭代选择符合用户中心目标的注意力头,实现对生成质量和视觉属性的精细控制。此外,引入SoftPAG方法,将每个选定头的注意力图线性插值到单位矩阵,提供连续旋钮以调节扰动强度并抑制伪影。

该方法不仅缓解了现有层级别扰动的过度平滑问题,还通过组合头选择实现特定视觉风格的定向操控。在现代大规模基于DiT的文本到图像模型(包括Stable Diffusion 3和FLUX.1)上验证了该方法,在通用质量增强和风格特定引导方面均展示出优越性能。此项工作首次实现扩散模型中注意力扰动的头级别分析,揭示了注意力层内可解释的专业化特征,并为有效扰动策略的实用设计提供了支持。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计