论文标题:
给定单个参考图像(圆角矩形),该文的方法 RB-Modulation 提供了一种免训练的即插即用解决方案,用于 (a) 风格化和 (b) 具有各种提示的内容风格组合,同时保持样本多样性和提示对齐。例如,给定参考样式图像(例如“融化的金色3D渲染样式”)和内容图像(例如(A)“狗”),该方法遵循所需的提示,而不会泄漏参考样式图像中的内容,也不会受到限制到参考内容图像的姿势。
摘要
贡献
1. 提出了基于参考的调制(RB-Modulation),这是一种新颖的随机最优控制框架,可实现免训练、个性化的风格和内容控制,并具有新的注意特征聚合(AFA)模块,可在遵循参考图像的同时保持对参考图像的高保真度到给定的提示。
2. 提供了连接最优控制和反向扩散动力学的理论依据。我们利用这种连接将所需的属性(例如风格)纳入控制器的终端成本中,并以免训练的方式个性化 T2I 模型。
3. 涵盖风格化和内容风格构成的广泛实验,证明了在人类偏好指标方面优于 SoTA 方法的性能。
风格化结果
在第三行中,StyleAligned 和 StyleDrop 生成一个酒瓶和一本书,类似于参考样式图像中的智能手机。在最后一行,StyleAligned 泄露了参考图像的房屋和背景;InstantStyle 表现出房屋的颜色泄漏,导致图像颜色相似。该文的方法准确地遵循所需风格的提示。
与最先进的方法(InstantStyle、StyleAligned、StyleDrop)的比较凸显了该方法在防止参考样式信息泄漏和更紧密地遵循所需文本提示方面的优势。
内容风格合成效果
在免训练方法中,InstantStyle 和 IP-Adapter 依赖于 ControlNet ,这通常限制了它们准确遵循提示来改变生成内容姿势的能力,例如(b)中的“跳舞”或“行走” (c)中的”。相比之下,该方法避免了对 ControlNet 或适配器的需要,并且可以有效地捕获风格和内容图像的独特属性,同时遵循生成多样化图像的提示。
该方法比免训练方法 IP-Adapter [21] 和 InstantStyle [13] 显示出更好的即时对齐和更大的多样性,并且与基于训练的 ZipLoRA [10] 具有竞争性能。
消融研究
该方法建立在任何基于变压器的扩散模型之上。在这种情况下,使用StableCascade 作为基础,并依次添加每个模块以显示其有效性。DirectConcat 涉及将参考图像嵌入与提示嵌入连接起来。本消融研究不包括风格描述。
用户定义的一致风格化
由于没有风格描述,结果展示了更多的多样性,同时遵循所需的提示并有效地捕获参考风格。InstantStyle 结果显示单调的场景,而 StyleAligned 结果存在严重的信息泄漏。
每列描述了基于用户定义的提示的一致风格对齐代
使用样式描述进行样式化
虽然替代方法面临着遵循提示(例如,多架飞机而不是一架飞机)和信息泄漏(例如,玉米片碗上的云和奶昔图像中的吉他)等挑战,但该方法在这两个提示上都表现出了强大的性能和风格对齐。
没有风格描述的风格化
删除样式描述后,StyleAligned 和 StyleDrop 显示严重的性能下降(例如,参见消防员和猫图像)。InstantStyle 结果显示更多信息泄漏(例如粉红瓢虫和豹子),而该文的方法中没有观察到明显的性能下降。
虽然图像的内容可以通过文本来传达,但表达艺术家的独特风格(以独特的笔触、调色板、材料和纹理为特征)却更加细致和复杂。上图表明,无论有没有样式描述,该方法都会生成一致的样式化结果。
相信 RB 调制的早期结果将为未来沿着这个方向进行有趣的研究铺平道路。
原创文章,作者:guozi,如若转载,请注明出处:https://www.sudun.com/ask/81419.html