新的 AI 调制技术

论文标题

RB-Modulation: Training-Free Personalization of Diffusion Models using Stochastic Optimal Control
论文链接:
https://arxiv.org/abs/2405.17401
项目链接
https://rb-modulation.github.io/
先看效果:

图片

给定单个参考图像(圆角矩形),该文的方法 RB-Modulation 提供了一种免训练的即插即用解决方案,用于 (a) 风格化和 (b) 具有各种提示的内容风格组合,同时保持样本多样性和提示对齐。例如,给定参考样式图像(例如“融化的金色3D渲染样式”)和内容图像(例如(A)“狗”),该方法遵循所需的提示,而不会泄漏参考样式图像中的内容,也不会受到限制到参考内容图像的姿势。

摘要

该文提出了基于参考的调制(RB-调制),这是一种新的即插即用解决方案,用于扩散模型的免训练个性化。现有的免训练方法在以下方面表现出困难:
(a)在缺乏附加样式或内容文本描述的情况下从参考图像中提取样式;
(b)从参考样式图像中泄漏不需要的内容;
(c)样式和内容的有效组合。 
RB-Modulation 建立在一种新颖的随机最优控制器上,其中样式描述通过终端成本对所需属性进行编码。由此产生的漂移不仅克服了上述困难,而且保证了对参考样式的高保真度并遵守给定的文本提示。该文还引入了一种基于交叉注意力的特征聚合方案,该方案允许 RB-Modulation 将内容和风格与参考图像解耦。凭借理论依据和经验证据,该框架以无需训练的方式展示了对内容和风格的精确提取和控制。此外,该方法允许内容和样式的无缝组合,这标志着摆脱对外部适配器或 ControlNet 的依赖。

贡献

1. 提出了基于参考的调制(RB-Modulation),这是一种新颖的随机最优控制框架,可实现免训练、个性化的风格和内容控制,并具有新的注意特征聚合(AFA)模块,可在遵循参考图像的同时保持对参考图像的高保真度到给定的提示。

2. 提供了连接最优控制和反向扩散动力学的理论依据。我们利用这种连接将所需的属性(例如风格)纳入控制器的终端成本中,并以免训练的方式个性化 T2I 模型。

3. 涵盖风格化和内容风格构成的广泛实验,证明了在人类偏好指标方面优于 SoTA 方法的性能。

风格化结果

在第三行中,StyleAligned 和 StyleDrop 生成一个酒瓶和一本书,类似于参考样式图像中的智能手机。在最后一行,StyleAligned 泄露了参考图像的房屋和背景;InstantStyle 表现出房屋的颜色泄漏,导致图像颜色相似。该文的方法准确地遵循所需风格的提示。

图片

与最先进的方法(InstantStyle、StyleAligned、StyleDrop)的比较凸显了该方法在防止参考样式信息泄漏和更紧密地遵循所需文本提示方面的优势。

内容风格合成效果

在免训练方法中,InstantStyle 和 IP-Adapter 依赖于 ControlNet ,这通常限制了它们准确遵循提示来改变生成内容姿势的能力,例如(b)中的“跳舞”或“行走” (c)中的”。相比之下,该方法避免了对 ControlNet 或适配器的需要,并且可以有效地捕获风格和内容图像的独特属性,同时遵循生成多样化图像的提示。

图片

该方法比免训练方法 IP-Adapter [21] 和 InstantStyle [13] 显示出更好的即时对齐和更大的多样性,并且与基于训练的 ZipLoRA [10] 具有竞争性能。

消融研究

该方法建立在任何基于变压器的扩散模型之上。在这种情况下,使用StableCascade 作为基础,并依次添加每个模块以显示其有效性。DirectConcat 涉及将参考图像嵌入与提示嵌入连接起来。本消融研究不包括风格描述。

图片

用户定义的一致风格化

由于没有风格描述,结果展示了更多的多样性,同时遵循所需的提示并有效地捕获参考风格。InstantStyle 结果显示单调的场景,而 StyleAligned 结果存在严重的信息泄漏。

图片每列描述了基于用户定义的提示的一致风格对齐代

使用样式描述进行样式化

虽然替代方法面临着遵循提示(例如,多架飞机而不是一架飞机)和信息泄漏(例如,玉米片碗上的云和奶昔图像中的吉他)等挑战,但该方法在这两个提示上都表现出了强大的性能和风格对齐。

图片

没有风格描述的风格化

删除样式描述后,StyleAligned 和 StyleDrop 显示严重的性能下降(例如,参见消防员和猫图像)。InstantStyle 结果显示更多信息泄漏(例如粉红瓢虫和豹子),而该文的方法中没有观察到明显的性能下降。

图片

虽然图像的内容可以通过文本来传达,但表达艺术家的独特风格(以独特的笔触、调色板、材料和纹理为特征)却更加细致和复杂。上图表明,无论有没有样式描述,该方法都会生成一致的样式化结果。

相信 RB 调制的早期结果将为未来沿着这个方向进行有趣的研究铺平道路。

原创文章,作者:guozi,如若转载,请注明出处:https://www.sudun.com/ask/81419.html

Like (0)
guozi的头像guozi
Previous 2024年5月31日 上午11:42
Next 2024年5月31日

相关推荐

  • 云服务器和轻量级服务器的区别

    云服务器和轻量级服务器,这两个名词在当今的网络安全加速行业中越来越被人们所熟知。它们都是服务器的一种,但究竟有什么区别呢?是什么让它们在技术特点、适用场景、安全性方面有着不同的表现…

    行业资讯 2024年3月23日
    0
  • 网站被uc浏览器拦截怎么解除,uc浏览器屏蔽了广告如何恢复

    除了上述原因外,用户投诉也是网站被UC浏览器屏蔽的重要因素。如果网站存在虚假广告、欺骗用户或从事其他恶意活动,用户可以通过UC浏览器提供的举报功能进行投诉。经核实,如果确实存在问题…

    行业资讯 2024年5月8日
    0
  • 怎么建设网站

    如今,随着互联网的发展,网站已经成为企业宣传、销售和服务的重要渠道。然而,对于很多企业来说,建设一个高效、稳定的网站并不是一件容易的事情。那么,怎么建设网站呢?如何选择合适的云服务…

    行业资讯 2024年3月25日
    0
  • 免费代理服务器下载

    在网络安全加速行业中,免费代理服务器下载是备受关注的话题。那么什么是代理服务器?它有什么作用和优势?如何获取和使用免费代理服务器?如何选择可靠的免费代理服务器?让我们一起来揭开这些…

    行业资讯 2024年4月10日
    0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注