新的 AI 调制技术

论文标题

RB-Modulation: Training-Free Personalization of Diffusion Models using Stochastic Optimal Control
论文链接:
https://arxiv.org/abs/2405.17401
项目链接
https://rb-modulation.github.io/
先看效果:

图片

给定单个参考图像(圆角矩形),该文的方法 RB-Modulation 提供了一种免训练的即插即用解决方案,用于 (a) 风格化和 (b) 具有各种提示的内容风格组合,同时保持样本多样性和提示对齐。例如,给定参考样式图像(例如“融化的金色3D渲染样式”)和内容图像(例如(A)“狗”),该方法遵循所需的提示,而不会泄漏参考样式图像中的内容,也不会受到限制到参考内容图像的姿势。

摘要

该文提出了基于参考的调制(RB-调制),这是一种新的即插即用解决方案,用于扩散模型的免训练个性化。现有的免训练方法在以下方面表现出困难:
(a)在缺乏附加样式或内容文本描述的情况下从参考图像中提取样式;
(b)从参考样式图像中泄漏不需要的内容;
(c)样式和内容的有效组合。 
RB-Modulation 建立在一种新颖的随机最优控制器上,其中样式描述通过终端成本对所需属性进行编码。由此产生的漂移不仅克服了上述困难,而且保证了对参考样式的高保真度并遵守给定的文本提示。该文还引入了一种基于交叉注意力的特征聚合方案,该方案允许 RB-Modulation 将内容和风格与参考图像解耦。凭借理论依据和经验证据,该框架以无需训练的方式展示了对内容和风格的精确提取和控制。此外,该方法允许内容和样式的无缝组合,这标志着摆脱对外部适配器或 ControlNet 的依赖。

贡献

1. 提出了基于参考的调制(RB-Modulation),这是一种新颖的随机最优控制框架,可实现免训练、个性化的风格和内容控制,并具有新的注意特征聚合(AFA)模块,可在遵循参考图像的同时保持对参考图像的高保真度到给定的提示。

2. 提供了连接最优控制和反向扩散动力学的理论依据。我们利用这种连接将所需的属性(例如风格)纳入控制器的终端成本中,并以免训练的方式个性化 T2I 模型。

3. 涵盖风格化和内容风格构成的广泛实验,证明了在人类偏好指标方面优于 SoTA 方法的性能。

风格化结果

在第三行中,StyleAligned 和 StyleDrop 生成一个酒瓶和一本书,类似于参考样式图像中的智能手机。在最后一行,StyleAligned 泄露了参考图像的房屋和背景;InstantStyle 表现出房屋的颜色泄漏,导致图像颜色相似。该文的方法准确地遵循所需风格的提示。

图片

与最先进的方法(InstantStyle、StyleAligned、StyleDrop)的比较凸显了该方法在防止参考样式信息泄漏和更紧密地遵循所需文本提示方面的优势。

内容风格合成效果

在免训练方法中,InstantStyle 和 IP-Adapter 依赖于 ControlNet ,这通常限制了它们准确遵循提示来改变生成内容姿势的能力,例如(b)中的“跳舞”或“行走” (c)中的”。相比之下,该方法避免了对 ControlNet 或适配器的需要,并且可以有效地捕获风格和内容图像的独特属性,同时遵循生成多样化图像的提示。

图片

该方法比免训练方法 IP-Adapter [21] 和 InstantStyle [13] 显示出更好的即时对齐和更大的多样性,并且与基于训练的 ZipLoRA [10] 具有竞争性能。

消融研究

该方法建立在任何基于变压器的扩散模型之上。在这种情况下,使用StableCascade 作为基础,并依次添加每个模块以显示其有效性。DirectConcat 涉及将参考图像嵌入与提示嵌入连接起来。本消融研究不包括风格描述。

图片

用户定义的一致风格化

由于没有风格描述,结果展示了更多的多样性,同时遵循所需的提示并有效地捕获参考风格。InstantStyle 结果显示单调的场景,而 StyleAligned 结果存在严重的信息泄漏。

图片每列描述了基于用户定义的提示的一致风格对齐代

使用样式描述进行样式化

虽然替代方法面临着遵循提示(例如,多架飞机而不是一架飞机)和信息泄漏(例如,玉米片碗上的云和奶昔图像中的吉他)等挑战,但该方法在这两个提示上都表现出了强大的性能和风格对齐。

图片

没有风格描述的风格化

删除样式描述后,StyleAligned 和 StyleDrop 显示严重的性能下降(例如,参见消防员和猫图像)。InstantStyle 结果显示更多信息泄漏(例如粉红瓢虫和豹子),而该文的方法中没有观察到明显的性能下降。

图片

虽然图像的内容可以通过文本来传达,但表达艺术家的独特风格(以独特的笔触、调色板、材料和纹理为特征)却更加细致和复杂。上图表明,无论有没有样式描述,该方法都会生成一致的样式化结果。

相信 RB 调制的早期结果将为未来沿着这个方向进行有趣的研究铺平道路。

原创文章,作者:guozi,如若转载,请注明出处:https://www.sudun.com/ask/81419.html

(0)
guozi's avatarguozi
上一篇 2024年5月31日 上午11:42
下一篇 2024年5月31日 上午11:43

相关推荐

  • 如何查询服务器配置?

    网络安全加速行业一直备受关注,而服务器配置的查询更是其中重要的一环。你是否想过,什么是服务器配置?为什么需要查询服务器配置?如何查询服务器配置?今天,我将为你揭开这个话题的神秘面纱…

    行业资讯 2024年4月3日
    0
  • 医疗网站模板,医疗网站建设中心

    医疗网站建设规划是一个备受关注的话题。随着互联网的发展,越来越多的医疗机构意识到拥有专业、高效的网站对于提升品牌形象和服务质量的重要性。那么如何在众多的建站方案中选择最适合医疗行业…

    行业资讯 2024年3月29日
    0
  • shadowsocks dns污染

    当今互联网行业,一个名为“Shadowsock DNS污染”的话题正在引起广泛关注。这就涉及到一个叫Shadowsocks的网络服务以及DNS污染这个热门话题。那么什么是影子袜呢?…

    行业资讯 2024年5月13日
    0
  • 域名被劫持最佳处理办法,域名被劫持原因

    一旦您发现您的域名被劫持,最重要的是立即联系您的注册商或托管提供商寻求帮助。他们经常提供紧急解决方案并帮助您重新获得控制。 4. 更改您的帐户密码和安全设置 为了防止类似事件再次发…

    行业资讯 2024年5月11日
    0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注