新的 AI 调制技术

论文标题：

RB-Modulation: Training-Free Personalization of Diffusion Models using Stochastic Optimal Control

论文链接：

https://arxiv.org/abs/2405.17401

项目链接：

https://rb-modulation.github.io/

先看效果：

给定单个参考图像（圆角矩形），该文的方法 RB-Modulation 提供了一种免训练的即插即用解决方案，用于 (a) 风格化和 (b) 具有各种提示的内容风格组合，同时保持样本多样性和提示对齐。例如，给定参考样式图像（例如“融化的金色3D渲染样式”）和内容图像（例如（A）“狗”），该方法遵循所需的提示，而不会泄漏参考样式图像中的内容，也不会受到限制到参考内容图像的姿势。

摘要

该文提出了基于参考的调制（RB-调制），这是一种新的即插即用解决方案，用于扩散模型的免训练个性化。现有的免训练方法在以下方面表现出困难：

（a）在缺乏附加样式或内容文本描述的情况下从参考图像中提取样式；

（b）从参考样式图像中泄漏不需要的内容；

（c）样式和内容的有效组合。

RB-Modulation 建立在一种新颖的随机最优控制器上，其中样式描述通过终端成本对所需属性进行编码。由此产生的漂移不仅克服了上述困难，而且保证了对参考样式的高保真度并遵守给定的文本提示。该文还引入了一种基于交叉注意力的特征聚合方案，该方案允许 RB-Modulation 将内容和风格与参考图像解耦。凭借理论依据和经验证据，该框架以无需训练的方式展示了对内容和风格的精确提取和控制。此外，该方法允许内容和样式的无缝组合，这标志着摆脱对外部适配器或 ControlNet 的依赖。

贡献

1. 提出了基于参考的调制（RB-Modulation），这是一种新颖的随机最优控制框架，可实现免训练、个性化的风格和内容控制，并具有新的注意特征聚合（AFA）模块，可在遵循参考图像的同时保持对参考图像的高保真度到给定的提示。

2. 提供了连接最优控制和反向扩散动力学的理论依据。我们利用这种连接将所需的属性（例如风格）纳入控制器的终端成本中，并以免训练的方式个性化 T2I 模型。

3. 涵盖风格化和内容风格构成的广泛实验，证明了在人类偏好指标方面优于 SoTA 方法的性能。

风格化结果

在第三行中，StyleAligned 和 StyleDrop 生成一个酒瓶和一本书，类似于参考样式图像中的智能手机。在最后一行，StyleAligned 泄露了参考图像的房屋和背景；InstantStyle 表现出房屋的颜色泄漏，导致图像颜色相似。该文的方法准确地遵循所需风格的提示。

与最先进的方法（InstantStyle、StyleAligned、StyleDrop）的比较凸显了该方法在防止参考样式信息泄漏和更紧密地遵循所需文本提示方面的优势。

内容风格合成效果

在免训练方法中，InstantStyle 和 IP-Adapter 依赖于 ControlNet ，这通常限制了它们准确遵循提示来改变生成内容姿势的能力，例如（b）中的“跳舞”或“行走” （c）中的”。相比之下，该方法避免了对 ControlNet 或适配器的需要，并且可以有效地捕获风格和内容图像的独特属性，同时遵循生成多样化图像的提示。