谷歌视觉语言模型PaLI3发布，只有5B参数，更小、更快、更强

大家好，感谢邀请，今天来为大家分享一下谷歌视觉语言模型PaLI3发布，只有5B参数，更小、更快、更强的问题，以及和的一些困惑，大家要是还不太明白的话，也没有关系，因为接下来将为大家分享，希望可以帮助到大家，解决大家的问题，下面就开始吧！

在大模型时代，视觉语言模型（VLM）的参数已经扩展到数百甚至数千亿，使得性能不断提升。与此同时，较小规模的模型仍然很重要，因为它们更容易训练和服务，更环保，并为模型设计提供更快的研究周期。

在这个领域，谷歌研究院去年推出了一个名为PaLI（Pathways Language and Image）的模型。作为一个大型多模态模型，PaLI 的关键结构之一是重用大型单模态主干进行语言和视觉建模。它重复使用具有13B 语言参数的mT5-XXL 和具有2B 视觉参数的ViT。 ViT-e 具有-G 和4B 参数。当时PaLI的性能优于大多数新旧型号。

此后，Google 继续专注于较小规模的建模，最近提出了PaLI-3，PaLI 系列的第三代模型。通过仅包含5B 个参数的预训练基线模型，他们优化了训练方法，并在多个VLM 基准上取得了具有竞争力的全新SOTA 结果。

该方法主要由三部分组成，即图像编码器在网络规模图像文本数据上的比较预训练、PaLI多模态训练的改进混合数据集以及更高分辨率的训练。

论文地址：https://arxiv.org/pdf/2310.09199.pdf

下图显示了5B PaLI-3 模型的概述，其中通过与预训练的2B SigLIP 视觉模型进行比较，将图像单独编码为视觉标记。这些视觉标记与查询一起被传递到3B 编码器-解码器架构的UL2 Transformer，从而生成预期的答案。在此设置中，预训练模型比之前PaLI 模型中的单类别预训练模型提供了明显更有用的标记。

效果如何？ PaLI-3 在需要视觉本地化文本理解和对象定位的任务上实现了新的最先进的性能，包括RefCOCO 数据集上的8 个视觉本地化文本理解任务和参考表达分割任务。 PaLI-3 在一系列分类视觉任务上也表现良好。

此外，研究人员还专门进行了消融实验，与分类预训练的ViT 基线模型进行比较，进一步证实了预训练的视觉编码器在噪声网络规模图像和文本数据上的可行性，从而成为一种执行分类数据训练的首选替代方案。

除了5B PaLI-3模型之外，研究人员还利用最近提出的SigLIP方法构建了参数扩展到2B的SOTA多语言对比视觉模型。

型号介绍

建筑学

在较高层面上，PaLI-3 的架构遵循Chen 等人的观点。 (2023b;a)：ViT 模型将图像编码为标记，这些标记与问题、提示和指令等文本输入一起传递到编码器-解码器。结构的转换器，从而产生文本输出。

我们先来看看视觉组件。研究人员使用SigLIP 训练方法从预训练的ViT-G/14 模型（参数约为2B）初始化PaLI-3 的视觉主干。简而言之，他们训练了图像嵌入ViT-G/14 模型和文本嵌入Transformer 模型来分别嵌入图像和文本，使得使用图像和文本嵌入点积的sigmoid 交叉熵的二元分类器可以准确地分类是否各自图像和文本相互对应。

这与CLIP 和ALIGN 类似，但更高效、可扩展且稳健。同时，该方法是预训练ViT图像嵌入组件，因此当将ViT插入PaLI时，文本嵌入变压器将被丢弃。

让我们看一下完整的PaLI 模型。 ViT 图像编码器的输出在池化之前形成视觉标记，并被线性映射并添加到嵌入的输入文本标记中。然后，这些标记被传递到预先训练的3B UL2 编码器-解码器模型，该模型生成文本输出。模型的文本输入通常包含描述任务类型并对任务所需的文本输入进行编码的提示。

火车

训练过程由多个阶段组成。

第0 阶段：单峰预训练。图像编码器按照SigLIP协议进行训练，图像编码器在224224的分辨率下进行训练；文本编码器-解码器是按照Tay 等人描述的混合去噪程序训练的3B UL2 模型。

第一阶段：多模式培训。图像编码器与文本编码器-解码器相结合，生成的PaLI 模型在多模态任务和数据上进行训练。此时图像编码器保持冻结状态，分辨率仍为224224。主要的混合组件再次源自WebLI 数据集，通过对文本质量执行启发式过滤并使用SplitCap 训练目标。

实验与结果

实验首先比较了PaLI框架下不同ViT模型的结果。研究人员考虑了两种ViT 模型：Classif 和SigLIP。

表1 所示的结果表明，尽管SigLIP 模型在少样本线性分类方面有些落后，但通过使用PaLI-3，SigLIP 模型在字幕和问答等更简单的任务上提供了适度的增益，并提高了以下任务的性能：更复杂的任务。在场景文本和空间理解任务上取得了巨大的成果。

此外，研究人员还在TextCaps、TextVQA、STVQA、OCRVQA、InfographicVQA、DocVQA、ChartQA、Scree2Words 和WidgetCap 数据集上评估了PaLI-3。结果如表2所示。使用外部OCR系统时，PaLI-3仅比SOTA方法低0.7分。然而，如果没有这个外部系统，PaLI-3 的性能比所有SOTA 方法的总和高出4.4 分。对于TextCaps、TextVQA、InfographicVQA 和DocVQA，PaLI-3 的性能优于8 个点或更多。

参考表达分割

我们扩展了PaLI-3 以从类似语言的输出中预测分割掩码。为此，他们利用了Ning 等人(2023) 的矢量量化变分自动编码器(VQ-VAE)。 VQ-VAE 经过训练可以学习128 个掩模标记，其编码器可以将64 64 像素分割掩模标记为16 个掩模标记，解码器可以将其转换回来。

我们训练PaLI-3 通过首先输出4 个坐标作为文本并表示为边界框来预测单个分割掩模。接下来是16 个掩码标记，代表边界框内的掩码。

表1 显示，对于此类定位任务，对比预训练比分类预训练更有效。下面的表3 显示，完整的PaLI-3 模型在参考表达分割方面略优于最先进的模型。

图像理解

研究人员接下来在一般视觉语言理解任务上评估了PaLI-3。与之前的工作一样，他们没有使用外部OCR 模块，因为这些基准测试很少涉及图像中的文本。

结果表明，与最近的SOTA 模型相比，PaLI-3 的尺寸要小得多，但它在这些基准测试中显示出非常强大的性能。对于COCO，PaLI-3 优于除BEiT-3 以及17B 和55B PaLI 之外的所有模型。在VQAv2 和TallyQA 上，PaLI-3 优于除PaLI-X 之外的所有先前模型。对于OKVQA 任务，PaLI-3 仅落后于PaLM-E (562B) 和PaLI-X (55B)，但仍然优于32 镜头Flamingo (80B) 模型。

视频字幕和问答

这项研究在4 个视频字幕基准上对PaLI-3 模型进行了微调和评估：MSR-VTT、VATEX、ActivityNet Captions 和Spoken Moments in Time。此外，该研究还在3 个视频问答基准测试上执行了相同的操作：NExT-QA、MSR-VTT-QA 和ActivityNet-QA。

尽管没有使用视频数据进行预训练，PaLI-3 在较小的模型尺寸下实现了出色的视频QA 结果：在MSR-VTT-QA 和ActivityNet-QA 上实现了state-of-the-art 的性能，并实现了state-of- NextQA 上最先进的性能取得了有竞争力的结果。图像和视频QA 的持续改进突显了采用对比ViT 的优势。

此外，PaLI-3 实现了非常好的视频字幕效果，平均仅比SOTA 成绩低3 个CIDEr 点。考虑到模型的尺寸，无论是性能还是实用性，PaLI-3 似乎都是一个绝佳的选择。

直接图像编码器评估

研究人员还对ViT-G模型进行了评估，可以理解为不是完整的PaLI-3，结果如表6所示。

首先，该研究使用标准ImageNet 基准及其两个最流行的变体来测试图像分类能力。结果表明，SigLIP 在top-1 和v2 精度方面稍有落后，但在ReaL 中取得了相当的结果。

其次，该研究报告了不同模型在Crossmodal-3600 基准上的结果。结果表明，SigLIP ViT-G 模型明显优于更大的ViT-e 模型。

最后，该研究还报告了线性探测结果，这表明SigLIP 优于其他模型。

表7 和表8 评估了模型的公平性、偏差和其他潜在问题。