谷歌视觉语言模型PaLI3发布,只有5B参数,更小、更快、更强

机器之心报道在多模态(视觉语言)大模型领域,拼参数赢性能的同时,追求参数更小、速度更快、性能更强是另一条研究路径。在大模型时代,视觉语言模型(VLM)的参数已经

大家好,感谢邀请,今天来为大家分享一下谷歌视觉语言模型PaLI3发布,只有5B参数,更小、更快、更强的问题,以及和的一些困惑,大家要是还不太明白的话,也没有关系,因为接下来将为大家分享,希望可以帮助到大家,解决大家的问题,下面就开始吧!

在大模型时代,视觉语言模型(VLM)的参数已经扩展到数百甚至数千亿,使得性能不断提升。与此同时,较小规模的模型仍然很重要,因为它们更容易训练和服务,更环保,并为模型设计提供更快的研究周期。

在这个领域,谷歌研究院去年推出了一个名为PaLI(Pathways Language and Image)的模型。作为一个大型多模态模型,PaLI 的关键结构之一是重用大型单模态主干进行语言和视觉建模。它重复使用具有13B 语言参数的mT5-XXL 和具有2B 视觉参数的ViT。 ViT-e 具有-G 和4B 参数。当时PaLI的性能优于大多数新旧型号。

此后,Google 继续专注于较小规模的建模,最近提出了PaLI-3,PaLI 系列的第三代模型。通过仅包含5B 个参数的预训练基线模型,他们优化了训练方法,并在多个VLM 基准上取得了具有竞争力的全新SOTA 结果。

该方法主要由三部分组成,即图像编码器在网络规模图像文本数据上的比较预训练、PaLI多模态训练的改进混合数据集以及更高分辨率的训练。

论文地址:https://arxiv.org/pdf/2310.09199.pdf

下图显示了5B PaLI-3 模型的概述,其中通过与预训练的2B SigLIP 视觉模型进行比较,将图像单独编码为视觉标记。这些视觉标记与查询一起被传递到3B 编码器-解码器架构的UL2 Transformer,从而生成预期的答案。在此设置中,预训练模型比之前PaLI 模型中的单类别预训练模型提供了明显更有用的标记。

效果如何? PaLI-3 在需要视觉本地化文本理解和对象定位的任务上实现了新的最先进的性能,包括RefCOCO 数据集上的8 个视觉本地化文本理解任务和参考表达分割任务。 PaLI-3 在一系列分类视觉任务上也表现良好。

此外,研究人员还专门进行了消融实验,与分类预训练的ViT 基线模型进行比较,进一步证实了预训练的视觉编码器在噪声网络规模图像和文本数据上的可行性,从而成为一种执行分类数据训练的首选替代方案。

除了5B PaLI-3模型之外,研究人员还利用最近提出的SigLIP方法构建了参数扩展到2B的SOTA多语言对比视觉模型。

型号介绍

建筑学

在较高层面上,PaLI-3 的架构遵循Chen 等人的观点。 (2023b;a):ViT 模型将图像编码为标记,这些标记与问题、提示和指令等文本输入一起传递到编码器-解码器。结构的转换器,从而产生文本输出。

我们先来看看视觉组件。研究人员使用SigLIP 训练方法从预训练的ViT-G/14 模型(参数约为2B)初始化PaLI-3 的视觉主干。简而言之,他们训练了图像嵌入ViT-G/14 模型和文本嵌入Transformer 模型来分别嵌入图像和文本,使得使用图像和文本嵌入点积的sigmoid 交叉熵的二元分类器可以准确地分类是否各自图像和文本相互对应。

这与CLIP 和ALIGN 类似,但更高效、可扩展且稳健。同时,该方法是预训练ViT图像嵌入组件,因此当将ViT插入PaLI时,文本嵌入变压器将被丢弃。

让我们看一下完整的PaLI 模型。 ViT 图像编码器的输出在池化之前形成视觉标记,并被线性映射并添加到嵌入的输入文本标记中。然后,这些标记被传递到预先训练的3B UL2 编码器-解码器模型,该模型生成文本输出。模型的文本输入通常包含描述任务类型并对任务所需的文本输入进行编码的提示。

火车

训练过程由多个阶段组成。

第0 阶段:单峰预训练。图像编码器按照SigLIP协议进行训练,图像编码器在224224的分辨率下进行训练;文本编码器-解码器是按照Tay 等人描述的混合去噪程序训练的3B UL2 模型。

第一阶段:多模式培训。图像编码器与文本编码器-解码器相结合,生成的PaLI 模型在多模态任务和数据上进行训练。此时图像编码器保持冻结状态,分辨率仍为224224。主要的混合组件再次源自WebLI 数据集,通过对文本质量执行启发式过滤并使用SplitCap 训练目标。

实验与结果

谷歌视觉语言模型PaLI3发布,只有5B参数,更小、更快、更强

实验首先比较了PaLI框架下不同ViT模型的结果。研究人员考虑了两种ViT 模型:Classif 和SigLIP。

表1 所示的结果表明,尽管SigLIP 模型在少样本线性分类方面有些落后,但通过使用PaLI-3,SigLIP 模型在字幕和问答等更简单的任务上提供了适度的增益,并提高了以下任务的性能:更复杂的任务。在场景文本和空间理解任务上取得了巨大的成果。

此外,研究人员还在TextCaps、TextVQA、STVQA、OCRVQA、InfographicVQA、DocVQA、ChartQA、Scree2Words 和WidgetCap 数据集上评估了PaLI-3。结果如表2所示。使用外部OCR系统时,PaLI-3仅比SOTA方法低0.7分。然而,如果没有这个外部系统,PaLI-3 的性能比所有SOTA 方法的总和高出4.4 分。对于TextCaps、TextVQA、InfographicVQA 和DocVQA,PaLI-3 的性能优于8 个点或更多。

参考表达分割

我们扩展了PaLI-3 以从类似语言的输出中预测分割掩码。为此,他们利用了Ning 等人(2023) 的矢量量化变分自动编码器(VQ-VAE)。 VQ-VAE 经过训练可以学习128 个掩模标记,其编码器可以将64 64 像素分割掩模标记为16 个掩模标记,解码器可以将其转换回来。

我们训练PaLI-3 通过首先输出4 个坐标作为文本并表示为边界框来预测单个分割掩模。接下来是16 个掩码标记,代表边界框内的掩码。

表1 显示,对于此类定位任务,对比预训练比分类预训练更有效。下面的表3 显示,完整的PaLI-3 模型在参考表达分割方面略优于最先进的模型。

图像理解

研究人员接下来在一般视觉语言理解任务上评估了PaLI-3。与之前的工作一样,他们没有使用外部OCR 模块,因为这些基准测试很少涉及图像中的文本。

结果表明,与最近的SOTA 模型相比,PaLI-3 的尺寸要小得多,但它在这些基准测试中显示出非常强大的性能。对于COCO,PaLI-3 优于除BEiT-3 以及17B 和55B PaLI 之外的所有模型。在VQAv2 和TallyQA 上,PaLI-3 优于除PaLI-X 之外的所有先前模型。对于OKVQA 任务,PaLI-3 仅落后于PaLM-E (562B) 和PaLI-X (55B),但仍然优于32 镜头Flamingo (80B) 模型。

视频字幕和问答

这项研究在4 个视频字幕基准上对PaLI-3 模型进行了微调和评估:MSR-VTT、VATEX、ActivityNet Captions 和Spoken Moments in Time。此外,该研究还在3 个视频问答基准测试上执行了相同的操作:NExT-QA、MSR-VTT-QA 和ActivityNet-QA。

尽管没有使用视频数据进行预训练,PaLI-3 在较小的模型尺寸下实现了出色的视频QA 结果:在MSR-VTT-QA 和ActivityNet-QA 上实现了state-of-the-art 的性能,并实现了state-of- NextQA 上最先进的性能取得了有竞争力的结果。图像和视频QA 的持续改进突显了采用对比ViT 的优势。

此外,PaLI-3 实现了非常好的视频字幕效果,平均仅比SOTA 成绩低3 个CIDEr 点。考虑到模型的尺寸,无论是性能还是实用性,PaLI-3 似乎都是一个绝佳的选择。

直接图像编码器评估

研究人员还对ViT-G模型进行了评估,可以理解为不是完整的PaLI-3,结果如表6所示。

首先,该研究使用标准ImageNet 基准及其两个最流行的变体来测试图像分类能力。结果表明,SigLIP 在top-1 和v2 精度方面稍有落后,但在ReaL 中取得了相当的结果。

其次,该研究报告了不同模型在Crossmodal-3600 基准上的结果。结果表明,SigLIP ViT-G 模型明显优于更大的ViT-e 模型。

最后,该研究还报告了线性探测结果,这表明SigLIP 优于其他模型。

表7 和表8 评估了模型的公平性、偏差和其他潜在问题。

用户评论

谷歌视觉语言模型PaLI3发布,只有5B参数,更小、更快、更强
最迷人的危险

哇!只有5B参数就能这么强大!谷歌这技术厉害了,我一直觉得大模型参数越多越好,现在看来不是这样啊,中小模型也能做到很棒的效果。

    有7位网友表示赞同!

谷歌视觉语言模型PaLI3发布,只有5B参数,更小、更快、更强
巷陌繁花丶

作为一名程序员,我很期待看到PaLI3的开源版本,看看它内部是怎么运作的。如果能用来代替一些现有的视觉语言模型,那简直太好了!

    有13位网友表示赞同!

谷歌视觉语言模型PaLI3发布,只有5B参数,更小、更快、更强
迁心

我一直想尝试一下谷歌的产品,这次PaLI3绝对要试试,看一看它能不能胜过现在我用的一些其他模型,毕竟参数小、速度快,应该会更省资源吧?

    有17位网友表示赞同!

谷歌视觉语言模型PaLI3发布,只有5B参数,更小、更快、更强
眷恋

5B参数真的足够吗?有点怀疑效果会不会和大模型有所差距,不过还是蛮期待的,毕竟能更快、更小的条件下达到优秀的效果确实是个不错的进展啊!

    有13位网友表示赞同!

谷歌视觉语言模型PaLI3发布,只有5B参数,更小、更快、更强
怪咖

谷歌每次发布新模型都让人惊喜!之前PaLI2就给我留下了深刻印象,现在第三代竟然参数更小了,效率还要更高,太赞了!这几年视觉语言模型的发展真的是飞速前进啊!

    有10位网友表示赞同!

谷歌视觉语言模型PaLI3发布,只有5B参数,更小、更快、更强
罪歌

感觉这个PaLI3会对很多行业的应用产生深远影响。比如自动驾驶、图像识别等等,未来我们可能就能看到更加便捷、高效的服务了!

    有20位网友表示赞同!

谷歌视觉语言模型PaLI3发布,只有5B参数,更小、更快、更强
刺心爱人i

5B参数确实是个惊喜,但模型越大才代表越强大吗?我觉得这取决于具体的应用场景,有些特定任务或许更适合参数相对小的模型,这样能更有效率地处理数据。

    有16位网友表示赞同!

谷歌视觉语言模型PaLI3发布,只有5B参数,更小、更快、更强
炙年

希望PaLI3能够开源开放,让更多开发者去探索和研究。我相信会有很多创意应用程序诞生在这个基础上!

    有9位网友表示赞同!

谷歌视觉语言模型PaLI3发布,只有5B参数,更小、更快、更强
黑夜漫长

这个消息让我重燃了对AI发展的热情!小型高效率的模型真的很有潜力,将会为科学研究、商业应用等领域带来更便捷的方式!

    有5位网友表示赞同!

谷歌视觉语言模型PaLI3发布,只有5B参数,更小、更快、更强
龙卷风卷走爱情

我一直很喜欢谷歌的研究方向,这次PaLI3也让我看到了科技进步的希望。未来,可能真正让AI走进千家万户的道路就在这里了!

    有14位网友表示赞同!

谷歌视觉语言模型PaLI3发布,只有5B参数,更小、更快、更强
执拗旧人

这个PaLI3会不会真的比目前主流模型效果更好?我有些质疑,毕竟参数这么小,感觉可能在复杂情况下的处理能力不足…

    有6位网友表示赞同!

谷歌视觉语言模型PaLI3发布,只有5B参数,更小、更快、更强
浮殇年华

期待看到更多关于PaLI3详细的技术解读。 比如它是如何训练的?具体应用了什么技术?

    有8位网友表示赞同!

谷歌视觉语言模型PaLI3发布,只有5B参数,更小、更快、更强
志平

希望谷歌能公开PaLI3的 Benchmark 数据,这样大家才能更清楚地评估它的实际效果和差距。

    有13位网友表示赞同!

谷歌视觉语言模型PaLI3发布,只有5B参数,更小、更快、更强
有些人,只适合好奇~

感觉未来视觉语言模型的发展方向就是这个趋势,越来越强调效率与低能耗, 期待看到 PaLI3 能在实际应用中取得更好的成绩!

    有20位网友表示赞同!

谷歌视觉语言模型PaLI3发布,只有5B参数,更小、更快、更强
浮光浅夏ζ

我一直觉得视觉语言模型太大了,难以部署到移动端或者嵌入式系统。PaLI3的出现或许能解决这个问题,未来我们可以看到更多更智能的小型设备!

    有9位网友表示赞同!

谷歌视觉语言模型PaLI3发布,只有5B参数,更小、更快、更强
西瓜贩子

参数小的优势明显,训练时间短、运算效率高,但会不会牺牲一定的准确性呢? 这还需要更多的测试数据来证明。

    有6位网友表示赞同!

谷歌视觉语言模型PaLI3发布,只有5B参数,更小、更快、更强
一笑抵千言

作为一名研究者,真的很期待PaLI3的开源版本。我希望能深入研究它的模型架构和训练方法, 或许能从中获得一些启发。

    有14位网友表示赞同!

谷歌视觉语言模型PaLI3发布,只有5B参数,更小、更快、更强
江山策

感觉谷歌这次的尝试很有意思。如果 PaLI3 的效果确实出色,那未来肯定会掀起一场新的AI技术浪潮!

    有18位网友表示赞同!

原创文章,作者:小su,如若转载,请注明出处:https://www.sudun.com/ask/108481.html

(0)
小su's avatar小su
上一篇 2024年8月30日 下午12:13
下一篇 2024年8月30日 下午12:17

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注