多模态大语言模型全面综述：架构，训练，数据，评估，扩展，应用，挑战，机遇

1 引言

LLM近年来取得了长足的进步[1][2][3][4][5]。通过扩大数据规模和模型规模，这些LLM主要包括以下指令[5][6]、情境学习（ICL）[7]和思想链（CoT）[8]，释放非凡的新功能。尽管法学硕士在大多数自然语言处理（NLP）任务中表现出出色的零样本/少样本推理性能，但它们本质上对视觉“视而不见”，因为它们只能理解离散文本。另一方面，大视觉模型（LVM）可以清楚地“看到”[9][10][11][12]，但通常会延迟推理。

考虑到这种互补性，LLM 和LVM 更加接近，引领了多模态大规模语言模型（MLLM）的新领域。从形式上来说，它指的是基于LLM 的模型，具有接收、推断和输出多模态信息的能力。在MLLM出现之前，有许多致力于多模态的研究，可分为识别范式[13][14][15]和生成范式[16][17][18]。 CLIP [13]代表前者，将视觉和文本信息投射到统一的表示空间中，并为下游多模式任务提供桥梁。相比之下，OFA [16]代表了后者，逐个序列地集成多模态任务。根据序列运算，MLLM属于后一类，但与传统的对应物相比，MLLM有两个典型特征。（1）MLLM基于LLM，参数规模达数十亿，这不适用于之前的模型。你不能使用它。（2）MLLM使用新的训练范式来充分发挥其潜力，例如使用多模态指令调整[19][20]来鼓励模型遵循新指令。这两个属性使MLLM 能够展示新的功能，例如基于图像创建网站代码[21]、理解模因的深层含义[22] 以及无需OCR 的数学推理[23]。

自GPT-4 [3] 发布以来，由于GPT-4 展示了令人惊叹的多模态示例，MLLM 研究蓬勃发展。学术界和工业界的努力正在推动快速进展。 MLLM的初步研究主要集中在基于文本提示和图像[20][24]/视频[25][26]/音频[27]生成文本内容。后续工作扩展了功能和使用场景，包括：（一）强化细化支持。已经开发了对用户提示的更细粒度的控制，以通过装箱[28] 或单击[29] 来支持特定对象的特定区域。（2）增强对图像、视频、音频和点云等输入和输出模式的支持[30][31]。像NExT-GPT [32] 这样的项目除了输入之外还支持各种格式的输出。 (3)改进的语言支持。人们已经努力将MLLM 的成功扩展到训练语料库相对有限的其他语言（例如中文）[33][34]。 (4)扩展到更多领域和使用场景。一些研究已将MLLM 的强大功能应用于其他领域，例如医学图像理解[35][36][37] 和文档分析[38][39][40]。此外，诸如实体代理[41][42]和GUI代理[43][44][45]之类的多模式代理已经被开发来支持现实世界的交互。图1 显示了MLLM 时间线。

考虑到该领域的快速发展和令人鼓舞的成果，我们编写了这篇综述，以使研究人员了解MLLM 的基本思想、主要技术和当前进展。请注意，虽然我们主要关注视觉和语言模式，但我们也包括涉及其他模式的工作，例如视频和音频。具体来说，我们将重点介绍MLLM 最重要的方面，提供相应的概述，并启动实时更新的GitHub 页面。据我们所知，这是对MLLM 的第一次评论。审查的下一部分安排如下。在我们的审查中，我们首先对MLLM 的基本方面进行全面审查，包括(1) 主流架构(2)、(2) 完整的训练策略和数据配方(3)。 (3) 通用绩效评估实践（4）。然后，我们详细阐述了有关MLLM 的几个重要主题，每个主题都侧重于以下关键问题：（1）哪些方面可以进一步改进或扩展（5）？ (2) 我们如何缓解多模态幻觉问题（6）？概述介绍了三种主要技术（7），每种技术专门针对特定场景。 MICL（第7.1 节）是推理阶段常用的一种有效技术，可提高小样本性能。另一种重要的技术是M-CoT（第7.2 节），它通常用于复杂的推理任务。然后，我们概述了开发基于LLM 的系统来解决复杂推理任务和处理常见用户查询的一般思路（第7.3 节）。最后，我们以概述和潜在的研究方向来结束综述。

2 架构

典型的多模态大规模语言模型（MLLM）可以抽象为三个模块：预训练的模态编码器、预训练的大规模语言模型（LLM）以及连接它们的模态接口。模态编码器，例如类人图像/音频编码器，就像人的眼睛/耳朵一样接收和预处理光学/声学信号，而法学硕士则理解处理后的信号，就像人脑推理一样。同时，使用模态界面来调整各种模态。一些MLLM 还包括用于输出文本以外的模式的生成器。图2 显示了该架构的图。本节依次介绍各个模块。

2.1 模态编码器

编码器将原始信息（例如图像和音频）压缩为更紧凑的表示形式。与从头开始训练相比，一种常见的方法是使用已经与其他模式配合使用的预训练编码器。例如，CLIP [13] 通过对图像-文本对执行广泛的预训练，将视觉编码器与文本在语义上对齐。因此，使用这种最初预校准的编码器可以通过预训练校准来促进与LLM 的协调（参见第3.1 节）。表1 总结了常用的图像编码器系列。除了常规的CLIP 图像编码器[13] 之外，一些作品还考虑使用其他变体。例如，MiniGPT-4 [21] 采用EVA-CLIP [47] [48] (ViT-G/14) 编码器，并通过改进的训练技术进行训练。相比之下，Osprey [29] 引入了基于卷积的ConvNext-L 编码器[46]，以利用更高分辨率和多级功能。有些作品还考虑没有编码器的架构。例如，Fuyu-8b [49]的图像块被直接投影并发送到LLM。因此，该模型天然支持灵活的图像分辨率输入。

2.2 法学硕士预训练

从预训练模型开始是一种更高效、更实用的方法，而不是从头开始训练法学硕士。通过对网络语料库进行广泛的预训练，法学硕士嵌入了丰富的世界知识，并表现出了强大的泛化和推理能力。表2 总结了常用和已发表的法学硕士。值得注意的是，继GPT-3 [7] 之后，大多数LLM 属于因果解码器的类别。其中，FlanT5系列[56]是LLM，在之前的BLIP-2[59]和InstructBLIP[60]等研究中都使用过。 LLaMA系列[5]和Vicuna系列[4]是具有代表性的开源LLM，受到了学术界的广泛关注。这两个法学硕士主要是在英语语料库上进行预训练的，这限制了中文等多语言支持。相比之下，Qwen[58]是双语法学硕士，支持中文和英文。值得注意的是，与增加输入分辨率类似，增加LLM 的参数大小也会提供额外的增益。具体来说，Liu 等人[50][61] 发现将LLM 从7B 扩展到13B 导致了各种基准的整体改进。此外，使用34B LLM，即使在训练过程中仅使用英语多模态数据，该模型也显示出零样本中文特征。 Lu 等人[62] 通过将LLM 从13B 扩展到35B 和65B/70B，发现在专门为MLLM 设计的基准中，较大的模型尺寸会产生一致的增益。有些作品使用较小的法学硕士来促进部署到移动设备。例如，MobileVLM系列[63][64]使用尺寸减小的LLaMA[5]（称为MobileLLaMA 1.4B/2.7B）来实现移动处理器上的高效推理。最近，针对法学硕士的专家混合（MoE）架构的探索引起了越来越多的关注[65][66][67]。与密集模型相比，稀疏架构通过选择性激活参数，在不增加计算成本的情况下实现了参数总规模的扩展。事实上，MM1 [52] 和MoE-LLaVA [68] 发现MoE 实现在几乎所有基准测试中都优于其密集对应版本。

2.3 模态界面

由于LLM只能识别文本，因此有必要在自然语言和其他模态之间建立桥梁。然而，端到端训练大型多模态模型的成本高昂。更实用的方法是在预训练的视觉编码器和法学硕士之间引入可学习的连接器。另一种方法是利用专家模型（例如图像字幕模型）将图像转换为语言并将该语言发送给法学硕士。

可学习的连接器用于在不同模式之间建立桥梁。具体来说，该模块将信息投射到法学硕士可以有效理解的空间中。根据多模态信息的融合方式，大致有两种方法来实现这样的接口：基于令牌级别的融合和基于特征级别的融合。对于基于标记级别的融合，编码器输出的特征被转换为标记，并在与文本标记连接后馈送到LLM。一种常见且可行的解决方案是利用一组可学习的查询标记以基于查询的方式提取信息。它首先在BLIP-2 [59] 中实现，随后在各种研究中被采用[26][60][70]。遗产。这种Q-Former 风格将视觉标记压缩为更少的表示向量。

相反，一些方法只是使用基于MLP 的接口来弥合模态间隙[20][37][71][72]。例如，LLaVA 系列使用一两个线性MLP [20][50] 来投影视觉标记并将特征维度与词嵌入对齐。在这种情况下，MM1 [52] 对连接器设计选择进行了消融研究，发现对于基于令牌级别的融合，模态适配器的类型远没有发现的视觉令牌或输入分辨率的数量重要。尽管如此，Zeng 等人[73]比较了基于令牌和基于特征的融合的性能，并根据经验表明基于令牌的融合变体在VQA 基准上表现更好。关于性能差距，作者认为交叉注意力模型可能需要更复杂的超参数搜索过程才能实现可比较的性能。

作为一条单独的线路，基于特征级别的融合插入了额外的模块，以实现文本和视觉特征之间的详细交互和融合。例如，Flamingo [74] 在LLM 的冻结Transformer 层之间插入了一个额外的交叉注意层，从而通过外部视觉提示增强语言功能。类似地，CogVLM [75]在每个Transformer 层中插入一个视觉专家模块，以实现视觉和语言特征之间的双重交互和融合。为了获得更好的性能，引入模块的QKV权重矩阵是从预训练的LLM初始化的。类似地，LLaMA-Adapter [76] 在Transformer 层中引入了可学习的提示。这些线索首先嵌入视觉知识，然后作为前缀与文本特征连接起来。就参数大小而言，可学习接口通常只占编码器和LLM 的一小部分。以Qwen-VL[34]为例，Q-Former的参数大小约为0.08B，占总参数的不到1%，而编码器和LLM约占19.8%（1.9B）和80.2 B、占领。（7.7B））。

专家模型。除了可学习的接口之外，使用专家模型（例如图像标题模型）也是弥合模态差距的可行方法[77][78][79][80]。基本思想是无需训练即可将多模态输入转换为语言。通过这种方式，法学硕士可以通过转换后的语言来理解多模态。例如，VideoChat-Text [25] 使用预先训练的视觉模型来提取动作等视觉信息，并使用语音识别模型来增强描述。尽管专家模型易于使用，但它们可能不如采用可学习界面那么灵活。将外来形式转换为文本时，信息会丢失。例如，将视频转换为文本描述会扭曲时空关系[25]。

3 训练策略和数据

一个完整的多模态大规模语言模型（MLLM）会经历三个训练阶段：预训练、指令调优和协调调优。每个训练阶段需要不同类型的数据并且可以实现不同的目标。本节介绍培训目标、数据收集和功能。

3.1 预训练

预训练是训练过程的第一阶段，主要目标是协调不同的模式并学习多模式世界的知识。预训练阶段通常包括大规模文本配对数据，例如字幕数据。在这里，我们考虑一个常见的场景，其中MLLM 被训练来匹配视觉效果和文本。如表3 所示，给定图像，模型被训练为根据标准交叉熵损失自回归预测图像标题。预训练的一种常见方法是冻结预训练模块（例如视觉编码器或LLM）并训练可学习界面[20][35][72]。目的是避免在不调整不同模式的情况下丢失预先训练的知识。一些方法[34][81][82]解冻更多模块（例如视觉编码器）以提供更多可训练参数用于对齐。值得注意的是，训练方案与数据质量密切相关。对于短且有噪声的字幕数据，可以采用较低的分辨率（例如224）来加速训练过程，而对于长而干净的数据，可以采用较高的分辨率（例如224）来减少幻觉：448或更高）。此外，ShareGPT4V [83]发现解锁视觉编码器有助于在预训练阶段使用高质量字幕数据更好地对齐。

3.1.1 训练细节

预训练作为训练的第一阶段，主要目的是协调不同的模态并学习多模态世界的知识。预训练阶段通常包括大规模文本配对数据，例如字幕数据。这些字幕对通常用自然语言句子描述图像/音频/视频。在这里，我们考虑一个常见的场景，其中MLLM 被训练来匹配视觉效果和文本。如图3 所示，给定图像，模型被训练为根据标准交叉熵损失递归预测图像的标题。一种常见的预训练方法是冻结预训练模块（例如视觉编码器或LLM）并训练可学习的界面[20][35][72]。目的是避免在不调整不同模式的情况下丢失预先训练的知识。一些方法[34][81][82]解冻更多模块（例如视觉编码器）以提供更多可训练参数用于对齐。值得注意的是，训练方案与数据质量密切相关。对于短且有噪声的字幕数据，可以采用较低的分辨率（例如224）来加速训练过程，而对于长而干净的数据，可以采用较高的分辨率（例如224）来减少幻觉：448或更高）。此外，ShareGPT4V [83]发现解锁视觉编码器有助于在预训练阶段使用高质量字幕数据更好地对齐。

3.1.2 数据

预训练数据有两个主要目的：（1）校准不同的模式；（2）提供世界知识。预训练语料按照其粒度可以分为粗粒度数据和细粒度数据。这个我稍后会介绍。表4总结了常用的预训练数据集。粗粒度字幕数据具有以下共同特征： (1)样本通常从互联网上获取，导致数据量较大。 (2)由于网络爬行的性质，字幕是从网络图像的替代文本中获取的，因此它们通常较短且有噪声。这些数据可以通过自动化工具进行清理和过滤。例如，我们使用CLIP [13] 模型来过滤掉相似度低于预定义阈值的图像文本对。接下来，我们介绍一些具有代表性的粗粒度数据集。 C.C. CC-3M [84] 是一个网络规模的字幕数据集，包含330 万个图像字幕对，其中原始描述源自与图像相关的替代文本。作者设计了一个复杂的数据清理过程。 (1)对于图像，过滤掉内容不当或长宽比不当的图像。（2）对于文本，我们使用NLP工具获取文本注释并根据设计的启发式规则过滤样本。 (3) 对于图像-文本对，通过分类器为图像分配标签。如果文本注释没有与图像标签重叠，则相应的样本将被删除。 CC-12M [85] 是CC-3M 的后继者，包含1240 万个图像和字幕对。与之前的工作相比，CC-12M放松并简化了数据收集过程，因此收集了更多的数据。 SBU 字幕[86]。这是一个带标题的照片数据集，包含100 万个图像和文本对。图片和描述由Flickr 提供。具体来说，通过使用多个查询词查询Flickr 网站来获得初始图像集。然后，为了保证描述与图像相关，保留的图像满足以下要求： (1) 图像描述足够长，经观察确定。 (2) 图像描述包括来自预定义词汇表的至少两个单词，以及暗示空间关系的典型命题词（例如，“上方”、“下方”）。

3.2 指令的协调

3.2.1 简介

请参阅任务描述以获取说明。直观上，指令调优的目的是教会模型更好地理解用户的指令并完成期望的任务。这种经过调整的LLM 可以通过遵循新指令来概括未见过的任务，从而提高零样本性能。这种简单有效的想法影响了后续NLP 工作的成功，如ChatGPT [2]、InstructGPT [95]、FLAN [19]、[56] 和OPT-IML [96]。图3 显示了指令适应与常见学习范例的比较。有监督的微调方法通常需要大量特定于任务的数据来训练特定于任务的模型。提示方法减少了对大规模数据的依赖，并允许通过提示工程完成专门的任务。在这种情况下，少数镜头的性能有所提高，但零镜头的性能仍然非常平均[7]。相比之下，指令调优学习如何泛化到未见过的任务，而不是像其他两个任务一样适应特定任务。此外，指令调整与多任务线索高度相关[97]。本节介绍教学样本的格式、训练目标、收集教学数据的常用方法以及相应的常用数据集。

3.2.2 训练细节

多模式指令样本通常包括可选指令和一组输入/输出对。指令通常是描述任务的自然语言句子（例如，“请详细描述图像”）。输入可以是图像文本对，如VQA 任务[99] 中的那样，也可以仅为图像，如图像中的那样。字幕任务[100]。输出是命令式条件输入的答案。如表5所示，指令模板灵活，可以根据手册设计进行修改[20]、[25]、[98]。请注意，指令模板也可以推广到多轮对话的情况[20]、[37]、[71]、[98]。形式上，多模态指令样本可以用三元组的形式表示，即（I，M，R）。这里，I、M和R分别代表指令、多模态输入和真实响应。 MLLM 根据指令和多模态输入来预测答案。

其中A 代表预测答案，是模型参数。通常，训练目标是用于训练LLM [20]、[37]、[71]、[101] 的原始自回归目标，MLLM 将根据该目标预测响应的下一个标记。所以。目标可以表示为：

其中N 是真实响应长度。

3.2.3 数据收集

由于教学数据的格式更加灵活，任务的制定更加多样化，因此收集数据样本往往更加耗费人力和成本。本节总结了收集大规模指令数据的三种典型方法：数据适应、自指令和数据混合。数据适配。特定于任务的数据集是高质量数据的丰富来源。因此，许多作品[60]、[70]、[76]、[82]、[101]、[102]、[103]、[104]利用现有的高质量数据集来构建数据集。数据集。以VQA数据集转换为例，原始样本是一个输入输出对，其中输入包含图像和自然语言问题，输出是针对图像给出的问题的文本答案。这些数据集的输入输出对可以自然地形成多模式输入和对指令样本的响应（参见3.2.2）。指令或任务描述可以手动设计，也可以通过半自动生成GPT 来辅助。具体来说，一些作品[21]、[35]、[60]、[70]、[102]、[105] 手工制作了一组候选指令，并在我采样的过程中使用其中一个。我们提供了VQA 数据集的示例指令模板，如表6 所示。其他作品手动设计一些种子指令并使用这些指令提示GPT生成附加指令[25]，[82]，[98]。请注意，现有VQA 和字幕数据集的答案通常很简洁，因此直接使用这些数据集进行指令调整可能会限制MLLM 的输出长度。有两种一般策略可以解决此问题。第一个是在指令中明确指定的。例如，ChatBridge[104]明确指出简答数据和句子简短而简洁，而传统的粗粒度字幕数据是单个句子。第二是延长现有答案的长度[105]。例如，M3IT [105]建议通过从ChatGPT 请求原始问题、答案和图像的上下文信息（例如字幕和OCR）来重述原始答案。

3.2.4 数据质量

最近的研究表明，教学调整样本中的数据质量与数量同样重要。 Lynx [73] 发现在大型但有噪声的图像文本对上预训练的模型的性能与在较小但更干净的数据集上预训练的模型相当。同样，Wei 等人[108] 发现，使用较少的高质量、指令对齐数据，可以获得更好的性能。关于数据过滤，本研究提出了几种评估数据质量的指标以及相应地自动过滤质量较差的视觉语言数据的方法。在这里我们讨论数据质量的两个重要方面。提示品种。指令的多样性对于模型性能很重要。 Lynx[73]通过实证研究证实，多样化的提示有助于提高模型性能和泛化能力。任务范围。对于与训练数据相关的任务，Du等人[109]进行了实证研究，发现视觉推理任务比字幕和QA任务更能提高模型性能。此外，这项研究表明，增加指令的复杂性可能比增加任务多样性和合并细粒度的空间注释更有益。

3.3 对准调整

3.3.1 简介

对齐调整更常用于需要根据特定人类偏好定制模型的场景，例如减少幻觉的反应（参见6）。目前，人类反馈强化学习（RLHF）和直接覆盖优化（DPO）是用于对齐调整的两种主要技术。本节依次介绍这两种技术的主要内容，提供一些如何使用它们解决现实问题的示例，并总结相关数据集。

3.3.2 训练细节

RLHF [110]，[111]。该技术利用强化学习算法，旨在通过使用人类注释作为训练循环中的监督来使法学硕士适应人类偏好。如InstructGPT [95] 所示，RLHF 包括三个重要步骤。

1) 监控和微调。此步骤的目的是微调预训练模型以展现预期的输出行为。 RLHF配置的微调模型称为策略模型。请注意，如果指令协调模型（参见3.2）已经初始化，则可以省略此步骤。

2）奖励建模。在此步骤中，我们使用偏好对来训练奖励模型。给定多模态线索（例如图像和文本）x和响应对（yw，yl），奖励模型r为首选响应yw提供更高的奖励，反之亦然，如下所示：学习为yl提供更高的奖励。

这里，D={(x, yw, yl)} 是由人类注释者标记的比较数据集。事实上，奖励模型r 与策略模型具有类似的结构。

3）强化学习。在这一步中，我们采用邻近策略优化（PPO）算法来优化RL 策略模型RL。为了避免与原始策略[95]偏离太多，通常在训练目标中添加每个标签的KL 惩罚。结果，我们得到了以下目标： )[(, )DKL(RL() REF())]

其中是KL惩罚项的系数。通常，强化学习策略RLphi 和参考模型REF 都是从监督模型SFT 初始化的。通过这个调整过程，获得的强化学习策略模型有望符合人类的偏好。研究人员考虑使用RLHF 技术来改善多模态对准。例如，LLaVARLHF [112] 收集了人类偏好数据，并采用基于LLaVA [20] 的模型来减少幻觉。数据保护办公室[113]。它使用人类首选的标签，并通过简单的二元分类损失来学习。与基于PPO 的RLHF 算法相比，DPO 不需要学习显式的奖励模型，将整个过程简化为两个步骤：收集人类偏好数据和学习偏好。学习目标是：

RLHF-V [114]通过分段级错觉校正收集细粒度（分段级）偏好数据对，并使用获取的数据执行密集的DPO。 Silkie [115] 或者通过提示GPT-4V 来收集偏好数据，并通过DPO 将偏好监控提取到命令定制的模型中。

3.3.3 数据

收集对齐数据的关键是收集有关模型响应的反馈，以确定哪种响应更好。尽管收集此类数据的成本通常较高，但此阶段使用的数据量通常少于先前阶段。在本节中，我们介绍几个数据集并将其总结在表8 中。

LLaVA-RLHF [112]。包含从人类反馈中收集的10,000 个偏好对，重点关注诚实和乐于助人。该数据集主要用于减少模型响应中的幻觉。

RLHF-V [114]。包含通过分段级幻觉校正收集的5.7K 细粒度人类反馈数据。 VLF 反馈[115]。利用人工智能提供有关模型响应的反馈。该数据集包含超过380,000 个比较对，由GPT-4V 根据有用性、保真度和道德考虑进行评估。

4 评估

评估是MLLM 开发的重要组成部分，因为它为模型优化提供反馈，并有助于比较不同模型的性能。与传统的多模态模型评价方法相比，MLLM评价具有几个新的特点。 (1)对MLLM进行综合评价很重要，因为MLLM的特征通常是全面的。 (2) MLLM 提出了许多需要特别关注的新能力（例如，没有OCR 的数学推理），因此需要新的评估方案。根据问题类型，MLLM评估可以分为两种类型：闭集和开集。

4.1 闭集

闭集问题是一种问题，其中可能的答案选择是预先定义的并限制在有限集内。评估通常在特定于任务的数据集上进行。在这种情况下，响应可以自然地通过基准指标[20][60][70][76][101][102][103][104]来确定。例如，InstructBLIP [60] 报告了NoCaps [118] 和Flickr30K [119] 的ScienceQA [116] 和CIDEr 评分[117] 的准确性。评估设置通常是零样本[60][102][104][105]或微调[20][35][60][70][76][101][103][105]。初始设置通常选择涵盖各种常见任务的广泛数据集，并将它们分为保留数据集和非保留数据集。

保留数据集。在前者上调整后，在后者上评估零样本性能，使用未见过的数据集或甚至未见过的任务。相比之下，第二种设置通常在评估特定领域的任务时观察到。例如，LLaVA[20]和LLaMA-Adapter[76]在ScienceQA[116]上报告了微调性能。LLaVA-Med[35]在生物医学VQA[120][121][122]上报告了结果。上述评估方法通常限于少数选定的任务或数据集，缺乏全面的定量比较。为此，一些努力已经开发了专门为MLLM设计的新的基准[123][124][125][126][127][128][129]。例如，Fu等人[123]构建了一个全面的评估基准MME，包括总共14个感知和认知任务。MME中的所有指令-答案对都是手动设计的，以避免数据泄露。MMBench[124]是一个专门为评估模型能力的多个维度而设计的基准，使用ChatGPT将开放响应与预定义的选择匹配。Video-ChatGPT[130]和Video-Bench[131]专注于视频领域，提出了专门的基准以及评估工具。还有一些评估策略旨在评估模型的特定方面[102]，例如POPE[132]用于评估幻觉程度。

4.2 开放集

与封闭集问题相比，开放集问题的回答可以更灵活，其中MLLM通常扮演聊天机器人的角色。由于聊天内容可以是任意的，因此比封闭结束的输出更难判断。标准可以分为手动评分、GPT评分和案例研究。手动评分需要人工评估生成的响应。这种方法通常涉及手工制作的问题，旨在评估特定维度。例如，mPLUG-Owl[81]收集了与视觉相关的评估集，以判断自然图像理解、图表和流程图理解等能力。类似地，GPT4Tools[107]构建了两套分别用于微调和零样本性能的评估集，并根据思想、行动、论点和整体评估响应。由于手动评估劳动密集型，一些研究人员已经探索了使用GPT进行评分，即GPT评分。这种方法通常用于评估多模态对话的性能。LLaVA[20]提出通过文本GPT-4对响应进行评分，评估不同方面，如帮助性和准确性。具体来说，从COCO[133]验证集中抽取了30张图像，每个图像都有一个简短的问题、一个详细的问题和一个复杂的推理问题，通过在GPT-4上进行自我指令。模型和GPT-4生成的答案都发送给GPT-4进行比较。随后的工作遵循这个想法，并提示ChatGPT[81]或GPT-4[35][70][101][104][105]来评分结果[35][70][81][101][104]或判断哪一个更好[103]。应用文本GPT-4作为评估器的一个主要问题是，评估器仅基于与图像相关的文本内容，如字幕或边界框坐标，而没有访问图像[35]。因此，在这种情况下，将GPT-4设置为性能上限可能是值得怀疑的。随着GPT视觉接口的发布，一些工作[77][134]利用更先进的GPT-4V模型来评估MLLM的性能。例如，Woodpecker[77]采用GPT-4V根据图像判断模型答案的质量。评估预计比使用文本GPT-4更准确，因为GPT-4V可以直接访问图像。另一种补充方法是通过案例研究比较MLLM的不同能力。例如，一些研究评估了两个典型的商业使用模型，GPT-4V和Gemini。Yang等人[135]通过制作一系列跨越各个领域和任务的样本，从基本技能（如字幕和计数对象）到需要世界知识和推理的复杂任务（如笑话理解和作为具身智能体的室内导航），对GPT-4V进行了深入的定性分析。Wen等人[136]通过设计针对自动驾驶场景的样本，对GPT-4V进行了更专注的评估。Fu等人[137]对Gemini-Pro进行了全面评估，将其与GPT-4V进行了比较。结果表明，尽管GPT-4V和Gemini具有不同的响应风格，但在视觉推理能力方面表现出了可比性。

5 扩展

近期的研究在扩展MLLMs的能力方面取得了显著进展，涵盖了从更强大的基础能力到更广泛的场景覆盖。我们追踪了这方面的主要发展。粒度支持。为了促进智能体和用户之间更好的交互，研究人员已经开发了支持更细粒度输入和输出的MLLMs。在输入方面，支持用户提示中更细粒度控制的模型逐渐发展，从图像发展到区域[28][138][139]，甚至像素[29][140][141]。具体来说，Shikra[28]支持区域级输入和理解。用户可以通过指向特定区域，这些区域以自然语言形式的边界框表示，更灵活地与助手交互。Ferret[141]更进一步，支持更灵活的指代，设计了一种混合表示方案。该模型支持不同形式的提示，包括点、框和草图。同样，Osprey[29]支持通过使用分割模型[9]的点输入。借助预训练分割模型的卓越能力，Osprey能够通过单击指定单个实体或其部分。在输出方面，随着输入支持的发展，接地能力也得到了提高。Shikra[28]支持响应以图像中的框注释为依据，从而实现更高的精度和更细粒度的指代体验。LISA[142]进一步支持掩码级理解和推理，这使得像素级接地成为可能。

模态支持。增加对模态的支持是MLLM研究的一个趋势。一方面，研究人员已经探索了使MLLM适应支持更多多模态内容的输入，例如3D点云[41][143][144][145]。另一方面，MLLM也被扩展为生成更多模态的响应，例如图像[32][146][147][148]、音频[32][147][149][150]和视频[32][151]。例如，NExT-GPT[32]提出了一个框架，支持混合模态的输入和输出，具体是文本、图像、音频和视频的组合，借助附加到MLLM的扩散模型[152][153]。该框架采用编码器-解码器架构，并将LLM作为理解和推理的中心。

语言支持。当前的模型主要是单语的，可能是由于高质量的非英语训练语料稀缺。一些工作一直致力于开发多语言模型，以便覆盖更广泛的用户群体。VisCPM[33]通过设计多阶段训练方案，将模型能力转移到多语言环境中。具体来说，该方案以英语作为关键语言，拥有丰富的训练语料库。利用预训练的双语LLM，通过在指令调整期间添加一些翻译样本，将多模态能力转移到中文。采取类似方法，Qwen-VL[34]从双语LLM Qwen[58]开发而来，支持中文和英文。在预训练期间，中文数据被混合到训练语料库中，以保持模型的双语能力，占整个数据量的22.7%。

场景/任务扩展。除了开发常见的通用助手外，一些研究专注于更具体的场景，其中应考虑实际条件，而其他研究将MLLM扩展到具有特定专业知识的下游任务。一个典型趋势是将MLLM适应到更具体的现实生活场景中。MobileVLM[63]探索为资源受限场景开发MLLM的小尺寸变体。一些设计和技术被用于在移动设备上部署，例如更小尺寸的LLM和量化技术以加速计算。其他工作开发了与现实世界[41][154][155]交互的智能体，例如为图形用户界面（GUI）特别设计的友好用户助手，如CogAgent[44]、AppAgent[43]和Mobile-Agent[45]。这些助手擅长规划和指导每一步以完成用户指定的任务，作为人机交互的有用智能体。另一条线是通过注入医学领域的知识，将MLLM扩展到医学领域。例如，LLaVA-Med[158]将医学知识注入普通的LLaVA[20]中，开发了一个专门用于医学图像理解和问答的助手。

6 多模态幻觉

多模态幻觉指的是MLLM生成的响应与图像内容不一致的现象[77]。作为一个基本且重要的问题，这个问题已经引起了越来越多的关注。在这一部分中，我们将简要介绍一些相关概念和研究发展。

6.1 初步知识

当前关于多模态幻觉的研究可以进一步分为三种类型[159]：

存在幻觉是最基本的形式，意味着模型错误地声称图像中存在某些对象。
属性幻觉意味着以错误的方式描述某些对象的属性，例如无法正确识别狗的颜色。它通常与存在幻觉相关联，因为属性的描述应该基于图像中存在的对象。
关系幻觉是一种更复杂的类型，也基于对象的存在。它指的是错误地描述对象之间的关系，如相对位置和交互。

接下来，我们首先介绍一些特定的评估方法(§6.2)，这些方法对于衡量减轻幻觉的方法(§6.3)的性能很有用。然后，我们将详细讨论当前减少幻觉的方法，根据每种方法所属的主要类别进行分类。

6.2 评估方法

CHAIR[160]是一个早期的指标，用于评估开放式字幕中的幻觉水平。该指标衡量的是句子中出现幻觉对象或所有提到对象中幻觉对象的比例。相比之下，POPE[132]是一种评估封闭集选择的方法。具体来说，制定了多个带有二元选择的提示，每个提示查询图像中是否存在特定对象。该方法还涵盖了更具挑战性的设置，以评估MLLM的鲁棒性，考虑了数据统计。最终评估使用简单的关键词机制，即通过检测关键词“是/否”，将开放式响应转换为封闭集二元选择。采用类似的评估方法，MME[123]提供了更全面的评估，涵盖了存在、计数、位置和颜色等方面，如[77]中所示。与之前使用匹配机制来检测和决定幻觉的方法不同，HaELM[161]提出使用文本LLM作为裁判，自动决定MLLM的字幕是否与参考字幕正确。鉴于文本LLM只能访问有限的图像上下文并且需要参考注释，Woodpecker[77]使用GPT-4V直接评估基于图像的模型响应。FaithScore[162]是基于例行程序的更细粒度指标，该例行程序将描述性的子句分解并单独评估每个子句。基于之前的研究，AMBER[163]是一个不依赖LLM的基准，包含判别性任务和生成性任务，并涉及三种可能的幻觉（见§6.1）。

6.3 减轻方法

根据高层思路，当前的方法大致可以分为三类：预先校正、过程中校正和事后校正。

预先校正。对于幻觉的一个直观且直接的解决方案是收集专门数据（例如负面数据）并使用数据进行微调，从而产生响应中幻觉较少的模型。LRV-Instruction[164]引入了一个视觉指令调整数据集。除了常见的正面指令外，该数据集还结合了在不同语义级别上精心设计的负面指令，以鼓励忠实于图像内容的响应。LLaVA-RLHF[112]收集了人类偏好对并使用强化学习技术对模型进行微调，从而产生了与较少幻觉答案更一致的模型。

过程中校正。另一途径是在架构设计或特征表示上进行改进。这些工作尝试探索幻觉的原因，并设计相应的补救措施，在生成过程中减轻它们。HallE-Switch[159]对可能导致对象存在幻觉的因素进行了实证分析，并假设存在幻觉源于视觉编码器未接地的对象，实际上它们是基于LLM中嵌入的知识推断出来的。基于这一假设，引入了一个连续的控制因素和相应的训练方案，以控制在推理过程中模型输出的想象程度。VCD[165]认为对象幻觉源于两个主要原因，即训练语料库中的统计偏差和LLM中强大的语言先验。作者注意到，当向图像注入噪声时，MLLM倾向于依赖语言先验而不是图像内容来生成响应，导致幻觉。相应地，这项工作设计了一个放大然后对比的解码方案，以抵消错误的偏差。HACL[166]研究了视觉和语言的嵌入空间。基于观察，设计了一种对比学习方案，将成对的跨模态表示拉近，同时推开非幻觉和幻觉的文本表示。

事后校正。与之前的范式不同，事后校正在事后补救方式中减轻幻觉，并在输出生成后纠正幻觉。Woodpecker[77]是一个无需训练的通用幻觉校正框架。具体来说，该方法结合了专家模型以补充图像的上下文信息，并构建了一个逐步纠正幻觉的流程。该方法是可解释的，因为每个步骤的中间结果可以被检查，对象在图像中被接地。另一种方法LURE[167]训练了一个专门的校正器来掩盖描述中不确定性很高的对象，并重新生成响应。

7 扩展技术

7.1 多模态上下文学习 (M-ICL)

上下文学习（ICL）是LLMs的重要新兴能力之一。ICL有两个优点：(1)与传统的监督学习范式不同，ICL的关键在于通过类比学习。具体来说，在ICL设置中，LLMs通过一些示例以及可选的指令学习，并外推到新问题，从而以少样本方式解决复杂和未见过的任务[22][169][170]。(2)ICL通常以无需训练的方式实现[168]，因此可以灵活地集成到不同的框架中，在推理阶段使用。与ICL密切相关的技术是指令调整（见§3.2），实证表明这可以增强ICL能力[19]。在MLLM的背景下，ICL已经扩展到更多模态，导致了多模态上下文学习（M-ICL）。在(§3.2)设置的基础上，在推理时，M-ICL可以通过添加一组上下文示例来实现，即一组上下文样本。在这种情况下，模板可以扩展如表9所示。注意，我们列出了两个上下文示例进行说明，但示例的数量和顺序可以灵活调整。事实上，模型通常对示例的排列很敏感[168][171]。

7.1.1 提高ICL能力

最近，越来越多的工作集中在提高各种场景下的ICL性能。在这一部分中，我们追踪了这个领域的发展，并总结了一些相关工作。MIMIC-IT[172]通过构建具有多模态上下文的指令数据集，将上下文学习与指令调整结合起来。在引入的数据集上进行指令调整的模型在字幕任务上显示出改进的少样本性能。Emu[173]通过引入额外的模态到模型生成和相应的训练语料库中，扩展了Flamingo[74]的思想。借助引入的视觉解码器，即Stable Diffusion，模型从额外的视觉监督中学习，并支持更灵活的输出格式和上下文推理。具体来说，除了以纯文本回答外，模型还可以以图像形式给出响应。Sheng等人[174]采用了类似的想法，并尝试将输出模态扩展到文本和图像。这项工作没有采用专门的图像编码器，而是采用了统一的量化方案和共享的嵌入层。其他一些工作探索了在特定设置下提高少样本学习性能。Link-context学习[175]专注于加强图像-标签对之间的因果关系，并通过制定正面和负面的图像-描述对来构建对比训练方案。MMIICL[176]旨在增强使用多个相关图像进行推理的能力。为了加强图像和文本之间的联系，这项工作提出了一种上下文方案，将交错的图像-文本数据转换为统一格式。Jeong[177]发现，当插入一小部分不连贯的图像/文本作为噪声时，MLLM可能会被误导，给出与上下文不一致的响应。基于这一观察，这项工作相应地提出了一种预过滤方法，以去除不相关的上下文，促进更连贯的响应。

7.1.2 应用

在多模态应用方面，M-ICL主要用于两个场景：(1) 解决各种视觉推理任务[22][74][178][179][180]，以及(2) 教LLM使用外部工具[169][170][181]。前者通常涉及从一些特定任务的示例中学习，并推广到一个新的但相似的问题。从指令和示例中提供的信息，LLM理解任务在做什么以及输出模板是什么，最终生成预期的答案。相比之下，工具使用的例子更细粒度。它们通常包括可以顺序执行以完成任务的一系列步骤。因此，第二种场景与思维链（见§7.2）密切相关。

7.2 多模态思维链 (M-CoT)

作为开创性工作[8]所指出的，思维链是“一系列中间推理步骤”，已被证明在复杂推理任务中是有效的[8][182][183]。思维链的主要思想是提示LLM不仅输出最终答案，还输出导致答案的推理过程，类似于人类的认知过程。受到NLP中成功的启发，多项工作[184][185][186][187]提出将单模态思维链扩展到多模态思维链（M-CoT）。我们首先介绍获取M-CoT能力的不同的学习范式（§7.2.1）。然后，我们更详细地描述M-CoT的具体方面，包括链配置（§7.2.2）和模式（§7.2.3）。

7.2.1 学习范式

学习范式也是一个值得研究的方面。大致有三种方式来获取M-CoT能力，即通过微调和训练自由的少/零样本学习。三种方式对样本大小的要求依次降低。直观地说，微调方法通常涉及为M-CoT学习策划特定数据集。例如，Lu等人[116]构建了一个科学问答数据集ScienceQA，包含讲座和解释，可以作为学习思维链推理的来源，然后在该提议的数据集上微调模型。Multimodal-CoT[185]也使用ScienceQA基准，但以两步方式生成输出，即基于推理步骤的解释（思维链）和最终答案。CoT-PT[187]通过结合提示调整和步骤特定的视觉偏见来学习隐式思维链。与微调相比，少/零样本学习在计算上更有效率。主要区别在于，少样本学习通常需要手工制作一些上下文示例，以便模型可以更容易地学习逐步推理。相比之下，零样本学习不需要任何特定的示例来进行思维链学习。在这种情况下，模型学习使用嵌入式知识和推理能力，而不需要通过像“让我们逐步思考”或“这两个关键帧之间发生了什么”这样的设计指令来明确指导[184][186]。类似地，一些工作[22][188]通过任务描述和工具使用来提示模型，将复杂任务分解为子任务。

7.2.2 链配置

结构和长度是推理链的两个关键方面。在结构方面，当前方法可以分为单链和树形方法。使用单链推理是一种在各种方法[116][185]中广泛使用的范式。具体来说，逐步推理过程形成了一个单一的问题-理由-答案链。最近，一些方法探索了使用更复杂的方案，即树形链，进行推理。具体来说，DDCoT[189]将一个问题分解为多个子问题，每个子问题都由LLM本身或视觉专家解决以生成理由。然后LLM聚合并推理这些理由以形成最终答案。关于链长度，可以分为自适应和预定义形式。前者配置要求LLM自行决定何时停止推理链[22][116][169][170][185][188]，而后者设置以预定义长度停止链[79][184][186][187]。

7.2.3 生成模式

如何构建链是一个值得研究的问题。我们将当前的工作总结为(1)基于填充的模式和(2)基于预测的模式。具体来说，基于填充的模式要求在周围上下文（先前和随后的步骤）之间推断步骤以填补逻辑空白[184][186]。相比之下，基于预测的模式要求在给定条件（如指令和先前推理历史）的情况下扩展推理链[22][116][169][170][185][188]。两种模式都需要生成的步骤应该是一致和正确的。

7.3 LLM辅助视觉推理

7.3.1 介绍

受到工具增强型LLMs[190][191][192][193]成功的启发，一些研究探索了调用外部工具[22][107][169][170]或视觉基础模型[22][79][80][188][194][195][196]进行视觉推理任务的可能性。以LLMs作为助手，这些工作构建了特定任务[79][197][198]或通用[22][169][170][181][188]的视觉推理系统。与传统的视觉推理模型[199][200][201]相比，这些工作表现出几个优点：(1)强大的泛化能力。这些系统配备了从大规模预训练中学到的丰富开放世界知识，可以轻松地泛化到未见过的物体或概念，具有显著的零样本/少样本性能[169][170][195][197][198][202]。(2)新兴能力。借助LLMs强大的推理能力，这些系统可以执行复杂任务。例如，给定一个图像，MMREACT[22]可以解释背后的含义，如解释为什么一个梗很有趣。(3)更好的交互性和控制。传统模型通常只允许有限的控制机制，并且通常需要昂贵的策划数据集[203][204]。相比之下，基于LLM的系统具有在用户友好界面（例如点击和自然语言查询）[79]中进行精细控制的能力。对于这部分，我们首先介绍在构建LLM辅助视觉推理系统中使用的不同类型的训练范式（§7.3.2）。然后，我们深入探讨LLM在这些系统中扮演的主要角色（§7.3.3）。

7.3.2 训练范式

根据训练范式，LLM辅助视觉推理系统可以分为两种类型，即无需训练和微调。

无需训练。由于预训练的LLMs中存储了丰富的先验知识，一个直观且简单的方法是冻结预训练模型，并直接提示LLMs 以满足各种需求。根据设置，推理系统可以进一步分类为少样本模型[22][169][170][181]和零样本模型[79][197]。少样本模型需要一些手工制作的上下文示例（见§7.1）来指导LLMs生成程序或一系列执行步骤。这些程序或执行步骤作为相应基础模型或外部工具/模块的指令。零样本模型更进一步，直接利用LLMs的语言/语义知识或推理能力。例如，PointCLIP V2[197]提示GPT-3生成具有3D相关语义的描述，以更好地与相应图像对齐。在CAT[79]中，LLMs被指示根据用户查询改进字幕。

微调。一些工作采用进一步的微调来提高工具使用方面的规划能力[107]，或提高系统的目标定位能力[142][205]。例如，GPT4Tools[107]引入了指令调整方法（见§3.2）。相应地，收集了一个新的与工具相关的指令数据集，并用于微调模型。

7.3.3 功能

为了进一步检查LLMs在LLM辅助视觉推理系统中扮演的确切角色，现有的相关工作被分为三种类型：

LLM 作为控制器
LLM 作为决策者
LLM 作为语义细化器

前两个角色与思维链（见§7.2）相关。由于复杂任务需要被分解为中间的更简单步骤，因此经常使用。当LLMs作为控制器时，系统通常在一轮中完成任务，而多轮则更常见于决策者的情况。

LLM 作为控制器。在这种情况下，LLMs充当中央控制器，(1)将复杂任务分解为更简单的子任务/步骤，(2)将这些任务分配给适当的工具/模块。第一步通常通过利用LLMs的思维链能力来完成。具体来说，LLMs被明确提示输出任务规划[181]或更直接地调用模块[107][169][170]。例如，VisProg[170]提示GPT-3输出一个视觉程序，其中每个程序行调用一个模块执行子任务。此外，LLMs需要为模块输入输出参数名称。为了处理这些复杂的要求，一些手工制作的上下文示例被用作参考[169][170][181]。这与优化推理链（见§7.2）密切相关，或者更具体地说，是最少到最多提示[206]技术。通过这种方式，复杂问题被分解为子问题，这些子问题被顺序解决。

LLM 作为决策者。在这种情况下，复杂任务通过多轮方式解决，通常以迭代方式进行[195]。决策者通常承担以下责任：(1)总结当前上下文和历史信息，并决定当前步骤可用的信息是否足以回答问题或完成任务；(2)组织并总结答案以以用户友好的方式呈现。

LLM 作为语义细化器。当LLM被用作语义细化器时，研究人员主要利用其丰富的语言和语义知识。具体来说，LLMs通常被指示将信息整合成一致且流畅的自然语言句子[202]，或根据不同的具体需求生成文本[79][197][198]。

8 挑战与未来方向

MLLM的发展仍处于初级阶段，因此有很大的改进空间，我们总结如下：

当前的MLLM在处理长上下文的多模态信息方面存在限制。这限制了具有更多多模态标记的高级模型的发展，例如长视频理解以及与图像和文本交错的长文档。
MLLM应该升级以遵循更复杂的指令。例如，生成高质量的问答对数据的主流方法仍然是提示封闭源的GPT-4V，因为其先进的指令跟随能力，而其他模型通常无法实现。
在M-ICL和M-CoT等技术方面仍有改进空间。目前对这两项技术的研究还处于初级阶段，MLLM的相关能力较弱。因此，探索其背后的机制和潜在改进是有希望的。
基于MLLM的具身智能体的开发是一个热门话题。开发能够与现实世界互动的此类智能体将是有意义的。此类努力需要模型具备关键能力，包括感知、推理、规划和执行。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？大模型是怎样获得「智能」的？用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例：向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示（Embeddings）向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG什么是模型什么是模型训练求解器 & 损失函数简介小实验2：手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身：基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例：如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…
学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

#以上关于多模态大语言模型全面综述：架构，训练，数据，评估，扩展，应用，挑战，机遇的相关内容来源网络仅供参考，相关信息请以官方公告为准！

原创文章，作者：CSDN，如若转载，请注明出处：https://www.sudun.com/ask/92625.html

多模态大语言模型全面综述：架构，训练，数据，评估，扩展，应用，挑战，机遇

1 引言

2 架构

3 训练策略和数据

4 评估

5 扩展

6 多模态幻觉

8 挑战与未来方向

如何学习大模型 AI ？

第一阶段（10天）：初阶应用

第二阶段（30天）：高阶应用

第三阶段（30天）：模型训练

第四阶段（20天）：商业闭环

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关推荐

如何使用DeadFinder寻找失效链接

Linux邮件配置SMTP发送邮件

逃离塔科夫中文版设置指南助你三步轻松上手

分享一些有趣的国外“404”页面，确实打开了你的想象力。

发表回复

Please sign in