阅读时间:2023-12-19
1 介绍
年份:2024
作者:田松松,中国科学院半导体研究所,李露思,欧道明大学助理教授,李伟军,中国科学院半导体研究所,
期刊:神经网络
引用次数:30
田松, 李丽, 李伟, 等, 小样本类增量学习研究综述[J], 2024, 169: 307-324.
这是对少样本类增量学习(FSCIL)的回顾。 FSCIL 面临的主要挑战包括灾难性遗忘和过度拟合,这严重影响了模型性能。学习FSCIL可以克服深度学习模型在数据量和采集时间上的限制,提高机器学习模型的实用性和适应性。从理论角度来看,FSCIL领域分为五个子类,包括传统机器学习方法、基于元学习的方法、基于特征和特征空间的方法、再生方法和动态网络结构方法。定义了FSCIL 问题,并讨论了相关的学习问题(少样本学习、零样本学习、元学习、增量学习等)。
2 创新点
全面的研究视角:与以往的研究不同,本文结合了few-shot Learning(FSL)和增量学习(IL),重点介绍和分析了few-shotclasses——增量学习,FSCIL)。新的分类方法:提出了一种新的分类方法,将FSCIL领域分为五个子类,包括传统机器学习方法、基于元学习的方法、基于特征和特征空间的方法、再生方法和动态网络结构方法。一直是。广泛的文献综述:回顾了30 多项理论和20 多项应用研究成果,全面概述了FSCIL 领域。性能评估:FSCIL 的最新理论研究成果,其性能是在基准数据集上进行评估的,可以深入了解不同技术的优点和局限性。
3 相关研究
3.1 小样本学习(few-shot learning)
数据扩展方法:
数据增强通过增加现有数据的多样性而不是收集新数据来缓解数据稀缺问题。典型的算法包括基于训练集样本的变换、对弱标记或无标记数据集样本的变换、以及对相似数据集样本的变换。您还可以训练模型来生成新的样本和特征,例如使用变分自动编码器(VAE) 或生成对抗网络(GAN)。 基于度量的方法:
基于度量的方法通过计算支持集和查询集中样本之间的相似度或距离来对嵌入空间中的对象进行分类。代表算法:孪生网络、匹配网络、原型网络等。尽管这些方法不需要大量数据,但它们优化了度量以确保相似样本的接近度和不同类别样本之间的距离。
连体网络:连体网络由两个相同的子网络组成,它们共享相同的参数和权重。每个子网络接收输入样本并提取相应的特征。该架构主要用于计算两个输入样本的特征之间的距离或相似度。通过比较特征,Siamese网络可以判断样本是否属于同一类别,并执行其他相似性测量任务。匹配网络:匹配网络使用注意力机制来动态匹配支持集和查询集中的示例。支持集是已知类别的样本集合,查询集是新的待分类样本。通过注意力加权,匹配网络可以聚合来自支持集的信息,以生成查询样本的与类别相关的特征表示。这种方法使得模型在对新样本进行分类时能够更加关注与样本最相关的已知分类信息。原型网络:原型网络通过计算每个类别的样本特征的平均值来表示每个类别的原型。在嵌入空间中,每个类别都由其样本特征的中心点(即原型)表示。该方法假设嵌入空间中接近原型的特征很可能属于同一类别。原型网络利用类别内的统计分布,通过计算新样本与每个原型之间的距离来对新样本进行分类。
基于模型的方法
基于模型的方法是指设计或使用特定的网络架构来解决小样本学习挑战。典型的算法包括内存增强神经网络(MANN),它使用外部内存空间来显式存储类别信息。它学习跨任务的元级知识,并通过快速参数化实现快速参数化。 基于优化的技术
基于优化的方法侧重于调整模型训练策略以适应标记数据有限的情况。典型的算法包括与模型无关的元学习(MAML),它可以从有限的新数据中快速学习知识。基于MAML的Reptile简化了计算复杂度,将梯度计算从两步减少为一步,提高了计算速度。
3.2 小样本类增量学习
3.2.1 传统机器学习方法
监督学习策略
在FSCIL中,模型通过增量过程进行微调,其容量受到新类别样本数据量的限制。为了缓解这种限制,一些研究引入半监督或无监督数据来增强学习方法。代表性算法论文:Cui, Xiong, Tavakolian, and Liu (2021) 提出了一种半监督学习方法,在每个增量会话中引入50 条未标记数据。 统计分布
从统计分布的角度来看,解决FSCIL 问题涉及将模型拟合到现有数据集并预测模型可能可解释的分类数据的分布。代表性算法论文:Achituve、Navon、Yemini、Chechik 和Fetaya (2021) 提出了GP-Tree,这是一种基于树的分层模型,使用Polya-Gamma 数据增强来适应高斯过程。 (2022)提出了一种可学习分布校准(LDC)方法,该方法使用参数校准单元(PCU)来初始化每个类别的特征分布。 功能优化
虽然现有方法侧重于克服新任务学习中的灾难性遗忘,但Shi、Chen、Zhang、Zhan 和Wu(2021)从函数优化的角度分析了这个问题,并且在类最小值训练过程中获得的平坦度比尖锐最小值具有更好的泛化能力。代表性算法论文:Shi,Chen,Zhang,Zhan,Wu(2021)通过找到基本训练目标函数的平坦最小值来微调新任务的模型参数以减少灾难性遗忘。我提出了一种调整方法。
3.2.2 基于元学习的方法
基于元学习的FSCIL方法利用现有知识来解决当前的学习问题,并通过不断的知识积累来提高系统的稳定性和可靠性。原型学习技术通过优化原型的表示来增强模型对新类别的泛化能力,而元过程技术通过将学习任务转化为元学习目标来提高适应性,从而增强模型对新知识的泛化能力。
原型学习
原型学习的目标是识别一组准确表示给定数据集的小样本(原型),然后利用数据点和原型之间的相似性对新数据点进行分类或执行其他视觉任务来完成。代表性算法论文:Zheng and Zhu (2021)提出了一种对类结构进行归一化的方法,以调整FSCIL 学习到的类别在嵌入空间中的分布。提出了一种涉及随机地块选择和动态关系投影的方案。 元过程
元流程的灵感来自于多任务优化方法MAXL。通过对一系列增量任务进行采样,MAXL 直接将适应新知识和维护旧知识转化为元目标,模仿元测试过程的场景。基本类。代表性算法论文:Chi et al. (2022)提出了MetaFSCIL,直接将对新知识的适应和旧知识的保留转化为元目标。然而,学习新类别会导致性能下降,因此我们提出了基于边界的CLOM 框架来有效解决这个问题。
3.2.3 基于特征和特征空间的方法
基于特征和基于特征空间的方法通过学习更稳健、更高效的特征表示来提高模型对新类别的适应性。
职能分离
特征分离涉及将特征拆分为不同的表示形式,使模型能够专注于更相关的信息。功能分离可能会导致低频成分在保留旧知识方面发挥更重要的作用。代表性算法论文:Zhao et al. (2021)提出了一种频率感知正则化方法,该方法使用离散余弦变换来分离特征并提高特征空间之间的学习性能。 特征空间
特征空间通过将原始数据映射到低维空间来提高算法效率,同时保留有用的特征。在FSCIL 中,新类别的数据被投影到由基础或旧类别的特征组成的特征子空间中,从而使模型能够适当地适应新类别。代表性算法论文:Ceraghian、Rahman、Ramasinghe 等人(2021)提出了一种混合子空间方法来描述数据的视觉和语义域分布,这有助于避免忘记旧的类别。提出了一种WaRP方法,结合了F2M方法寻找损失函数的平坦最小值和FSLL方法进行参数微调。 积极学习
前向学习是指,在FSCIL中,模型在基础数据集上训练时具有前向兼容的性能,使得模型能够更好地处理越来越多的新类别。代表性算法论文:Zhou, Wang, et al. (2022) 将多个虚拟原型分配到特征空间以使模型具有可扩展性。 )提出了LIMIT 方法,通过从基础数据集创建假FSCIL 任务并通过各种假任务的元学习获得共同特征来准备面对真实FSCIL 任务的模型。
3.2.4 基于回放的方法
直接重放技术和生成重放技术都旨在通过以不同方式重用旧知识,同时保留旧任务的记忆来解决FSCIL 中的灾难性遗忘问题。直接重放依赖于保留旧任务的样本,而生成重放则依赖于生成模型来模拟旧数据的分布。
直接重播
直接重放方法涉及通过保存旧任务的样本来重放从先前任务中学到的信息,以在面临新任务时帮助任务解决者。代表性算法论文:Kukleva, Kuehne, and Schiele (2021) 使用模型参数约束方法来防止忘记旧知识,并在第三阶段使用存储的样本进行回放和校准3,我们提出了阶段框架。 生殖繁殖
生成重放方法使用生成模型来记忆旧任务数据的分布并生成用于重放的样本,解决了直接存储旧数据可能出现的隐私问题。代表性算法论文:Liu,Gu等人(2022)提出了一种无数据重播方案,鼓励生成器通过熵正则化生成接近决策边界的不确定样本。提出了一种增量小样本学习生成对抗网络(FSILGAN)来解决用少量数据逼近真实数据分布的问题。
3.2.5 基于动态网络结构的方法
该方法基于动态网络结构,通过在运行时根据输入数据的特征自动调整网络结构,增加了FSCIL的通用性,并降低了过拟合的风险。
神经气体网络
神经气体网络是一种无监督的网络结构,可以学习特征空间的拓扑结构以进行知识表示。在FSCIL 中,神经气体网络通过保持拓扑稳定性来防止忘记旧类别,并通过动态增长适应新样本来提高新类别的表示。代表性算法论文:Tao et al. (2020)提出了TOPIC框架,该框架使用神经气体网络来学习不同类别形成的特征空间的拓扑。 图注意网络
图注意力网络可以动态处理不同类型的图数据,并根据图中节点和边的重要性动态做出决策。 FSCIL 在分类层使用图注意力网络来适应增量任务变化,随着新任务的到来动态增加图中的节点和权重。代表性算法论文:Zhang et al. (2021) 使用连续进化首先使用基础数据训练网络的后端以获得强大的特征提取能力,然后引入图注意力模型(CEC)。 动态神经网络
动态神经网络通过选择性扩展网络节点来增强特征表示能力,并在模型正则化方面减少特征漂移。这些网络随着增量任务自适应扩展,压缩网络扩展以增强特征表示,并动态调整特征空间以匹配旧类别的分布。代表性算法论文:Yang et al. (2021) 提出了一种可学习的扩展和压缩网络(LEC-Net)。网络(DSN)。它自适应地扩展网络,通过压缩网络扩展来增强每个增量任务的特征表示,然后通过节点自激活动态压缩和扩展网络以创建紧凑的特征表示,从而减少过拟合。
图5展示了FSCIL(少样本增量学习)如何根据训练数据的动态变化调整网络结构。通过各种方式调整网络结构以适应新数据,同时保留旧数据的记忆。
主题法
演示了TOPIC(Tao 等人,2020)方法,其中样本特征形成神经图的拓扑。当新节点(代表新类别或新样本)添加到网络时,TOPIC 使用损失约束来更新拓扑。该方法通过保持神经气体网络的拓扑稳定性来防止忘记旧类别,并通过动态增长适应新样本来提高新类别的表示。 CEC法
演示了将图形模型应用于分类器的CEC(持续进化分类器,Zhang 等人,2021)方法。 CEC首先利用底层数据在幕后训练网络,赋予网络强大的特征提取能力。随着新任务的出现和类别数量的增加,分类器拓扑不断发展,分类器层使用图注意力网络来适应增量任务变化。 DSN方法
DSN(动态支持网络,Yang et al. 2022)方法已得到演示。当训练一个新类别时,DSN会临时扩展网络节点来学习新类别的特征。经过训练后,DSN 通过节点自激活动态压缩和扩展网络,并删除冗余节点以提供紧凑的特征表示。该方法通过选择性地扩展和压缩网络节点来增强增量类别的特征表示能力,从而减少模型正则化方面的特征漂移。
4 实验分析
(1) 准确度
在CUB-200 数据集上增量学习过程中,每个会话中不同FSCIL 方法的准确度表现。
图7显示了不同FSCIL(少样本增量学习)方法在CIFAR-100数据集上的帧率(每秒帧数,FPS)和精度之间的性能比较。 **帧速率(FPS)**指的是型号。每秒可处理的图像帧数是模型推理速度的重要指标。越靠近图右上方,推理速度越快,同时保持较高的准确度。
(1)在计算机视觉领域的应用
小样本增量学习在计算机视觉领域的三个主要应用是图像分类、目标检测和图像分割。无论是在图像分类、目标检测还是图像分割任务中,FSCIL技术在计算机视觉中的广泛适用性使其能够有效处理新类别的增量学习问题,同时减少旧知识的遗忘。
在图像分类中的应用
FSCIL技术应用于图像分类,处理分类任务中新类别的增量学习问题。例如,Bai等人(2020)提出了一种基于线性规划的增量学习分类器,用于高光谱图像分类,以适应新类别的出现。 Yang等人(2019)利用元学习的思想,通过属性原型生成模块和属性关系模块,为视频监控中的行人属性识别任务生成新的分类权重。 物体检测中的应用
在物体检测领域,FSCIL技术使得计算机系统能够通过少量样本学习如何检测新的物体类别。 Kang等人(2019)提出了一种新的少样本检测模型,但该模型无法在开放环境中增量学习新目标。基于CenterNet 方法,Perez-Rua 等人(2020)提出了ONCE 模型,通过元学习算法为每个新类别训练特定于类的代码生成器,以解决增量少样本目标检测问题。 在图像分割中的应用
图像分割任务需要对图像中的每个像素进行分类,这比图像分类更困难。 Cermelli 等人(2021) 提出了一种将原型学习和知识蒸馏相结合的PIFS 方法,用于增量少镜头语义分割。 Ganea 等人(2021) 提出了一种用于增量镜头实例分割的iMTFA 方法,该方法重复使用在基本类别上预先训练的屏蔽R-CNN 网络,并使用余弦相似度分类器来表示每个类别。
(2) FSCIL技术在不同领域的应用
计算机视觉中的小样本增量学习
FSCIL技术起源于计算机视觉领域,广泛应用于图像分类、目标检测、图像分割等任务。例如,在高光谱成像分类问题中,人们提出了基于线性规划的增量学习分类器来解决识别新类别的需求。 物体检测中的应用
物体检测是计算机视觉中的一项重要任务,将FSCIL 技术应用到该领域可以让计算机系统学习如何用少量样本检测新物体。例如,Kang等人(2019)提出了一种新的few-shot检测模型,但该模型缺乏从数据流中增量学习新目标的能力,使其难以在开放环境和边缘设备上使用。是有限的。后续研究,例如Perez-Rua 等人(2020)提出的ONCE 模型,基于CenterNet 方法,通过元学习算法为每个新类别训练特定于类的代码生成器来注册新类别。马苏。 在图像分割中的应用:
图像分割任务比图像分类或对象检测更困难,因为必须对每个像素进行分类。实例分割是图像分割的子任务,比语义分割更困难,因为它需要区分不同实例之间的边界。例如,Cermelli 等人(2021)提出了一种结合原型学习和知识蒸馏的PIFS 方法来解决增量少样本语义分割问题。示例实例分割问题。
5 思考
(1)算法优缺点总结
传统机器学习方法
优点:精心设计的监督学习策略和额外数据的引入可以有效提高模型性能并提高模型可解释性。缺点:统计分布建模是一个复杂的过程,并且可能难以处理。 基于元学习的方法
优点:模型变得更加灵活和适应性强,能够快速适应新任务。缺点:高度依赖元训练集,因为它假设所有任务都来自相同或相似的数据分布,如果增量任务的数据分布与基本类别不同,这可能会影响模型性能。 基于特征和特征空间的方法
好处:学习一种前向学习方法,该方法具有天然的优势,可以实现更稳健、更高效的特征表示,特别是在处理未见过的样本时。缺点:虽然文章中没有明确指出,但此类方法一般需要精心设计的特征提取机制,并且可能面临高维数据的维数灾难。 基于重放的方法
优点:直接解决灾难性遗忘问题,让模型通过重放旧任务的样本来学习新任务。缺点:直接播放受到存储容量、样本选择和隐私问题的限制。生成重放提供了一种更灵活的方法,但存在训练复杂性和生成数据质量下降的问题。 基于动态网络结构的方法
优点:适应不断变化的数据流,通过调整模型结构和类之间的关系来学习新知识,同时保留旧知识,非常适合解决增量和小样本学习问题。缺点:虽然文章中没有明确指出,但此类方法在调整和优化网络结构方面可能会比较复杂,并且需要在模型稳定性和可扩展性之间取得平衡。
(2)稳定性与塑性的关系
稳定性是指模型维持所学知识并抵抗新输入引起的变化的能力。高度稳定的模型在旧数据上表现良好,但在接受新数据时可能表现不佳。可塑性是指模型适应新输入或新任务的能力。随着可塑性的增强,模型泛化到新数据的能力增强,但同时旧数据可能会逐渐被遗忘。稳定性和可塑性往往是不相容的,模型必须在两者之间找到平衡。
(3)小样本学习、单样本学习、零样本学习、元学习、迁移学习、增量学习的概念
少样本学习(FSL):
少样本学习的目标是让机器学习模型在大量数据上只学习少数类别,然后在少量样本上快速学习新类别。它的灵感来自于人类的学习能力。 一次性学习:
单次学习是少次学习的一种特殊情况,其中每个新类别只有一个或很少的标记样本。在这种情况下,先前学习的类别可以帮助预测新的类别。 零样本学习(ZSL):
零样本学习是指训练任务的数据集不包含新类别的任何标记样本的情况。该模型使用有关类别语义属性的信息来识别新样本的类别。 元学习:
元学习或“学会学习”是一个涉及从多种学习经验中汲取经验并利用这些经验来提高未来学习绩效的过程。元学习特别适合小样本学习,因为它允许模型从少量样本中快速学习新任务。 迁移学习:
迁移学习侧重于不同领域或任务之间的知识迁移,允许知识从数据丰富的领域/任务迁移到新的数据贫乏的领域/任务。 渐进学习(IL):
增量学习,也称为持续学习或终身学习,是一种机器学习方法,重点研究如何使模型能够保留、整合和优化旧知识,同时不断处理来自现实世界的信息流。 FSCIL 的变体(小样本类增量学习的变体):
广义少样本增量学习(GFSIL):包含一个预训练模型,该模型使用有限数量的示例来学习新类别。目标是保持新旧类别的分类性能。 GFSIL通常只有一个增量阶段,而不是多个增量学习阶段,数据分布可以更加均匀。而且,它的数据分区格式与FSCIL不同。例如,CIFAR-100 可以随机分为40、10 和50 个类别,分别作为元训练集、元验证集和元测试集。增量小样本学习(FSIL):专注于在增量学习过程中处理少量样本。与GFSIL和FSCIL丰富的基础数据集不同,FSIL可以具有相同数量的基础阶段类别和增量阶段类别。在FSIL 实验设置中,模型必须在少量样本中学习新类别,同时保持对基本类别的记忆。
以上#【每日医生文】相关内容来源仅供参考。相关信息请参见官方公告。
原创文章,作者:CSDN,如若转载,请注明出处:https://www.sudun.com/ask/92610.html