ICLR 2023杰出【chū】论文奖得主分享:适配【pèi】任意密集预测任务【wù】的【de】通用小样本【běn】学习器

2024-9-22 11:28:23来源:新智元

国【guó】际学习表征会【huì】议 ICLR(International Conference on Learning Representations),被公认为当前最具影响力的机【jī】器学习【xí】国际学术会【huì】议之【zhī】一。

在今年的 ICLR 2023 大会上,微软【ruǎn】亚洲研究院发【fā】表了在【zài】机【jī】器学习鲁棒性、负责任的人【rén】工智【zhì】能等领域【yù】的最新研【yán】究成果。

其中,微软亚洲研究【jiū】院与韩国科学技【jì】术【shù】院(KAIST)在双方学术【shù】合作框【kuàng】架下的【de】科研合作成果,因出色的清晰【xī】性【xìng】、洞【dòng】察力、创【chuàng】造力【lì】和【hé】潜在的持【chí】久影响获评 ICLR 2023 杰出论文奖。


(相关资料图)

论文地址【zhǐ】:https://arxiv.org/abs/2303.14969

VTM:首个适配所有密集预测任务的小样本学习器

密集预测任【rèn】务是计算机【jī】视【shì】觉领域的一类重要【yào】任务,如语义分割、深度估计、边缘检测和【hé】关键点检测等。对于这类任务【wù】,手动标注像【xiàng】素级标【biāo】签【qiān】面临【lín】着难【nán】以承受【shòu】的【de】巨额成本。因【yīn】此,如何【hé】从少量的【de】标注数据【jù】中【zhōng】学习并作出准【zhǔn】确预测,即小样本学【xué】习,是该领域【yù】备受关注的课【kè】题。近年【nián】来,关于小样本学习的研究不断取得突破,尤其是一些基于元学习【xí】和对抗学习的方【fāng】法,深【shēn】受学术界【jiè】的关注和欢【huān】迎。

然而,现有的计算机视觉小样本学【xué】习方【fāng】法一般针对特【tè】定的【de】某【mǒu】类任务,如分类任务或语义分割任务【wù】。它们【men】通常在【zài】设计【jì】模型【xíng】架构和训练过程中利用特定于这些任务的先验知识和假设,因此不【bú】适合推【tuī】广到任意的密【mì】集预【yù】测任务。微软亚【yà】洲研究院的研究【jiū】员们希【xī】望探究一个核心问题:是否存在【zài】一种通用【yòng】的【de】小样本学习器,可以从少量标【biāo】记图像【xiàng】中学习【xí】任【rèn】意段未【wèi】见过【guò】的【de】密集预【yù】测任务【wù】。

一个密集预测任务的目标【biāo】是学习【xí】从【cóng】输入图像到以像【xiàng】素为【wéi】单位注释的标签的【de】映射,它【tā】可以被定义为:

其中 H 和 W 分别是图像的【de】高与宽,输入图像一般【bān】包含 RGB 三个通道,C_Τ 表示输出通【tōng】道的数目【mù】。不同的密【mì】集预测任务可能【néng】涉【shè】及不同的输出通道数目和通道【dào】属性【xìng】,如【rú】语义分割【gē】任务的输【shū】出【chū】是多通道【dào】二值的,而深度【dù】估计【jì】任【rèn】务的【de】输出是单通道连续值的。一个通用的小样本学习器 F,对【duì】于任何【hé】这【zhè】样的任务 Τ,在【zài】给【gěi】定少【shǎo】量【liàng】标【biāo】记样【yàng】本支持集 S_Τ(包含了 N 组【zǔ】样本 X^i 和标注 Y^i)的情况下【xià】,可以为未见过的【de】查询图像 X^q 产生预测,即:

如果【guǒ】存在适配任意【yì】密集预【yù】测【cè】任务的通用小【xiǎo】样本学习器,那么必须【xū】满足以【yǐ】下期望:

首【shǒu】先【xiān】,它必须具【jù】备 e 统【tǒng】一【yī】的体系结构。该结构能够处理【lǐ】任【rèn】意密【mì】集预测任务,并共享大多数任【rèn】务所需的【de】参【cān】数,以便获取可【kě】泛化的知识,从【cóng】而能以小量样本学【xué】习任意未见过的任务。其次,学习器应该【gāi】灵活地【dì】调【diào】整其预测【cè】机制,以解决具有各种语义的未见过的任务,同时足【zú】够【gòu】高效【xiào】,以防止过度拟【nǐ】合。

因此【cǐ】,微【wēi】软亚洲研究院的【de】研究员们设【shè】计并实现了小样本学习【xí】器视【shì】觉token匹配【pèi】 VTM(Visual Token Matching),其可用于任【rèn】意的密集预测任【rèn】务。这【zhè】是首个适配所有密集预测任务的小样本学习器,VTM为【wéi】计算机视【shì】觉中密集预【yù】测任务的处理以【yǐ】及小样本【běn】学习【xí】方法打开了全新的思路。该工作获得了ICLR 2023 杰出论文奖

VTM 的设【shè】计【jì】灵【líng】感源于【yú】类比人类的【de】思维过程:给定一【yī】个新任务的少量示例,人类可【kě】以【yǐ】根【gēn】据示例之间【jiān】的相似性快速将类似【sì】的【de】输【shū】出分配给【gěi】类似的输入,同时【shí】也可以根【gēn】据给定的上下文【wén】灵活变通输入和【hé】输出之间在哪些层面相似。研究【jiū】员们【men】使【shǐ】用基于图像块(patch)级别的非【fēi】参数匹配【pèi】实现了密集预测的类比过程【chéng】。通过训练,模型被启发出了捕捉【zhuō】图像块中相似性【xìng】的【de】能力【lì】。

给定一个新任务的少【shǎo】量标【biāo】记示例,VTM 首先会根据给定的示【shì】例以及示例的标【biāo】签调整其对相似【sì】性的【de】理解,从示例图【tú】像块【kuài】中锁定与待预测【cè】图【tú】像块相似的图像块【kuài】,通【tōng】过组合它们【men】的标【biāo】签来预测【cè】未见过的图【tú】像块的标签。

图1:VTM 的整体架构

VTM 采用【yòng】分层的【de】编【biān】码器-解码器架构,在【zài】多【duō】个【gè】层次【cì】上实现了【le】基于图像块的非参数【shù】匹配【pèi】。它主【zhǔ】要由四个模块组成,分别为图像编码器 f_Τ、标【biāo】签编码器 g、匹配【pèi】模块和标【biāo】签解码器 h。给定查询图像和支持集【jí】,图【tú】像编码【mǎ】器首先会独【dú】立【lì】地提【tí】取每个查询和【hé】支持图像的图像块级表达。标签编码器【qì】也会【huì】类似地提【tí】取每个支持标签的【de】标记。在每个层次的【de】标记给定后,匹配模块会【huì】执行【háng】非参数匹配【pèi】,最终由标签解【jiě】码器推【tuī】断出【chū】查询图像的标签。

VTM 的本质【zhì】是一个元学习【xí】方【fāng】法【fǎ】。其训练【liàn】由多个 episode 组成,每个 episode 模拟一个小样本【běn】学习问【wèn】题。VTM 训练运【yùn】用到了元训【xùn】练数据集 D_train,其中包含【hán】多种有标签的密【mì】集预测任务示例。每个【gè】训练 episode 都会模拟数据【jù】集中特定任务 T_train 的【de】小样本学习场景,目标【biāo】是在【zài】给定支持集的条件【jiàn】下,为查询图【tú】像【xiàng】产生正【zhèng】确的【de】标签。通过多个小样本学习的经【jīng】验,模型能够学习到【dào】通用【yòng】的【de】知识,以【yǐ】便快速、灵活地适应新的任务。在测试时,模型【xíng】需要【yào】在【zài】训【xùn】练数【shù】据集 D_train 中未包含的任意任务 T_test 上进行小【xiǎo】样本学习。

在处理任意任【rèn】务时,由【yóu】于元训【xùn】练和测【cè】试【shì】中的每个任务【wù】的输出维【wéi】度 C_Τ 不同,因此【cǐ】使得为【wéi】所有任务设计统【tǒng】一【yī】的通用模型参数成【chéng】为了巨大挑战。为【wéi】了【le】提供一个简单而普【pǔ】适的解决方【fāng】案,研究【jiū】员们将任务转换【huàn】为 C_Τ 个单通道子任务,分别学习【xí】每个通道,并使用【yòng】共享的模【mó】型 F 独【dú】立地对每个子任务【wù】进行建模。

为【wéi】了测试 VTM ,研究员们还特别构建了 Taskonomy 数【shù】据集的【de】一【yī】个【gè】变种,从而模拟未见过的密【mì】集预测任务的小样本【běn】学习。Taskonomy 包【bāo】含各种标注过的室内图【tú】像,研究员们从中选择了十个具有不同语义和输出【chū】维度的【de】密集预测任务,将其分为五部分用于【yú】交叉验证【zhèng】。在【zài】每个拆【chāi】分方【fāng】式中,两【liǎng】个任务【wù】用于小样本评估(T_test),其余【yú】八个任务【wù】用于【yú】训【xùn】练(T_train)。研究员【yuán】们仔细构造了分区【qū】,使得训练【liàn】和【hé】测试任务彼此有足够【gòu】的【de】差异,例如将边缘任务(TE,OE)分组为测【cè】试任【rèn】务,以便【biàn】对新语义的任【rèn】务进【jìn】行评估。

表1:在 Taskonomy 数【shù】据集上的【de】定量比较【jiào】( Few-shot 基线在训【xùn】练【liàn】了来【lái】自其他分【fèn】区的任务后,在需测【cè】试的分区任【rèn】务【wù】上进行【háng】了 10-shot 学习,其中完全监督的基【jī】线在每个 fold(DPT)或所有 fold(InvPT)上训练和评估了【le】任务)

表1和图2分别定量【liàng】与【yǔ】定性地展示【shì】了 VTM 和两类基线模【mó】型在【zài】十个密集预测任务上【shàng】的小样本学习性能。其中,DPT 和 InvPT 是两种最先进的【de】监督学习方法,DPT 可独立地针对每个单一任务进【jìn】行训【xùn】练,而 InvPT 则可【kě】以联合训【xùn】练所有任务。由于在【zài】 VTM 之前还没有【yǒu】针【zhēn】对通用【yòng】密【mì】集预【yù】测任务开发的【de】专用小样本方法【fǎ】,因此研究员们将 VTM 与三种【zhǒng】最先进的小样【yàng】本分割【gē】方【fāng】法,即 DGPNet、HSNet 和 VAT,进行对比【bǐ】,并把它们拓展到处理密【mì】集【jí】预测任务的【de】一般标签空间。VTM 在【zài】训练期间没有访问测【cè】试任务 T_test,并且仅在测【cè】试时使【shǐ】用了【le】少量(10张【zhāng】)的标记图像,但【dàn】它却在所有小样本基线模型中表现得【dé】最好,并且在许多任务中的表现都具备与全监督基线模型比【bǐ】较【jiào】的竞争【zhēng】力。

图2:在 Taskonomy 的【de】十个【gè】密集预测任务中,在【zài】新任务上仅提供十张标【biāo】记图像【xiàng】的小样本学习方法的【de】定性比较。在其【qí】他方法失败的【de】情【qíng】况下, VTM 成功地学【xué】习【xí】了所有具有不同语义和不同标签【qiān】表示的【de】新【xīn】任务。

在图2中,虚线【xiàn】上方的分别【bié】是【shì】真实标签和两种监督学习方【fāng】法 DPT 和【hé】 InvPT。虚线下方的【de】是小样本学习方法。值【zhí】得注【zhù】意的是【shì】,其【qí】他小样本基线在新任务上出现了灾难性【xìng】的【de】欠拟合,而【ér】 VTM 成功地学习了所【suǒ】有任务。实验说明,VTM 可以在极【jí】少【shǎo】量的标记示【shì】例(<0.004%的完全监督)上现表现出与完全监督基线类似的竞争力,并能够在相对较少的附加数据(0.1%的完全监督)下缩小与监督方法的差距,甚至实现反超。

总结来说,尽管 VTM 的底层思路非常简单,但它具有统一的体系结构,可用【yòng】于任意密集预测任务,因【yīn】为匹【pǐ】配【pèi】算法本质上包【bāo】含所【suǒ】有任【rèn】务和【hé】标签结构(例如,连【lián】续或离散)。此外,VTM 仅引入【rù】了少量的【de】任【rèn】务特定参数,就能具备抗过拟【nǐ】合性与灵活性。未来研究员们【men】希望进一步探究预训练【liàn】过程中【zhōng】的任【rèn】务【wù】类型、数据量、以及数【shù】据分布对模型泛化性能的影响【xiǎng】,从而帮助【zhù】我们构建【jiàn】一个【gè】真正【zhèng】普适的小【xiǎo】样本学【xué】习器。

为你推荐

最新资讯

股票软件