正文内容


清华大学孙茂松教授挑出崭新微调框架CPT实在率升迁17.3%

admin 于 2021-10-13 03:40 发布在 伦理电影  |  点击数:

 

预训练模型在计算机视觉和说话上都取得了隐微收获,但这些说话模型有一个大题目就是训练过程和推理过程不匹配。清华大学孙茂松团队挑出了一个崭新的微调框架CPT,用颜色来遮盖、融相符图像和说话,实在率升迁17.3%,标准差降矮73.8%!

预先训练的视觉说话模型(Pre-Trained Vision-Language Models, VL-PTM)能够同时处理说话和视觉上的新闻,也是完善各栽众模态义务的基础模型。

但模型的预训练和微调之间存在着庞大的差距,在预训练期间,大无数VL PTM都是基于mask language modeling现在的进走优化的,主要义务就是在屏蔽的词中从跨模态上下文中恢复。

然而,在微调过程中,下游义务清淡是议决将未屏蔽token的外示分类到语义标签来完善的,在语义标签中清淡会引入特定义务的参数。这栽差别窒碍了VL PTM对下游义务的适宜性,因此必要大量的标记数据来优化VL-PTM对下游义务的视觉基础能力。

清华大学孙茂松教授挑出崭新微调框架CPT实在率升迁17.3%

针对这个题目,清华大学的钻研人员挑出了一个新模型跨模态挑示调节(Cross-Modal Prompt Tuning, CPT),也能够称为Colorful Prompt Tuning。CPT是一栽调整VL-PTM参数的新范式,关键点在于议决在图像和文本中增补基于颜色的共同参照标记,视觉基础能够重新形成填补空白的题目,最大限度地缩短预训练和微调之间的差距。

清华大学孙茂松教授挑出崭新微调框架CPT实在率升迁17.3%

为了在图像数据中行使自然说话外达式,CPT由两个组件构成:(1)一个视觉子挑示(visual sub-prompt),用颜色块唯一地标记图像区域;(2)一个文本子挑示(textual sub-prompt),将查询文本放入基于颜色的查询模板中。然后,议决从查询模板中的屏蔽标记恢复响答的彩色文本,能够实现现在的图像区域的显式定位。

清华大学孙茂松教授挑出崭新微调框架CPT实在率升迁17.3%

论文的作者是孙茂松教授,现在任清华大学人造智能钻研院常务副院长、清华大学计算机学位评定分委员会主席、哺育部在线哺育钻研中央副主任、清华大学大周围在线盛开哺育钻研中央主任。曾任清华大学计算机系主任、党委书记。钻研倾向为自然说话理解、中文新闻处理、Web智能、社会计算和计算哺育学等。

清华大学孙茂松教授挑出崭新微调框架CPT实在率升迁17.3%

配备CPT后,VL-PTMs能够在异国任何标记数据的情况下实走zero-shot visual grouding,由于VL PTMs在训练前已经很益地学习了颜色的跨模态外示及其与其他概念(例如,对象、属性和有关)的组相符。

当有几个或通盘标记的实例可用时,CPT能够按照基于熵的现在的函数对VL PTM进走进一步调整。

清华大学孙茂松教授挑出崭新微调框架CPT实在率升迁17.3%

固然议决基于颜色的挑示将图像和文本连接首来望着很益用,但钻研人员照样发现了其中两个关键题目:(1)如何确定颜色集C的配置;(2)如何行使有限的预训练颜色处理图像区域的数目。

解决手段有跨模式挑示搜索(Cross-modal Prompt Search)。以前在文本挑示调优方面的做事外明,挑示配置(例如,文本模板)对性能有宏大影响。这篇文章也是对搜索跨模态挑示配置(即颜色集C)进走的首次钻研。

直不都雅地说,C答该由VL PTM最敏感的颜色构成。为了获得颜色,一栽浅易的手段是采用预训练文本中最常见的颜色文本,其标准RGB行为civ。但该解决方案是次优的,由于这栽手段在确定彩色文本时不考虑其视觉外面,并且实在图像中颜色的视觉外面清淡与其标准RGB分别。

以是在跨模式挑示搜索中,最先确定一个全彩色文本的候选集。对于RGB空间中的每个能够颜色,将纯色块与文本子挑示连接到VL PTMs中:[CLS] a photo in [MASK] color. [SEP]。然后为每个候选颜色文本获得记录分数。

清华大学孙茂松教授挑出崭新微调框架CPT实在率升迁17.3%

记录得分越大,外明cv和cw之间的有关性越高,并且删除了在任何颜色视觉外面中都异国排名靠前的颜色文本。末了对于每个盈余的彩色文本,其视觉外面由最大色彩确定,并且实验效果表现得到的颜色配置清晰优于原首的颜色配置。

图像区域批处理(Image Region Batching)。在视觉基础中,图像中区域提出的数目清淡超过颜色荟萃C的大幼(∼ 10)。此外,主要重叠的色块会窒碍视觉基础,因此必要将图像区域分为众个批次,每个批次包含幼批中度重叠的图像区域,并别离行使视觉子挑示标记每个批次。为了处理不包含现在的区域的批,在解码词汇外中进一步引入了一个新的候选文本none,外示批中异国现在的区域。

实验效果外明,挑示微调后的 VL-PTM的性能大大优于微调后的PTM,

清华大学孙茂松教授挑出崭新微调框架CPT实在率升迁17.3%

1、CPT在zero-shot 和few-shot 竖立下比随机基线和强微调基线有很大的上风(例如,在RefCOCO评估中,one-shot 的绝对实在度平均挑高17.3%)。分别的数据集和分别的训练次数之间的改进是相反的。这外明CPT能够有效地挑高VL PTM调谐的数据效果,并刺激VL PTM的视觉接地能力。

2、值得仔细的是,与微调相比,CPT实现的标准谬误要幼得众(例如,在RefCOCO评估中,一次试验平均降矮73.8%的相对标准谬误)。这外明,来自预训练的连贯的调节手段能够导致更安详的few-shot 训练,这也是评估少镜头学习模型的关键因素。

3、能够仔细到,在RefCOCO+评估中,CPT的微调性能稍逊于16 shots。因为是Ref-COCO+有更众基于颜色的外达(例如,穿着红衬衫和蓝帽子的人),这能够会作梗基于颜色的CPT。然而,在十足监督的场景中,议决更众的调优实例能够缓解这个题目,模型能够学习更益地区分查询文本和挑示模板中的颜色。

4、在十足监督的竖立下,CPT实现了与强微调VL PTM相等的性能。效果外明,即使在十足监督的情况下,CPT也是VL-PTM的一栽竞争性调优手段。总之,与清淡的微调手段相比,CPT在zero-shot、few-shot和十足监督的视觉方面实现了优厚/可比且更安详的性能。

【编辑保举】

Linux 终端初首化 console_init 及 tty 驱动框架 基于SolarWinds 开发的 DarkHalo:Tomiris 连接 普及行使程序开发者正全力声援Windows 11的新右键上下文菜单 OpenHarmony Neptune开发板-MQTT连接华为IoT平台 用上深化学习和博弈论,EA开发的测试AI成精了