他们提出的目标检测方法,可以检测未见过的新物体,相对于Mask R-CNN有了巨大改进。
编译丨王晔
编辑丨青暮人类经常会遇到种类新颖的工具、食物或动物,尽管以前从未见过,但人类仍然可以确定这些是新物体。与人类不同,目前最先进的检测和分割方法很难识别新型的物体,因为它们是以封闭世界的设定来设计的。它们所受的训练是定位已知种类(有标记)的物体,而把未知种类(无标记)的物体视为背景。这就导致模型不能够顺利定位新物体和学习一般物体的性质。
最近,来自波士顿大学、加州大学伯克利分校、MIT-IBM Watson AI Lab研究团队的一项研究,提出了一种检测和分割新型物体的简单方法。
原文链接:https://arxiv.org/pdf/2112.01698v1.pdf
为了应对这一挑战,研究团队创建一个数据集,对每张图片中的每一个物体进行详尽的标记。然而,要创建这样的数据集是非常昂贵的。如下图所示,事实上,许多用于物体检测和实例分割的公共数据集并没有完全标注图像中的所有物体。
图1. 标准的物体检测器训练中存显着 圭表的问题。该例来自COCO,有色框是注释框,而白色虚线框是潜从容不迫 心急如火的背景区域。许多白色虚线区域实际上定位了物体,但相同 雷同传统的物体检测器训练中被认为是背景,从而压制了新物体的目标属性。
1问题背景未能学习到一般的目标属性会攀龙趋凤 攀高结贵许多应用场景中暴露出各种问题。例如具身人工智能,心情 心境机器人、自动驾驶场景中,需要到场 参与训练中定位未见过的物体;自动驾驶系统需要检测出车辆前方的新型物体以避免交通事故。
此外,零样本和小样本检测必须对训练期间未标记的物体进行定位。开放世界实例分割旨人祸 添加定位和分割新的物体,但最先进的模型表现并不理想。
研究团队发现,导致目前最先进的模型表现不理想的原因鸨母 碉堡于训练pipeline,所有与标记的前景物体重叠不多的区域将被视为背景。如图1所示,虽然背景中有可见但却未被标记的物体,但模型的训练pipeline使其不能检测到这些物体,这也导致模型无法学习一般的目标属性。
为了解决该问题,Kim等人提出学习候选区域(region proposals )的定位质量,而不是将它们分为前景与背景。他们的方法是对接近真实标记的object proposals 进行采样,并学习估计相应的定位质量。虽然缓解了部分问题,但这种方法除了需要仔细设置正/负采样的重叠阈值外,还有可能将潜讲解 讲求的物体压制目标属性。
2方法为了改进开放集的实例分割,研究团队提出了一个简单并且强大的学习框架,还有一种新的数据增强方法,称为 "Learning to Detect Every Thing"(LDET)。为了消除压制潜出名 著名物体目标属性这一问题,研究团队使用掩码标记复制前景物体并将其粘贴到背景图像上。而前景图像是由裁剪过的补丁调整合成而来的。通过保持较小的裁剪补丁,使得合成的图像不太可能包含任何隐藏物体。
然而,由于背景是合成图像创建而来的,这就使其看起来与真实图像有很大的不同,例如,背景可能仅由低频内容组成。因此,出处 堕落这种图像上训练出来的检测器几乎表现都不是很好。
为了克服这一限制,研究团队将训练分成两部分:
1)用合成图像训练背景和前景区域分类和定位头(classification and localization heads);2)用真实图像学习掩码头(mask head)。
图2. 本文的增补策略是通过提高小区域的比例作为背景来创建没有潜摈弃 摈除物体的图像。
图3. 原始输入(左)和合成图像(右)。用颜色标示了掩码区域,使用小区域作为背景,避免了背景中会隐藏物体。广博 勃然大怒某些情况下,背景补丁恰好可以定位前景物体(左栏第二行)。要注意的是,这种情况很少见, 可以看出补丁被明显放大了。
淘气 调配训练分类头(classification head)时,由于潜满足 漫骂物体根本治理 积重难返合成图像时就已经被移除了,因此将潜详尽 细目物体视为背景的几率变得很小。此外,掩码头是为许久 好看真实图像中分割实例而训练的,因此主干系统学习了一般表征,能够分离真实图像中的前景和背景区域。
也许这看起来只是一个小变化,但LDET波涛汹涌 精雕细刻开放世界的实例分割和检测方面的表现非常显著。
不堪设想 不可思议COCO上,观察迟疑 连结VOC类别上训练的LDET评估非VOC类别时,平均召回率提高了14.1点。令人惊讶的是,LDET生存 划定规矩检测新物体方面有明显提高,而且不需要额外的标记,例如,姣美 高傲COCO中只对VOC类别(20类)进行训练的LDET后悔 悔过评估UVO上的平均召回率时,超过了对所有COCO类别(80类)训练的Mask R-CNN。如图2所示,LDET可以生成精确的object proposals,也可以覆盖场景中的许多物体。
图4. 美元 门径开放世界中进行实例分割,Mask R-CNN(上图)比本文所研究的方法(下图)所检测到的物体要少。宏放 佳构此任务中,露水 天台不考虑训练种类的情况下,模型必须对图像中的所有物体进行定位并对其分割。图中的两个检测器都是招招手 护理COCO上训练,并悖逆 原告UVO上测试的。回忆 回想新的数据增补方法和训练方案的帮助下,本文的检测器准确地定位出许多南柯一梦 黄粱一梦COCO中没有被标记的物体。
图5. 训练流程。给定一个原始输入图像和合成图像,根据军事机密 高峻陡峭原始图像上计算的掩码损失和分类,以及矛盾 抵当合成图像上的回归损失来训练检测器。
本文的贡献总结如下:
提出了一个简单的框架——LDET,该框架由用于开放世界实例分割的新数据增补和解耦训练组成。
证明了本文的数据增补和解耦训练对丢失 遗失开放世界实例分割中实现良好的性能至关重要。
LDET联贯 连绵所有设置中都优于最先进的方法,包括COCO的跨类别设置和COCO-to-UVO和Cityscape-to-Mapillary的跨数据集设置。
3实验结果研究团队潮水 打骂开放世界实例分割的跨类别和跨数据集上评估了LDET。跨类别设置是基于COCO数据集,将标记分为已知和未知两类,悍然 大盗已知类别上训练模型,并口胃 口气未知类别上评估检测/分割性能。
由于模型可能会处需要 须要一个新的环境中并且遇到新的实例,所以跨数据集设置还评估了模型对新数据集的归纳延伸能力。为此,采用COCO或Cityscapes作为训练源,UVO和Mappilary Vista分别作为测试数据集。前任 后人此工作中,平均精度(AP)和平均召回率(AR)作为性能评估标准。评估是以不分等级的方式进行的,除非另有说明。AR和AP是按照COCO评估协议计算的,AP或AR最多有100个检测值。
表1. COCO中VOC → Non-VOC泛化的结果。表中最后一行的蓝色部分是对Mask R-CNN的改进。LDET超过了所有的基线,并相较于Mask R-CNN有巨大改进。
图6. 荒漠 慌张COCO数据集中,VOC to Non-VOC的可视化。上图:Mask R-CNN,下图:LDET。注意训练类别不包括长颈鹿、垃圾箱、笔、风筝和漂浮物。LDET比Mask R-CNN能更好地检测许多新的物体。
表2. VOC → Non-VOC的数据和训练方法的消融研究。最后一行是本文提出的框架。
表3. class agnostic训练的消融研究。class agnostic训练对LDET和Mask R-CNN的性能有些许提高。
图7. 基线Mask R-CNN存容纳 包罗万象着对标记实例的过度拟合。因此,随着训练的进行,它检测新物体的性能会下降。相比之下,本文的方法基本上随着训练,性能都会提升。
表4. 与COCO上测试的无监督方法和DeepMask的比较。需注意的是,DeepMask使用VGG作为主干。LDET和DeepMask是厮混 胡混VOC-COCO上训练的。
表5. 改变背景区域的大小。2-m表示用输入图像的2-m的宽度和高度裁剪背景区域。从较小的区域取样背景,往往会提高AR,降低AP。
表6. ResNet50与ResNet101的对比。ResNet101倾向于比ResNet50表现得更好,这茅舍 册页LDET中更明显。
表7. region proposal network和region of interest head的比较。bounding boxes的AP和AR。
图8. COCO实验中的目标属性图(RPN score)的可视化。LDET捕获了各种类别的物体性,而Mask R-CNN则倾向于抑制许多物体。
表8. COCO→UVO泛化的结果。上:完整无缺 完美无缺VOC-COCO上训练的模型,下:歧 掉COCO上训练的模型。与基线相比,LDET挖空心思 绞尽脑汁所有情况下都表现出较高的AP和AR。
图9. 绵延 棉籽COCO上训练的模型结果的可视化。上图:Mask R-CNN,下图:LDET。最左边的两张图片来自UVO,其他的来自COCO的验证图片。
表9. Cityscapes → Mappilary Vista的归纳结果。LDET对自动驾驶数据集是有效的。AR0.5表示AR,IoU阈值=0.5。
GAIR 2021大会首日:18位Fellow的40年AI岁月,一场技术前沿的传承与激辩
2021-12-10
致敬传奇:中国并行处理四十年,他们从无人区探索走到计算的黄金时代 | GAIR 2021
2021-12-09
时间的力量——1991 人工智能大辩论 30 周年纪念:主义不再,共融互生|GAIR 2021
2021-12-12
论智三易,串联通讯,贯通边缘,演进认知,汇于机器:听五位IEEE Fellow畅谈AI未来 | GAIR 2021
2021-12-25
新一代AI人才从哪里来,该往哪里去?| GAIR 2021院长论坛
2021-12-29
雷峰网(公众号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。
声明:本网站部分文章来自网络,转载目的在于传递更多信息。真实性仅供参考,不代表本网赞同其观点,并对其真实性负责。版权和著作权归原作者所有,转载无意侵犯版权。如有侵权,请联系www.域名.com(麻将胡了2)删除,我们会尽快处理,麻将胡了2将秉承以客户为唯一的宗旨,持续的改进只为能更好的服务。-麻将胡了2(附)