全景分割这一年,端到端之路

北京权威青春痘医院 http://pf.39.net/bdfyy/bjzkbdfyy/210312/8740638.html

机器之心原创

作者：朱艳芳

编辑：邱陆陆

图像分割（imagesegmentation）任务的定义是：根据某些规则将图片分成若干个特定的、具有独特性质的区域，并提出感兴趣目标的技术和过程。

目前图像分割任务发展出了以下几个子领域：语义分割（semanticsegmentation）、实例分割（instancesegmentation）以及今年刚兴起的新领域全景分割（panopticsegmentation）。

而想要理清三个子领域的区别就不得不提到关于图像分割中things和stuff的区别：图像中的内容可以按照是否有固定形状分为things类别和stuff类别，其中，人，车等有固定形状的物体属于things类别（可数名词通常属于things）；天空，草地等没有固定形状的物体属于stuff类别（不可数名词属于stuff）。

语义分割更注重「类别之间的区分」，而实例分割更注重「个体之间的区分」，以下图为例，从上到下分别是原图、语义分割结果和实例分割结果。语义分割会重点将前景里的人群和背景里树木、天空和草地分割开，但是它不区分人群的单独个体，如图中的人全部标记为红色，导致右边黄色框中的人无法辨别是一个人还是不同的人；而实例分割会重点将人群里的每一个人分割开，但是不在乎草地、树木和天空的分割。

全景分割可以说是语义分割和实例分割的结合，下图是同一张原图的全景分割结果，每个stuff类别与things类别都被分割开，可以看到，things类别的不同个体也被彼此分割开了。

目前用于全景分割的常见公开数据集包括：MSCOCO、Vistas、ADE20K和Cityscapes。

COCO是微软团队公布的可以用来图像recognition、segmentation和captioning的数据集，主要从复杂的日常场景中截取，主要有91个类别，虽然类别比ImageNet少很多，但每一类的图像很多。

Vistas是全球最大的和最多样化的街景图像数据库，以帮助全球范围内的无人驾驶和自主运输技术。

ADE20K是一个可用于场景感知、分割和多物体识别等多种任务的数据集。相比于大规模数据集ImageNet和COCO，它的场景更多样化，相比于SUN，它的图像数量更多，对数据的注释也更详细。

Cityscapes是一个包含50个城市街景的数据集，也是提供无人驾驶环境下的图像分割用的数据集。

链接如下：

COCO:

转载请注明：http://www.aierlanlan.com/grrz/2868.html

上一篇文章： BEV感知的开源数据集分享

下一篇文章：没有了