机器之心原创
作者:朱艳芳
编辑:邱陆陆
图像分割(imagesegmentation)任务的定义是:根据某些规则将图片分成若干个特定的、具有独特性质的区域,并提出感兴趣目标的技术和过程。
目前图像分割任务发展出了以下几个子领域:语义分割(semanticsegmentation)、实例分割(instancesegmentation)以及今年刚兴起的新领域全景分割(panopticsegmentation)。
而想要理清三个子领域的区别就不得不提到关于图像分割中things和stuff的区别:图像中的内容可以按照是否有固定形状分为things类别和stuff类别,其中,人,车等有固定形状的物体属于things类别(可数名词通常属于things);天空,草地等没有固定形状的物体属于stuff类别(不可数名词属于stuff)。
语义分割更注重「类别之间的区分」,而实例分割更注重「个体之间的区分」,以下图为例,从上到下分别是原图、语义分割结果和实例分割结果。语义分割会重点将前景里的人群和背景里树木、天空和草地分割开,但是它不区分人群的单独个体,如图中的人全部标记为红色,导致右边黄色框中的人无法辨别是一个人还是不同的人;而实例分割会重点将人群里的每一个人分割开,但是不在乎草地、树木和天空的分割。
全景分割可以说是语义分割和实例分割的结合,下图是同一张原图的全景分割结果,每个stuff类别与things类别都被分割开,可以看到,things类别的不同个体也被彼此分割开了。
目前用于全景分割的常见公开数据集包括:MSCOCO、Vistas、ADE20K和Cityscapes。
COCO是微软团队公布的可以用来图像recognition、segmentation和captioning的数据集,主要从复杂的日常场景中截取,主要有91个类别,虽然类别比ImageNet少很多,但每一类的图像很多。
Vistas是全球最大的和最多样化的街景图像数据库,以帮助全球范围内的无人驾驶和自主运输技术。
ADE20K是一个可用于场景感知、分割和多物体识别等多种任务的数据集。相比于大规模数据集ImageNet和COCO,它的场景更多样化,相比于SUN,它的图像数量更多,对数据的注释也更详细。
Cityscapes是一个包含50个城市街景的数据集,也是提供无人驾驶环境下的图像分割用的数据集。
链接如下:
COCO: