论文引荐 季顺平:遥感印象修建物提取的卷积神经元网络与开源数据集办法
米乐体育直播

  榜首作者简介:季顺平(1979-), 男, 博士, 教授, 博士生导师。研讨方向为拍摄丈量与遥感、核算机视觉、机器学习。/p>

  榜首作者简介:季顺平(1979-), 男, 博士, 教授, 博士生导师。研讨方向为拍摄丈量与遥感、核算机视觉、机器学习。/p

  摘要:从遥感图画中主动化地检测和提取修建物在城市规划、人口估量、地形图制造和更新等运用中具有极为重要的含义。本文提出和展现了修建物提取的数个研讨开展。因为遥感成像机理、修建物自身、布景环境的复杂性,传统的经历规划特征的办法一向未能完成主动化,修建物提取成为30余年没有处理的应战。先进的深度学习办法带来新的机会,但现在存在两个窘境:①尚短少高精度的修建物数据库,而数据是深度学习必不可少的“燃料”;②现在世界上的办法都选用像素级的语义切割,方针级、矢量级的提取作业亟待展开。针关于此,本文进行以下作业:①与现在同类数据集比较,建立了一套现在世界上规模最大、精度最高、包括多种样本办法(栅格、矢量)、多类数据源(航空、卫星)的修建物数据库(WHU building dataset),并完成开源;②提出一种依据全卷积网络的修建物语义切割办法,与当时世界上的最新算法比较到达了抢先水平;③将修建物提取的规模从像素级的语义切割推行至方针实例切割,完成以方针(修建物)为方针的辨认和提取。经过实验,验证了WHU数据库在世界上的抢先性和本文办法的先进性。

  主动化地进行遥感印象修建物检测和提取在城市规划、人口估量、地形图制造和更新等运用中都具有极为重要的含义,一同也是遥感图画处理与运用范畴一个极端困难的问题,其研讨跨度逾越30年[1]。当时,依据人工智能和机器学习遥感数据处理办法,特别是以深度学习为代表的图画辨认、方针检测等技能的展开,为从遥感印象中主动化提取修建物供给了机会和远景。可是,因为遥感成像机理、修建物自身、布景环境的复杂性,从遥感图画中主动提取修建物迄今依然停留在理论研讨和验证阶段,尚无普适性和实用性的算法及体系呈现。

  传统上,从航空/航天印象中提取修建物的首要作业会集在经历地规划一个恰当的特征以表达“什么是修建物”,并创立相应的特搜集用于修建物的主动辨认和提取。常用的方针包括像素[2]、光谱[3-5]、长度、边际[6-8]、形状[9-10]、纹路[4,11-12]、暗影[1-2,13]、高度[14-16]、语义[17-18]等。而这些方针却会跟着时节、光照、大气条件、传感器质量、规范、修建物风格和环境产生较显着的改变。因而,这种凭经历规划特征的办法常常只能处理特定的数据,而无法线年开端,深度学习中的卷积神经元网络(neural convolutional networks, CNN)被逐步引进到遥感中,并显现了在图画检索、图画分类、方针检测中的巨大运用潜力[19-20]。CNN的成功之处在于它可以主动学习出一个多层的特征表达,该表达将原始输入映射到二元或多元标签(一个分类问题)或接连的矢量(一个回归问题)。这种自我学习特征的才能逾越并逐步代替了传统的人工经历规划特征的办法;特别地,为本文重视的修建物主动提取供给了一种更具主动化和稳健性的处理方案。

  修建物提取具有较高的研讨复杂度,它不只是是一个分类(classification)和语义切割问题(semantic segmentation),它仍是一个方针检测(object detection)和实例切割问题(instance segmentation)。2012年,跟着核算机核算才能取得长足开展,以多层(大于三层)神经元网络为特征的深度学习技能开端显现出极大的优越性,逐步逾越以“符号主义”为主导的传统视觉处理技能,并逐步成为人工智能和机器学习中范畴的一个研讨热门。作为视觉处理的干流深度学习结构,CNN被广泛运用于图画分类,并以此为根底逐步展开了一系列通用的CNN架构,如AlexNet[21]、VGGNet[22]、GoogleNet[23]、ResNet[24]等。在ImageNet[25]、COCO[26]等测验集上,这些架构为一个图画输出一个类别标签,即离散标签的分类。其间,ImageNet由包括1000品种其他1000万张天然图画组成,也直接促进了深度学习办法迸发。从2015年开端,特别的CNN架构得到展开并广泛用于语义切割:为图画中的一切像素都赋予类别标签。这些架构可统称为全卷积神经元网络(fully convolutional network, FCN)[27],包括SegNet[28]、DeconvNet[29]、U-Net[30]等多个变种。当时,最新的修建物提取的文献都是选用依据FCN的语义切割办法[31-32]。文献[31—32]选用FCN结构,并略微改善了FCN结构用于修建物的像素级语义切割;可是这些论文中的实验只是考虑了像素上的分类精度。

  显着,修建物提取的研讨并非止于语义切割。修建物提取的方针并非重视某个像素是不是修建物,而更重视修建物方针自身,包括修建物的方位,修建物的数量。这是一个典型的方针实例切割问题,在本文研讨中便是修建物单体切割。可是,现在依据CNN的修建物实例切割研讨在国内外相关范畴重视依然较少,并亟待填充。在深度学习中,从CNN中展开出一类特别的网络架构用于方针检测,即经过回归而非标签分类寻觅一个最优容纳盒(bounding box)。由容纳盒的四角坐标,进一步得到待检测物体的方位和数量,其间最盛行的是依据区域的模型(region-based model)。这些模型包括R-CNN (region-based CNN)[33],Fast R-CNN[34]、Faster R-CNN模型[35]、YOLO(you only look once)[36]。

  结合修建物的方针检测和语义切割,可完成完好的实例切割。实例切割是指不光在方针等级发现单个修建物实体(以容纳盒的办法),而且可以在容纳盒内部经过语义切割准确辨认修建物的远景像素。最新的Mask R-CNN[37]完成了单体方针检测的一同,进行容纳盒内方针的语义切割,而且到达了很高的精度。

  无论是修建物语义切割仍是没有展开的修建物实例切割,依据深度学习的办法激烈依赖于大容量、高精度的样本数据库。假如以为深度学习是智能年代的引擎,数据便是深度学习的燃料,即数据为王。ImageNet、COCO等核算机视觉界的开源数据库极大地影响了深度学习的展开。可是在遥感范畴,像COCO这样的大容量、高质量的数据库尚比较缺少。这导致两个问题:①个别研讨者将在搜集实验数据上花费许多精力;②运用不同的非开源数据库,对理论和办法间的定量比较构成妨碍,阻止了深度学习在遥感中的快速开展。例如,最新的两篇文献[31—32]都选用非揭露数据库,而且作者都报告了自己所用的数据库的精度较差,因而无法直接比较办法的好坏、无法准确评价先进的深度学习办法能到达的主动化水平。

  现在,世界上共有3套开源数据集可用于修建物提取,别离是Massachusetts数据库[38]、ISPRS的Vaihingen和Potsdam数据库(、Inria数据库[39]。ISPRS数据库太小,只掩盖13 km2的区域,修建物实例太少,无法进行大规模的运用。Massachusetts数据库包括151张1500×1500像素的图画,分辨率为1 m,但这个数据库质量较差,没有被用于最新的文献的实验中。Inria数据库是2017年最新的修建物数据库,掩盖405 km2,分辨率0.3 m,但现在还没有被广泛运用。从文献[39]可以看出,运用干流的全卷积网络的办法,经过交并比(intersection on union, IoU)进行评价,只能到达0.59的精度,可见数据库质量较差。

  针对以上修建物提取在深度学习年代下的问题和瓶颈,本文提出了相应的处理办法。首要,笔者创立了一套现在规模最大、精度最高、包括多种样本办法(栅格、矢量)、多类数据源(航空、卫星)的修建物数据库(WHU building dataset),并完成开源。期望可以为深度学习年代下的修建物提取奠定根底,并供给了一个重要的算法功能比较规范。其次,本文提出一种改善的FCN办法,与最新的文献比较,在修建物语义切割中得到了抢先的成果;第三,本文提出了一种改善的Mask R-CNN办法,初次完成了大场景下(18万栋)修建物的实例切割,经实验验证,其像素语义切割精度略逾越依据FCN的办法。

  全卷积网络FCN是像素级语义切割的干流结构;U-Net作为FCN的一种经典的变体、取得广泛运用。U-Net的结构如图 1(a),包括特征编码和解码两个阶段。在特征编码阶段,原始输入逐层进行卷积和降采样,以取得具有较低空间分辨率的高档语义特征。在解码阶段,经过上卷积操作将底层特征逐层扩大2倍,并与编码阶段的同层特征串联,并康复至原始图画的规范。在原始规范下,当时模型的猜测成果与真值参阅之间的差异用于经过反向传达练习网络参数。U-Net只在终究一层进行图画像素类别分类。尽管U-Net运用了来自编码阶段从前层的一些信息,但其关于多规范信息的泛化才能是有限的。图 2显现了一个含有大型修建和轿车的场景的分类成果,在图 2(b)中,许多轿车被U-Net过错地分类为修建物,而在第二行中,大型修建物的右方被过错的分类,这两者都标明单链条的上采样不能彻底传递规范信息。

  图 1U-Net和FPN的根本结构Fig. 1The basic structure of U-net and FPN

  图 2不同网络在两张包括轿车和大型修建物的512×512图画上的切割成果Fig. 2Segmentation results of different networks on two 512×512 images with cars and large buildings

  特征金字塔网络(feature pyramid network, FPN)也是梯形结构,但具有多个猜测输出(见图 1(b))。FPN在每一个阶段均进行猜测,经过对这些输出进行加权得到终究的丢失函数。因而各阶段的猜测成果都用于反向传达和网络参数的更新。FPN可以定位不同份额的方针,因而在方针检测中具有杰出的效果。可是,在像素切割中只重视终究一层(即原始图画分辨率下)的切割精度,其切割才能或许需求进一步强化。

  依据以上描绘,本文提出SU-Net(scale robust u-net),即依据U-Net和FPN进行规划,专门用于处理遥感图画中不同规范的物体或不同分辨率的遥感印象的多规范问题。在SU-Net中采取了两种战略。一是图 3中空心箭头(除了最右边的那个)所指的部分将FPN整合到U-Net的网络主干中。经过猜测上采样进程中每个规范的分类成果,替代只对原始分辨率层进行输出,因而可以在反向传达和权重更新中运用多规范信息。

  图 3SU-Net的结构。曲折和空心箭头和相应的块被引进U-Net骨架Fig. 3The structure of SU-net. curved and hollow arrows and blocks are introduced to a U-net backbone

  二是将各个规范上的终究特征图进行串联,构成含有4通道的特征图(最右侧的一个灰色箭头和3个曲折箭头所指),终究经过1×1的卷积和sigmoid函数得到终究的猜测图。经过这种战略,终究的猜测图汇聚了多个规范的信息,各个规范的信息在反向传达和模型练习中都起到了活跃的效果。这种简略有用的跨规范信息聚合在很大程度上处理了大型修建物和小型轿车构成的检测困难,如图 2(d)所示。

  Mask R-CNN根本沿用了Faster R-CNN的方针辨认结构,并在其根底上参加一个远景切割的网络分支。Faster R-CNN是现在R-CNN系列用于方针勘探的最盛行结构。如图 4所示,整个结构分红3个模块。第1个模块是CNN主干结构,用来从图画中提取特征,常用的结构是ResNet50或ResNet101。取ResNet的接近终究的卷积层作为特征图,用于后继处理。整个方针辨认建立在同一个特征图上,因而做到了高效性。第2个模块是区域主张网络(region proposal network, RPN),该模块用于从特征图中发现或许含有远景方针的区域。该模块选用巨细和份额不等的矩形主张框搜索潜在的方针,一般地,Faster R-CNN输出排在最前面的2000个主张框。第3个部分是爱好域(region of interest, RoI)池化和终究的输出。该部分将经过RPN得到的主张框,进行一系列卷积操作,终究得到特征向量,并借此辨认方针的详细类别,一同对RPN输出的容纳盒进行精化。Faster R-CNN共有4个输出,这4个输出经过对丢失函数加权的办法,进行反向传达和迭代,得到最优的物体类别及容纳盒。

  图 4Faster R-CNN结构和流程Fig. 4The framework and process of Faster R-CNN

  实例切割比方针辨认更进一步,它不光需求对每个方针进行准确认位(以容纳盒的办法),还需求对容纳盒内的物体进行远景切割。Mask R-CNN是最新也最著名的实例切割算法。它直接选用Faster R-CNN完成方针辨认,并一同运用全卷积网络完成容纳盒内远景方针的切割。在图 5中,在RoI层之前,Mask R-CNN的结构与图 4所示的Faster R-CNN彻底相同。RoIAlign指用浮点运算来确认爱好域的方针边框,对此前的R-CNN结构因为选用取整操作而损构成的精度丢失进行了改善。Mask R-CNN在RoI池化层后相同有类别和容纳盒输出,并新添加一个用于语义切割的子网络,输出Mask。这样在一个网络结构下,一同就完成了方针的定位、辨认和语义切割。

  图 5Mask R-CNN的结构[35]Fig. 5The structure of Mask R-CNN[35]

  在修建物提取实验中,关于小型的修建物,Mask R-CNN的提取成果较好(包括容纳盒与方针);而在提取大修建物时,其容纳盒比较准确,可是掩膜Mask的鸿沟存在不太准确之处,本文测验对其改善。原始版别的mask巨细为别离为14×14像素与28×28像素,大修建物因为缩放份额过高而丢失了许多细节信息。在实验中,修改为40×40与80×80像素,一同将容纳盒的巨细从7×7像素按份额设置成20×20像素。

  笔者团队用近1年时刻,手艺修改了一套大场景、高分辨率的遥感修建物数据库(WHU building dataset)并完成开源(,该数据库分红航空修建物数据库和卫星修建物数据库。航空修建物数据库印象来自新西兰Christchurch市,包括22万栋办法各异的修建,地上分辨率0.075 m,掩盖450 km2。原始的矢量数据和航空印象都由新西兰土地信息服务(供给,可是原始数据存在许多的过错,如缺失、错位等,如图 6所示,无法直接运用。因而在ArcGIS软件中选用全人工的办法对其进行了前后3次穿插查看和修订,以制造高质量的修建物矢量图。

  图 6原始矢量文件中的过错,淡色框是原始矢量多边形,深色框是修改后的多边形Fig. 6Errors in the original vector data. light colour polygons show the vectorized buildings of the original. We manually edited all these polygons (dark colour polygon)

  图 7显现了一块首要修建物区域,含有18.7万栋不同用处、不同颜色、不同巨细的修建物。为了便于深度学习办法的处理并考虑到当时GPU的容量,本文将原始印象下采样到0.3 m分辨率,并无缝(且无堆叠)切割成512×512的瓦片。选取坐落中心虚线万栋修建物用于深度学习练习,两边实线万栋修建物用于测验。图 8是不同风格、用处、规范和颜色的航空修建物样本实例图。

  图 7航空数据会集的绝大部分Fig. 7Most part of aerial dataset

  图 8不同风格、用处、规范和颜色的修建物样本Fig. 8Examples of the aerial dataset with different architectures, purposes, scales and colors

  卫星数据库包括数据集Ⅰ和数据集Ⅱ,其间数据集Ⅰ包括204张512×512像素的图画,别离收集至不同卫星传感器(ZY-3号、IKONOS、Worldview系列等)、不同分辨率(0.3 m~2.3 m)、包括我国、欧洲、北美、南美和非洲等五大洲的不同城市,如图 9所示。这套数据库与航空数据集有显着的差异,可用于深度学习泛化才能的评价:即在航空数据集上体现杰出的学习模型是否能较好地用于卫星数据各类方针场景下。

  图 9来自全球的不同传感器不同城市的卫星遥感印象修建物样本Fig. 9Examples of the satellite dataset with different architectures from cities over the world

  卫星数据集Ⅱ包括6张相邻的、颜色差异显着的卫星遥感印象,地上分辨率0.45 m,掩盖东亚区域860 km2的土地,如图 10所示。本文数据集首要用于评价深度学习办法关于不同数据源但修建物类型相似的样本的泛化才能。修建物矢量图相同在ArcGIS中全手艺画出,包括3.4万栋修建物。与航空数据集相似,整个区域被分红17 388个512×512像素的瓦片,便于深度学习办法的运用。

  图 10由6张卫星印象组成的掩盖860 km2的东亚区域Fig. 10An area of 860 km2covered by six satellite images in East Asia

  表 1是WHU数据集与世界开源数据集的比较。可见,该数据库在多个方针上都逾越了已有的开源数据库。所供给的矢量样本办法将能为修建物的单体检测和实例切割供给样本,而其他数据库难以做到。此外,除了ISPRS数据库,WHU数据库也是地上分辨率最高的数据库。但ISPRS数据库面积太小、修建物类型太少而无法恰当地用于大规模修建物的提取。下节将证明WHU精度远高于其他2套数据集,见表 2。

  文中运用3个方针评价检测成果的准确性。第1个是交并比IoU,指算法检测到的修建物像素与实在的正像素的交集以及它们的并集之间的比值。IoU一般作为方针检测和语义切割中的最常用方针。第2个是准确率(Precision),算法检测到的修建物像素中线个是召回率(Recall),即算法检测到正确修建物像素占地上实在正像素的百分比。

  为确保公平性,在一切数据会集都选用2/3样本进行练习,其他作为测验。网络模型一致选用规范的U-Net。在练习进程中,运用批改线性单元(rectified linear unit, ReLU)作为激活函数。实验在以TensorFlow作为后端的Keras结构下进行,每次输入6张图画,运用Adam算法进行网络优化,学习速率设置为0.000 1,一切参数依据正态分布进行初始化。整个练习进程在单个NVIDIA Titan Xp GPU上大约需求3 h左右的时刻。

  与本文的数据集比较,Massachusetts数据集的质量和分辨率要低得多,且存在许多过错标签,其IoU和准确率/召回率别离比WHU数据集低30%和20%,这对FCN在准确检测修建物中的运用产生了负面影响。Inria数据集包括来自5个城市的航空印象,但因为每个城市的数据量相对较少,且经过目视查看,发现存在许多房子的标签遗失,导致其成果在IoU上比WHU差14%,在召回上差20%。该实验证明本文提出的WHU修建物数据集应该是现在世界上精度最高的开源数据库。

  现在最先进的修建物提取办法简直都依据FCN结构。表 3回忆了U-Net、多规范U-Net和本文提出的SU-Net在WHU数据集上的体现。SU-Net取得了最优的成果,比较U-Net高出4%,比2018年最新的成果[40]高出3%。因为现已到达极高的辨认率(95%的准确率和94%的召回),3%可看作是一个明显的开展。

  一同,这些成果也反映出同传统办法比较(往往难以逾越50%的准确率),依据深度学习的办法现已将修建物提取推进到一个新的主动化水平。

  为了验证本文办法的优越性和稳定性,也在另一套开源数据集Inria上与最新的别的一篇论文的MLP办法[39]进行比较。从表 4看出,本文的办法比MLP在IoU上要高出20%。本文办法运转功率很高,整个网络练习只需求3 h左右,而MLP的办法只是在微调阶段就需求50 h。此外,实验也标明本文办法在这套数据集上比U-Net和文献[40]的办法别离高出1.9%和0.8%。

  因为WHU数据库供给了修建物矢量文件,可以较好地运用于修建物的单体实例切割。本文依据每个修建物矢量进一步创立了容纳盒,并与像素标签一同用于改善Mask R-CNN模型的练习。

  因为Mask R-CNN要比FCN慢许多,本文只选用了4万栋航空图画的修建物作为练习,其他14万栋修建物作为测验,即练习区域和测验区域对换,练习模型耗时约20 h。图 11暗示了两幅图画的切割成果。图中的绝大部分房子都被准确的容纳盒定位,而且容纳盒内的修建物远景也得到了相当好的分类。

  图 11修建物单体实例切割的成果示例Fig. 11Example of the result of segmentation of a single instance of a building

  表 5显现了改善MASK R-CNN在14万栋修建图画上的方针检测(容纳盒)以及远景切割的定量成果。其间,AP50表明将IoU大于50%的被检测修建物看作正确计算,所制作的Precission-Recall曲线%表达了一切单体修建物中,有83.4%被正确辨认。因为FCN等语义切割办法只能计算像素切割的成果,本文在相同的练习集下,将U-Net的成果与改善Mask R-CNN中的远景切割精度作了比较。从表 3可见,在相同的练习数据集下,Mask R-CNN的IoU比U-Net高0.5个百分点,这应该是因为更多输入信息(容纳盒回归)得到的细微提高。改善的Mask R-CNN因为加大了容纳盒和mask的外框巨细,减轻了过高的缩放份额带来的信息丢失,因而相关于原始的Mask R-CNN,在容纳盒和mask上都得到了0.5个百分点的提高。尽管提高较小,但阐明本文办法思路的正确性。

  本文报告了遥感印象修建物提取的数个重要研讨开展。榜首,与当时世界同类数据集比较,本文建立了一套规模最大、精度最高、包括栅格和矢量样本办法、航空/航天数据源的修建物数据库,并完成开源。该数据库便于研讨人员运用、便于办法间的比较、便于新办法的快速展开;一同该数据集供给的矢量办法可以拓宽修建物提取的研讨规模,即从当时的像素级语义切割推行至单体修建物的实例切割甚至多边形提取。第二,本文提出一种依据全卷积网络的修建物语义切割办法,与最先进的办法比较,到达了抢先水平。第三,本文将修建物提取研讨从像素级的语义切割推行至方针实例切割,完成以修建物为方针的辨认和提取,并取得了比语义切割更好的成果。

  终究,期望经过本文的开源数据库和相应的办法研讨,可以促进修建物提取的研讨进一步展开,终究完成修建物语义专题估量的主动化、智能化。