融合级联CRFs和U-Net深度学习模型的遥感影像建筑物自动提取

陈嘉浩; 邢汉发; 陈相龙

doi:10.6054/j.jscnun.2022011

融合级联CRFs和U-Net深度学习模型的遥感影像建筑物自动提取

陈嘉浩¹,
邢汉发^{2, 3, 4, ,},
陈相龙²

1.
广东晟腾地信科技有限公司，佛山 528200
2.
华南师范大学地理科学学院，广州 510631
3.
华南师大(清远)科技创新研究院有限公司，清远 511517
4.
广东师大维智信息科技有限公司，清远 511517

基金项目:

国家自然科学基金项目 41971406

广东省科技计划项目 2018B020207002

详细信息

通讯作者:
邢汉发，Email: xinghanfa@163.com

中图分类号: P237
计量
- 文章访问数: 682
- HTML全文浏览量: 256
- PDF下载量: 131
出版历程
- 收稿日期: 2021-03-16
- 网络出版日期: 2022-03-13
- 刊出日期: 2022-02-24

Automatic Building Extraction from Remote Sensing Images Based on Cascaded CRFs and the U-Net Deep Learning Model

1.
Guangdong Shengteng Geospatial Information Technology, Foshan 528200, China
2.
School of Geography, South China Normal University, Guangzhou 510631, China
3.
SCNU Qingyuan Institute of Science and Technology Innovation Co., Ltd., Qingyuan 511517, China
4.
Guangdong Normal University Weizhi Information Technology Co., Ltd., Qingyuan 511517, China

摘要

摘要: 针对深度学习模型进行建筑物提取时存在的建筑物边缘模糊问题，将级联CRFs(全连接条件随机场)引入到U-Net深度模型中，提出了一种改进的U-Net模型(U-Net+级联CRFs)，以用于遥感影像建筑物自动提取：构建级联CRFs并将其引入到U-Net模型的解码层中，从多层结构中学习边界信息，增强模型对建筑物边界的分割能力。并以广东省佛山市为研究区，利用U-Net+级联CRFs、U-Net+CRFs、U-Net、SVM模型进行建筑物提取实验。结果表明U-Net+级联CRFs模型可以有效识别建筑物边界信息，提高建筑物提取的精度：U-Net+级联CRFs模型在准确度、召回率、F1值和交并比4个指标上的均值分别达到了93.1%、87.5%、91.4%和85.1%，均优于U-Net+CRFs、U-Net、SVM模型。
- 深度学习 /
- 建筑物提取 /
- U-Net模型 /
- 全连接条件随机场
Abstract: To address the problem of building edge ambiguity in deep learning models for building extraction, cascaded CRFs (fully connected conditional random fields) is introduced into the U-Net model and an improved U-Net model (U-Net+cascade CRFs) is proposed for automatic building extraction from remote sensing images. A cascaded CRFs model is constructed and introduced into the decoding layer of the U-Net model to learn the boundary information from the multi-layer structure and enhance the ability of the model to segment the building boundary. Taking Foshan City, Guangdong Province, as the research area, the U-Net+cascaded CRFs, U-Net+CRFs, U-Net and SVM models are used to carry out building extraction experiments. The results show that the proposed method can effectively identify building boundary information and improve the accuracy of building extraction: it can achieve 93.1%, 87.5%, 91.4% and 85.1% of the four indexes of accuracy, recall rate, F1 value and cross/combine ratio respectively, which are superior to those of U-Net+CRFs, U-Net and SVM models.
- deep learning /
- building extraction /
- U-Net /
- full connected condition random fields

HTML全文

快速且准确地从遥感影像中检测和提取建筑物，在变化检测、城市规划、防灾避险和三维建模等应用中都有着重要的意义^[1-2]。随着遥感技术的不断发展，遥感影像的空间分辨率显著提高，高分辨率遥感影像已经成为建筑物数据的重要来源之一。然而，遥感影像中的地物信息、几何结构和纹理特征等更加丰富和精细，对建筑物提取技术提出了更高的要求^[3-4]，因此，如何实现更加高效高精度且自动化的遥感影像建筑物提取具有非常重要的研究意义和实际价值。

目前，传统的用于建筑物提取的方法主要有监督分类^[5]、知识约束^[6]和模板匹配^[7]。其中，监督分类是采取人工手段对建筑物的特征进行设计，然后对随机森林^[8]、支持向量机^[9]和ISO聚类^[10]等分类器进行训练，最后使用训练好的分类器对实验数据进行分类, 从而提取有效建筑物；知识约束是面对某些待测问题，以特定的条件来约束并处理，得到更好的提取结果，其中以矩形约束^[11]、几何辐射^[12]和菱形约束^[13]等知识约束方法为典型代表；模板匹配是确定明确的建筑物参数模板并对建筑物信息进行描述，再根据相关度寻找最合适的算法匹配得到最优结果^[14]。

近年来，计算机处理能力得到大幅度提高，海量学习样本数据集不断更新，以卷积神经网络(Convolutional Neural Network，CNN)^[15]为代表的深度学习技术在基于遥感影像的建筑物提取领域得到了广泛应用^[16]。这种方法省去了人力操作，自动从包含大量训练样本的图像数据集中学习相关语义特征，从而得到精确的结果，其适用性优于传统方法。然而，基于经典的CNN模型进行批量处理时会存在内存开销上涨、计算效率低下和感知区受限制等问题^[17]。为解决上述问题，LONG等^[18]提出了全卷积神经网络(Fully Convolutional Networks，FCN)，该网络不仅提高了对光谱特征和空间特征的提取能力，还去除了全连接层，提高了影像分割效率，降低了计算复杂度。然而，基于FCN模型提取图像时，前向传播过程中特征图像的分辨率不断下降，这种仅采用末端特征上采样生成的分割结果的边缘精度较低，丢失了若干细节信息。2015年，RONNEBERGER等^[19]提出了U-Net模型，该模型以FCN模型为基础，通过对称式的结构融合了传统网络中的低维特征和高维特征，在图像分割上有更好的效果。2019年，朱辉和秦品乐^[20]设计了一种基于多尺度特征结构的改进U-Net卷积神经网络肺结节检测算法，更准确地定位肺部病灶区；刘浩等^[21]提出了一种基于特征压缩激活U-Net模型的建筑物提取方法，对相应尺度的空间信息进行恢复，更好地识别形状各异的建筑物。U-Net模型在建筑物提取领域展现了优异的性能，但该模型在反卷积层进行采样操作时会损失影像中的建筑物特征，从而造成建筑物边缘模糊的问题^[22]。为解决此问题，学者们在U-Net模型中引入全连接条件随机场(Fully Connected Conditional Random Fields，CRFs)，以对建筑物边缘进行优化。如：张浩然等^[23]提出基于CRFs模型对U-Net模型分割的影像结果进行后处理，从而提高了建筑物边缘的分割精度。然而，基于U-Net模型和CRFs的语义分割算法只优化了U-Net模型的最终输出，忽略了中间层中包含的空间信息和边缘信息，而空间信息和边缘信息的恢复对提高语义分割的性能起着重要的作用。

基于以上分析，本文提出一种改进的U-Net模型(U-Net+级联CRFs)，以进行遥感影像建筑物自动提取。该模型在U-Net模型的解码部分，通过融合多级CRFs，将当前层CRFs的输出作为后一层CRFs的输入之一，形成级联关系，从而补充边界的语义信息和空间信息, 提高解码器模块的边界恢复能力。并以广东省佛山市为研究区，基于SVM、U-Net、U-Net+CRFs、U-Net+级联CRFs模型进行建筑物提取对比实验，以验证U-Net+级联CRFs模型的边界提取优势。

1. 基于改进U-Net模型的遥感影像建筑物提取

本文首先对样本数据进行预处理，随后基于U-Net网络构建建筑物提取模型，继而在网络解码层加入级联CRFs，构建完整的级联CRFs，对每一个解码层的输出进行处理，并将所有CRFs的输出进行整合，得到最终的提取结果。下面给出关键模型和方法。

1.1 基于U-Net网络的建筑物提取模型

U-Net网络(图 1)扩展了全卷积神经网络的低维特征和高维特征相融合的思想，网络左半部分中每一层的内部使用了2次3×3的卷积操作，并保持卷积核的数目相同，通过递减的方式控制输入数据的空间维度，提取高层典型特征；右半部分自下而上通过反卷积层逆向进行多次上采样，逐步还原低层空间维度的细节信息。同时，针对模型易发生梯度消失和梯度爆炸的问题，在网络中引入了批量归一化(BN)层^[24]；针对模型中参数过多而训练样本较少时产生的过拟合现象，在网络中引入了Dropout层^[25]。U-Net模型构建后，设置模型参数即可用于数据集训练。

图 1 U-Net网络结构示意图

Figure 1. The schematic diagram of U-Net network structure

下载: 全尺寸图片幻灯片

在设置好模型参数后，将训练数据集输入模型，对U-Net模型进行训练。首先，通过U-Net模型的左半部分对输入的数据进行卷积和池化操作，得到高维的特征金字塔。然后，通过模型的右半部分对影像进行反卷积和上采样操作，逐步恢复影像的细节信息和位置信息，得到与输入数据尺寸相同的输出影像。训练过程中，采用Adam优化算法来缩小loss值，直至loss值小于某一阈值，训练停止。

1.2 级联CRFs

为了完善建筑物边界分割的空间信息和边缘信息，本文提出了级联CRFs结构，以对U-Net网络解码层信息进行逐层处理。传统CRFs通过分析单个像素与其他所有像素之间的关系，引入像元颜色信息作为参考依据，在相邻像元之间建立全连接依赖关系，并基于基本模型预测的结果计算像元归类的概率^[23]。该模型是对初步提取结果进行后处理，而级联CRFs是对解码层逐层处理(图 2)，即将当前层CRFs处理的结果作为后一层CRFs的输入之一，从而增强上下层特征之间的关系，弥补中间层丰富的语义信息。网络结构的深层包含更丰富、更抽象的高层语义信息，而浅层包含更多的低层信息。传统的目标提取模型的跳跃连接是通过从深层堆叠到浅层的方式来增加更详细的特征，而级联CRFs则采用由浅层向深层叠加的特征：在级联CRFs的解码阶段，浅层译码器包含更多的高级语义信息，特征之间的关系通过CRFs得到增强；对于深层编码器，通过一系列上采样操作逐步恢复浅层特征。此时，利用级联CRFs对特征图进行处理，可以优化目标边界轮廓，同时增加图像空间信息。

图 2 级联CRFs的抽象结构

Figure 2. The abstract structure of the cascaded CRFs

下载: 全尺寸图片幻灯片

本文基于建筑物边界处相邻像素的颜色和位置属性信息，建立每一层CRFs的能量函数，根据其中的颜色和距离的相似性及特征关系，判断每一像素与其他所有像素之间的关系，实现每层图像边界的极大细化和分割，并在级联的结构下，逐一完善语义信息和空间信息。假设每层CRFs的输出为o^l，每个解码层输出为up^l, 则定义每层CRFs的能量函数为：

$E\left(o^{l}\right)=\sum\limits_{i=1}^{N} \varphi_{\mathrm{u}}\left(o_{i}^{l}\right)+\sum\limits_{i \neq j} \varphi_{\mathrm{p}}\left(o_{i}^{l}, o_{j}^{l}\right),$

其中：o为每个像素i的标签，代表i类别；φ_u(o_i^l)为反映地表真实地物g_i^l与预测结果地物o_i^l之间相似性的一元势能函数，定义如下：

$\varphi_{\mathrm{u}}\left(o_{i}^{l}\right)=\left(g_{i}^{l}-o_{i}^{l}\right)^{2}, g_{i}^{l}=\mathrm{up}^{l}+o^{l-1} ;$

φ_p(o_i^l, o_j^l)为能量函数的二元势能函数，用于为相似的像素分配相似的标签，定义如下：

$\varphi_{\mathrm{p}}\left(o_{i}^{l}, o_{j}^{l}\right)=\mu\left(o_{i}^{l}, o_{j}^{l}\right) \sum\limits_{m=1}^{K} \omega^{(m)} k_{G}^{(m)}\left(f_{i}^{l}-f_{j}^{l}\right)^{2},$

其中：f_i^l、f_j^l分别为特征空间中第l层像素i、j的特征向量，代表像素的2种属性；k_G^(m)为高斯核；k_G^(m)(f_i^l-f_j^l)²为高斯核函数；ω^(m)为第m层权重值；μ(o_i^l, o_j^l)为标签兼容性函数，用于计算相同含义下不同类别像素对o_i^l与o_j^l之间的兼容性。

本文中，CRFs使用2个对比明显的高斯核函数来实现建筑物与非建筑物的分割和标记：

$\theta_{1}\left(f_{i}^{l}, f_{j}^{l}\right)=\omega^{(1)} \exp \left(-\frac{\left|p_{i}-p_{j}\right|^{2}}{2 \theta_{\alpha}^{2}}-\frac{\left|X_{i}-X_{j}\right|^{2}}{2 \theta_{\beta}^{2}}\right),$

$\theta_{2}\left(f_{i}^{l}, f_{j}^{l}\right)=\omega^{(2)} \exp \left(-\frac{\left|p_{i}-p_{j}\right|^{2}}{2 \theta_{\gamma}^{2}}\right),$

$k_{G}^{(m)}\left(f_{i}^{l}-f_{j}^{l}\right)^{2}=\theta_{1}\left(f_{i}^{l}, f_{j}^{l}\right)+\theta_{2}\left(f_{i}^{l}, f_{j}^{l}\right),$

其中：p_i、p_j表示像素i、j的位置，X_i、X_j表示像素i、j的原始颜色值，ω⁽¹⁾、ω⁽²⁾及θ_α、θ_β、θ_γ均为模型的可学习参数，θ_α、θ_β和θ_γ可以调整2个像素之间的接近度和相似性。第1个核函数θ₁(f_i^l, f_j^l)认为颜色相似的相邻像素很可能属于同一类，第2个核函数θ₂(f_i^l, f_j^l)用于去除孤立的区域。

1.3 U-Net+级联CRFs模型

本文将级联CRFs加入到U-Net网络的解码阶段，完成整个级联CRFs的构建。理论上，级联CRFs的构造可以从任意编码器开始。但由于第一层解码器的输入来自编码阶段，与后一层解码器相比，可以认为编码阶段包含的语义信息最多，而边缘和空间信息较少，因此，本研究使用CRFs优化后的4层解码器。

如图 3所示，每层CRFs的输入来自于2个部分：当前解码层和上一层CRFs。本文定义了每个解码层的输出是此解码层对应的CRFs的输入之一，可定义为up^l(l=1, 2, 3, 4, 5)。所以，CRFs1的输出可以定义为o¹=crf(up¹, up²)。其他CRFs的输入来自当前解码层和之前的CRFs，因此，这些CRFs的输出可以定义为o^l=crf(up^l, o^l+1)。

图 3 级联CRFs的U-Net网络结构

Figure 3. The U-Net network structure of the cascaded CRFs

下载: 全尺寸图片幻灯片

综上所述，可以得到CRFs4的输出，即整个级联CRFs的输出：

$o^{4}=\operatorname{crf}\left(\operatorname{up}^{5}, \operatorname{crf}\left(\operatorname{up}^{4}, \operatorname{crf}\left(\operatorname{up}^{3}, \operatorname{crf}\left(u p^{1}, {\operatorname{up}^{2}}\right)\right)\right)\right)。$

级联CRFs虽然包含一些CRFs，但只有一个能量函数。结合o^l和每个CRFs的能量函数定义级联CRFs结构的能量函数为：

$E\left(o^{l}\right)=\sum\limits_{i=1}^{N} \phi\left(o_{i}^{l}\right)+\sum\limits_{i \neq j} \varphi\left(o_{i}^{l}, o_{j}^{l}\right),$

其中，ϕ(·)、φ(·，·)分别为能量函数的一元势能函数、二元势能函数。

级联CRFs中的CRFs之间存在水平相关性，即当前CRFs的输出将是下一层CRFs的输入之一。不仅如此，CRFs的输入up^l也具有水平相关性。由于每个解码层都有卷积和上采样操作，因此，2个相邻解码层的输出可以近似定义为：

$\mathrm{up}^{l}=\mathrm{Upsample}\left(f\left(\omega^{l} \cdot \mathrm{up}^{l+1}+b^{l}\right)\right),$

其中，Upsample(·)表示上采样工作，f(·)代表ReLU，{ω^l，b^l}表示权重和偏差。所以，CRFs的输出可以重写为o^l=crf(Upsample(f(ω^l·up^l+1+b^l))，o^l+1)(l=3, 2, 1)。

级联CRFs将多层输出与CRFs处理的过程连接起来，图像中包含的高级语义特征和空间边界特征由多个解码层逐步恢复，使得最后一个解码层包含的语义信息最多，可以为级联CRFs的输出补充更详细的语义信息。因此，在级联CRFs建构后，可以看到级联CRFs不仅逐层补充了图像的深、浅层信息，而且更准确地定位了物体的边界轮廓。

2. 建筑物提取实验

2.1 研究区和研究数据

以广东省佛山市(112°23′05″ E~113°23′17″ E，22°38′43″ N~23°34′33″ N)为研究区域(图 4)进行实验，实验所用数据包括高空间分辨率遥感影像数据与建筑物矢量数据，其中，高空间分辨率遥感影像数据为2020年Worldview系列的全色卫星图像，有3个光谱波段(RGB)，地面分辨率最高为0.27 m。建筑物矢量数量来自2020年第三次全国土地利用调查数据库(http://www.mnr.gov.cn/)，能有效保证建筑物矢量数据的准确性、客观性和时效性。使用ArcGIS软件将建筑物矢量数据转换为深度学习所需的标签图像，图 5为建筑物数据集中的部分影像和对应的建筑物标签。

图 4 研究区域位置图

注：此图基于自然资源部标准地图服务网站的标准地图(审图号：GS(2016)2556号)绘制, 底图无修改。

Figure 4. The location map of the study area

下载: 全尺寸图片幻灯片

图 5 研究区部分影像建筑物及标签数据集

Figure 5. Some image buildings and label data in the study area

下载: 全尺寸图片幻灯片

2.2 数据预处理

为提高样本数量并使其正确输入模型中，需要对原始实验数据进行预处理，以得到训练数据集和验证数据集。样本预处理主要包括数据格式转换、无缝切割、样本筛选、训练数据集及验证数据集的制作等。首先，将建筑物矢量数据转换为用于U-Net模型训练所需的栅格标注数据；然后，将遥感影像数据和建筑物栅格数据同步切片成同样大小，使得遥感影像切片数据与建筑物栅格切片数据一一对应；其次，计算每个建筑物栅格切片数据中建筑物的面积占比，剔除建筑物面积占比较小的切片数据；最后，将样本数据集按一定比例划分为训练数据和验证数据，便于将预处理后的样本数据输入到U-Net模型中。

2.3 实验结果与分析

2.3.1 建筑物提取结果分析

使用U-Net+级联CRFs模型与U-Net+CRFs、U-Net、SVM模型，在相同的研究区域进行建筑物提取对比实验。由提取结果(图 6)可知: 基于U-Net+CRFs、U-Net、SVM模型的提取结果中，存在较为明显的误提和漏提现象，容易将道路、停车场和裸露基岩等与建筑物材质相同的其他不透水面提取为建筑，对于建筑物边界的提取不清晰，且U-Net模型和SVM模型的提取结果中存在较多的“椒盐现象”；基于U-Net+级联CRFs模型提取的建筑物结果最接近地面真实情况，能更好地区分建筑物与背景，得到更丰富明显的边界信息，提高了目标边界定位能力，语义信息也得到了一定补充，建筑物提取准确度更高。

图 6 基于4种模型的建筑物提取可视化对比

Figure 6. The visual comparison of building extraction with four models

下载: 全尺寸图片幻灯片

由3个区域的建筑物局部提取结果(图 7)可知: (1)对于表面特征单一、建筑物自身存在阴影的建筑物(图 7区域a)，4种模型均能正确识别建筑物，但SVM模型受阴影的影响较大，建筑物的形态分割效果较差，而U-Net+级联CRFs模型一定程度上提高了语义分割性能和边界定位能力，较为准确且完整地提取到影像中的建筑物，且提取到的细节信息多于U-Net+CRFs模型提取的。(2)对于周围环境较为简单、自身结构略微复杂的建筑物(图 7区域b)，U-Net+CRFs模型和U-Net模型分割边界较为粗略，SVM模型难以正确识别建筑物，存在明显的漏检情况，而U-Net+级联CRFs模型可以较为准确清晰地提取建筑物，处理细节方面更具优势。(3)对于结构较为复杂、周围环境较为复杂的建筑物(图 7区域c)，U-Net+CRFs模型存在些许细节的误差，U-Net模型丢失部分边界信息，SVM模型无法很好地区分建筑物和背景，存在明显的误检，而U-Net+级联CRFs模型可以检测到建筑物的精确轮廓，增强了复杂场景下的目标定位能力和语义分割精度。

图 7 基于4种模型的不同建筑物的提取对比效果

Figure 7. The comparison of the effect of extracting different buildings with four models

下载: 全尺寸图片幻灯片

对建筑物边界提取效果的细节对比结果(图 8)表明U-Net+级联CRFs模型提取精度高于其他3种模型：(1)利用U-Net+CRFs、U-Net、SVM模型所提取的建筑物边界结果中，存在较为明显的分割边界模糊粗糙的情况：受建筑物周边阴影及部分不透水面材质的影响，建筑物边界的部分语义信息丢失。特别是基于SVM模型的提取结果中存在较多的误提及漏提，不能很好定位到建筑物边缘。(2)与其他3种模型相比，基于U-Net+级联CRFs模型提取的建筑物边界分割结果更为光滑平整，包含了更充分的语义信息和更准确的空间位置信息，细节处理方面更有优势。

图 8 基于4种模型的建筑物边界分割细节

Figure 8. The details of building boundary division extracted with four models

下载: 全尺寸图片幻灯片

2.3.2 精度对比分析

分别计算了4种模型提取结果的准确度(Precision)、召回率(Recall)、F1值和交并比(IoU)，据此进行提取结果的精度对比。

由结果(图 9)可知：(1)在图 6所示的3个实验区域中，U-Net+级联CRFs模型在准确度、召回率、F1值和交并比4个指标上的均值分别达到了93.1%、87.5%、91.4%和85.1%，均优于其他3种模型；(2)在召回率检验中，因为SVM模型的建筑物提取结果中，漏检像素数量最多，所以其召回率最低；(3)U-Net+级联CRFs模型的漏检像素最少，因此其召回率最高，尤其是在区域2。

图 9 4种模型的精度评价结果

Figure 9. The results of accuracy evaluation of four models

下载: 全尺寸图片幻灯片

4种模型的精度评价结果进一步表明：基于浅层机器学习算法(如SVM模型)进行目标地物的提取时，仅利用了影像中像元的光谱信息与像元之间的关系进行影像分类。但是，在有限的计算单元内，面对大规模高空间分辨率遥感影像数据和复杂多样的地物特征，其难以准确地表达真实的目标场景。深度学习方法(如U-Net模型)的提取结果精度高于SVM模型的，U-Net+CRFs模型在高空间分辨率遥感影像的建筑物提取中也体现了良好效能，但U-Net+级联CRFs模型在提高目标边界定位和语义分割能力方面更具优越性。U-Net+级联CRFs模型包含向下的收缩路径和向上的扩张路径，且利用CRFs对解码层进行逐层处理，完善建筑物边界分割的空间信息和边缘信息，在影像中检测到建筑物更为精细的细节，使得分割结果更加清晰完整。因此，采用U-Net+级联CRFs模型，在提取高分辨率影像的建筑物时，提取速度和提取效果均有提升。

3. 结束语

针对遥感影像建筑物提取中存在建筑物边界分割结果粗糙的问题，本文将级联CRFs引入U-Net模型中，提出了一种改进的U-Net模型(U-Net+级联CRFs)，以用于遥感影像建筑物自动提取：构建级联CRFs, 并将其引入到U-Net模型的解码层中，将当前层CRFs的输出作为后一层CRFs的输入之一, 实现从不同层次学习对象边界信息的目的, 以逐层弥补语义信息和边界信息，增强模型对建筑物边界的分割能力，优化模型分类结果。以广东省佛山市为研究区的实验结果表明：U-Net+级联CRFs模型能有效提高建筑物边界定位能力，可精确提取建筑物边缘信息，其提取性能指标均优于SVM、U-Net、U-Net+CRFs模型。

通过修改模型训练样本数据，U-Net+级联CRFs模型可以应用于道路、水体和耕地等其他遥感影像目标提取领域。但是，U-Net+级联CRFs模型仍有继续深入研究和改进之处，特别是深度学习方法对样本量要求较高，样本集的构建耗费大量的人力和物力，在接下来的研究中，应充分融合各类开源数据集来构建样本集。同时，U-Net+级联CRFs模型虽然在一定程度上改善了语义分割结果，但并没有完全解决语义分割结果中对象边界不清晰的问题，因此，在后续的工作中还需要进一步探索。

图 1 U-Net网络结构示意图

Figure 1. The schematic diagram of U-Net network structure

下载: 全尺寸图片幻灯片

图 2 级联CRFs的抽象结构

Figure 2. The abstract structure of the cascaded CRFs

下载: 全尺寸图片幻灯片

图 3 级联CRFs的U-Net网络结构

Figure 3. The U-Net network structure of the cascaded CRFs

下载: 全尺寸图片幻灯片

图 4 研究区域位置图

注：此图基于自然资源部标准地图服务网站的标准地图(审图号：GS(2016)2556号)绘制, 底图无修改。

Figure 4. The location map of the study area

下载: 全尺寸图片幻灯片

图 5 研究区部分影像建筑物及标签数据集

Figure 5. Some image buildings and label data in the study area

下载: 全尺寸图片幻灯片

图 6 基于4种模型的建筑物提取可视化对比

Figure 6. The visual comparison of building extraction with four models

下载: 全尺寸图片幻灯片

图 7 基于4种模型的不同建筑物的提取对比效果

Figure 7. The comparison of the effect of extracting different buildings with four models

下载: 全尺寸图片幻灯片

图 8 基于4种模型的建筑物边界分割细节

Figure 8. The details of building boundary division extracted with four models

下载: 全尺寸图片幻灯片

图 9 4种模型的精度评价结果

Figure 9. The results of accuracy evaluation of four models

下载: 全尺寸图片幻灯片

参考文献(25)

[1]	崔卫红, 熊宝玉, 张丽瑶. 多尺度全卷积神经网络建筑物提取[J]. 测绘学报, 2019, 48(5): 597-608. CUI W H, XIONG B Y, ZHANG L Y. Multi-scale fully convolutional neural network for building extraction[J]. Acta Geodaetica et Cartographica Sinica, 2019, 48(5): 597-608.
[2]	林祥国, 张继贤. 面向对象的形态学建筑物指数及其高分辨率遥感影像建筑物提取应用[J]. 测绘学报, 2017, 46(6): 724-733. https://www.cnki.com.cn/Article/CJFDTOTAL-CHXB201706009.htm LIN X G, ZHANG J X. Object-based morphological building index for building extraction from high resolution remote sensing imagery[J]. Acta Geodaetica et Cartographica Sinica, 2017, 46(6): 724-733. https://www.cnki.com.cn/Article/CJFDTOTAL-CHXB201706009.htm
[3]	朱岩彬, 徐启恒, 杨俊涛, 等. 基于全卷积神经网络的高分辨率航空影像建筑物提取方法研究[J]. 地理信息世界, 2020, 27(2): 101-106. https://www.cnki.com.cn/Article/CJFDTOTAL-CHRK202002018.htm ZHU Y B, XU Q H, YANG J T, et al. Research on building extraction method of high resolution aerial image based on full convolutional neural network[J]. Geomatics World, 2020, 27(2): 101-106. https://www.cnki.com.cn/Article/CJFDTOTAL-CHRK202002018.htm
[4]	MAGGIORI E, TARABALKA Y, CHARPIAT G, et al. Con-volutional neural networks for large-scale remote sensing image classification[J]. IEEE Transactions on Geoscience & Remote Sensing, 2016, 55(2): 645-657.
[5]	于浩, 徐汉卿, 李雨佳, 等. 针对无人机影像的农居建筑物快速提取方法初探[J]. 防灾减灾学报, 2020, 36(4): 79-85. YU H, XU H Q, LI Y J, et al. Preliminary study on fast extraction method of agricultural residential buildings from UAV images[J]. Seismological Research of Northeast China, 2020, 36(4): 79-85.
[6]	郝乐川. 高分辨率可见光遥感图像建筑物提取方法研究[D]. 哈尔滨: 哈尔滨工业大学, 2020. HAO L C. Research on building extraction from high-reso-lution visible optical remote sensing images[D]. Harbin: Harbin Institute of Technology, 2020.
[7]	张士诚, 李新萍, 盛奇. 结合方向梯度和支持向量机的立面窗户提取方法[J]. 测绘科学, 2020, 45(9): 159-164. https://www.cnki.com.cn/Article/CJFDTOTAL-CHKD202009025.htm ZHANG S C, LI X P, SHENG Q. Elevation window extraction method combining directional gradient and support vector machine[J]. Science of Surveying and Ma-pping, 2020, 45(9): 159-164. https://www.cnki.com.cn/Article/CJFDTOTAL-CHKD202009025.htm
[8]	陈元鹏, 罗明, 彭军还, 等. 基于网格搜索随机森林算法的工矿复垦区土地利用分类[J]. 农业工程学报, 2017, 33(14): 250-257. doi: 10.11975/j.issn.1002-6819.2017.14.034 CHEN Y P, LUO M, PENG J H, et al. Land use classification of industrial and mining reclamation area based on grid search random forest algorithm[J]. Transactions of the Chinese Society of Agricultural Engineering, 2017, 33(14): 250-257. doi: 10.11975/j.issn.1002-6819.2017.14.034
[9]	朱海洲, 贾银山. 基于支持向量机的遥感图像分类研究[J]. 科学技术与工程, 2010, 10(15): 3659-3663. doi: 10.3969/j.issn.1671-1815.2010.15.023 ZHU H Z, JIA Y S. Remote sensing image classification based on Support Vector Machines[J]. Science Technology and Engineering, 2010, 10(15): 3659-3663. doi: 10.3969/j.issn.1671-1815.2010.15.023
[10]	TARI G, JESSEN L, KENNELLY P, et al. Surface ma-pping of the Milh Kharwah salt diapir to better understand the subsurface petroleum system in the Sab'atayn Basin, onshore Yemen[J]. Arabian Journal of Geosciences, 2018, 11(15): 428-438. doi: 10.1007/s12517-018-3785-y
[11]	HUERTAS A, NEVATIA R. Detecting buildings in aerial images[J]. Computer Vision, Graphics, and Image Processing, 1988, 41(2): 131-152. doi: 10.1016/0734-189X(88)90016-3
[12]	韩东成. 基于高分二号遥感卫星的建筑物信息提取研究[D]. 合肥: 中国科学技术大学, 2019. HAN D C. Research on building Information Extraction based on Gaofen-2 Remote Sensing satellite[D]. Hefei: University of Science and Technology of China, 2019.
[13]	MCGLONE J C, SHUFELT J A. Projective and object space geometry for monocular building extraction[C]//Procee-dings of IEEE Computer Society Conference on Computer Vision & Pattern Recognition. Seattle, WA: IEEE, 2002.
[14]	LHOMME S, DONG-CHEN H E, WEBER C, et al. A new approach to building identification from very high spatial-resolution images[J]. International Journal of Remote Sensing, 2009, 30(5/6): 1341-1354.
[15]	LECUN Y, BOTTOU L. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324. doi: 10.1109/5.726791
[16]	张顺, 龚怡宏, 王进军. 深度卷积神经网络的发展及其在计算机视觉领域的应用[J]. 计算机学报, 2019, 42(3): 453-482. https://www.cnki.com.cn/Article/CJFDTOTAL-JSJX201903001.htm ZHANG S, GONG Y H, WANG J J, et al. Development of deep convolution neural network and its application in the filed of computer vision[J]. Computer Journal, 2019, 42(3): 453-482. https://www.cnki.com.cn/Article/CJFDTOTAL-JSJX201903001.htm
[17]	GUO Z L, SHAO X W, XU Y W, et al. Identification of village building via Google Earth images and supervised machine learning methods[J]. Remote Sensing, 2016, 8(4): 271/1-15. doi: 10.3390/rs8040271
[18]	LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 39(4): 640-651.
[19]	RONNEBERGER O, FISCHER P, BROX T. U-Net: con-volutional networks for biomedical image segmentation[C]//Medical Image Computing and Computer-Assisted Intervention-MICCAI 2015. Cham, Switzerland: Springer, 2015: 234-241.
[20]	朱辉, 秦品乐. 基于多尺度特征结构的U-Net肺结节检测算法[J]. 计算机工程, 2019, 45(4): 254-261. ZHU H, QIN P L. U-Net pulmonary nodule detection algorithm based on multi-scale feature structure[J]. Computer Engineering, 2019, 45(4): 254-261.
[21]	刘浩, 骆剑承, 黄波, 等. 基于特征压缩激活Unet网络的建筑物提取[J]. 地球信息科学学报, 2019, 21(11): 1779-1789. doi: 10.12082/dqxxkx.2019.190285 LIU H, LUO J C, HUANG B, et al. Building extraction based on SE-Unet[J]. Journal of Geo-information Science, 2019, 21(11): 1779-1789. doi: 10.12082/dqxxkx.2019.190285
[22]	伍广明, 陈奇, SHIBASAKI R, 等. 基于U型卷积神经网络的航空影像建筑物检测[J]. 测绘学报, 2018, 47(6): 864-872. WU G M, CHEN Q, SHIBASAKI R, et al. High precision building detection from aerial imagery using a U-Net like convolutional architecture[J]. Acta Geodaetica et Cartographica Sinica, 2018, 47(6): 864-872.
[23]	张浩然, 赵江洪, 张晓光. 利用U-net网络的高分遥感影像建筑提取方法[J]. 遥感信息, 2020, 35(3): 143-150. https://www.cnki.com.cn/Article/CJFDTOTAL-YGXX202003020.htm ZHANG H R, ZHAO J H, ZHANG X G. High-resolution image building extraction using U-net neural network[J]. Remote Sensing Information, 2020, 35(3): 143-150. https://www.cnki.com.cn/Article/CJFDTOTAL-YGXX202003020.htm
[24]	任欣磊, 王阳萍, 杨景玉, 等. 基于改进U-net的遥感影像建筑物提取[J]. 激光与光电子学进展, 2019, 56(22): 195-202. REN X L, WANG Y P, YANG J Y, et al. Building detection from remote sensing images based on improved U-net[J]. Laser and Optoelectronics Progress, 2019, 56(22): 195-202.
[25]	马永杰, 李雪燕, 宋晓凤. 基于改进深度卷积神经网络的交通标志识别[J]. 激光与光电子学进展, 2018, 55(12): 250-257. https://www.cnki.com.cn/Article/CJFDTOTAL-JGDJ201812024.htm MA Y J, LI X Y, SONG X F. Traffic sign recognition based on improved deep convolutional neural network[J]. Laser and Optoelectronics Progress, 2018, 55(12): 250-257. https://www.cnki.com.cn/Article/CJFDTOTAL-JGDJ201812024.htm

施引文献(10)

期刊类型引用(6)

1.	陶从辉，高青山，赵梦琳. 改进U-Net网络的高分辨率遥感影像建筑物提取方法. 地理空间信息. 2025(01): 9-12 . 百度学术
2.	周翔，罗爽，王成. 基于遥感智能解译技术的围堰溃决洪水淹没分析——以旭龙水电站为例. 水利水电快报. 2024(05): 111-116 . 百度学术
3.	刘冠，邵继中，王宇琪，张雪茵，吕欣蓓. 风景园林图像与图形在深度学习中的应用分析及未来展望. 南京师大学报(自然科学版). 2024(02): 44-53 . 百度学术
4.	周荣荣，刘扬，周一凡，冯亚东，邹丹. 基于语义分割的遥感影像建筑物自动提取方法. 河南科学. 2023(04): 612-618 . 百度学术
5.	李佳优，董琰，郭俊，陈芸芝. 级联融合边缘特征的高分辨率遥感影像道路提取. 贵州大学学报(自然科学版). 2023(06): 33-39+52 . 百度学术
6.	伊力哈木·亚尔买买提，邓皓，谢丽蓉. 基于改进YOLOv4的太阳能电池板缺陷检测. 华南师范大学学报(自然科学版). 2023(05): 21-30 . 百度学术

其他类型引用(4)

资源附件(0)

图(9)

计量

文章访问数: 682
HTML全文浏览量: 256
PDF下载量: 131
被引次数: 10

1. 基于改进U-Net模型的遥感影像建筑物提取
1.1 基于U-Net网络的建筑物提取模型
1.2 级联CRFs
1.3 U-Net+级联CRFs模型
2. 建筑物提取实验
2.1 研究区和研究数据
2.2 数据预处理
2.3 实验结果与分析
2.3.1 建筑物提取结果分析
2.3.2 精度对比分析
3. 结束语

1. 基于改进U-Net模型的遥感影像建筑物提取
1.1 基于U-Net网络的建筑物提取模型
1.2 级联CRFs
1.3 U-Net+级联CRFs模型
2. 建筑物提取实验
2.1 研究区和研究数据
2.2 数据预处理
2.3 实验结果与分析
2.3.1 建筑物提取结果分析
2.3.2 精度对比分析
3. 结束语

参考文献(25)

施引文献

资源附件(0)

融合级联CRFs和U-Net深度学习模型的遥感影像建筑物自动提取

通讯作者: 邢汉发，Email: xinghanfa@163.com

计量

出版历程