Quick and Automatic Segmentation of Retinal Layers in OCT Images Using Residual and Attention U-net
-
摘要: 利用计算机图像处理技术自动分割视网膜图像,获得各层的厚度,可对多种视网膜疾病进行直观评估. 为了快速准确地对OCT视网膜图像进行自动分层,提出一种结合RAU-net和图像搜索的视网膜图像自动分层方法. 该方法在U-net的基础上加入了残差块结构和注意力门结构,残差块结构在构建更深的网络、获取高级特征的同时,有效避免了梯度消失和梯度爆炸问题,注意力门结构突出了模型对视网膜图像重要特征的学习. 由模型预测后得到的分割结果获取9条边界的感兴趣区域,然后运用图像搜索对分层图像进行边界优化,得到精确的视网膜分层图像. 结果表明:该RAU-net算法与手动分层的误差约为1像素,且完成1帧OCT视网膜图像的分层只需要4 s. 通过RAU-net与图像搜索相结合的方法为视网膜疾病的临床诊断和治疗提供了快速准确的定量分析方法.Abstract: Computer image processing technology is used to segment the retinal image automatically and compute the thickness of each layer. The thickness can be used to assess various retinal diseases directly. In order to segment retinal layers quickly and accurately, a new segmentation method combining RAU-net (Residual and Attention U-net, RAU-net) and graph search is proposed. This method adds residual block structure and attention gate structure to the basis of U-net. The residual block structure avoids the problems of gradient disappearance and gradient explosion effectively while obtaining advanced features by building deeper networks. Models trained with attention gate structure highlights the learning of salient features of retinal images. The segmentation results obtained after the model prediction gain nine boundary regions of interest, and then the graph search method is used to optimize the layer boundary for accurate retinal layer. The results show that the error between the RAU-net algorithm and manual segmentation is just about one pixel, and it only takes 4 s to complete segmentation of an OCT retinal image. Combining RAU-net and the graph search algorithm, the method provides a fast and accurate quantitative analysis tool for the clinical diagnosis and treatment of retinal diseases.
-
Keywords:
- retinal layer segmentation /
- residual block /
- attention gate /
- U-net /
- graph search
-
光学相干层析成像(Optical Coherence Tomography,OCT)视网膜图像的定性评估可以为临床决策提供关键信息,包括眼部疾病的分类和检测信息[1-2]. 量化OCT视网膜数据对于诊断眼科疾病、研究眼睛形态的变化非常重要[3-4], 能帮助眼科医生发现早期疾病、跟踪疾病进展和监测治疗效果[5-6]. 视网膜层分割是OCT图像分析中的一项基础性工作,开发可靠的OCT视网膜图像分割方法一直是研究与视网膜层厚度相关疾病的重点. 将OCT视网膜图像分成10个区域,大多数自动分割方法关注的焦点是区域间的9条边界. 从眼睛内部向外,这10个区域包括:玻璃体、视网膜神经纤维层(RNFL)、神经节细胞层和内丛状层(GCL+IPL)、内核层(INL)、外丛状层(OPL)、外核层(ONL)、内段(IS)、外段(OS)、视网膜色素上皮层(RPE)、脉络膜.
为了快速准确地得到OCT视网膜图像分层结果,视网膜层的自动分割技术已被广泛研究[7-13]. 水平集方法[7-8, 13]在获得拓扑结构正确的视网膜层分割技术中效果显著,但是水平集方法计算耗时较长,分层结果的运行时间往往需要几个小时. 基于图像搜索的方法[9, 10]也已被广泛应用于视网膜图像的分割. 最新技术使用机器学习[12, 14-15]的方式(如随机森林[12])进行像素级的标记分类,并使用图像搜索方法来提取分层结果. 虽然这些方法已经表现出显著的优点,但是受到手动选择特征和模型参数的限制,面对不同采集环境下的数据时需要重新选择合适的特征和参数.
近年来,深度学习在医学影像的分割任务中取得了一定的进展. FANG等[11]针对OCT视网膜图像中9条边界的自动分割问题,提出了一种基于卷积神经网络(CNN)和图像搜索(Graphical Search,简称CNN-GS)的方法. 该方法采用CHIU等[10]基于图论的OCT视网膜分割方法,但用CNN代替了边缘检测的步骤. FANG使用深度网络预测给定图像块中心像素的类别,利用图像搜索对预测的类别信息进行边界提取操作,该方法对每个像素位置都选定固定大小的窗口,预测单张视网膜图的结果就需要对上万个图像块进行计算,这样产生了计算冗余,使结果预测十分费时. 本文使用RAU-net对视网膜层进行分割,只需要将单张视网膜图像剪切为20个图像块并进行预测,就能得到单张图的视网膜层分割结果. 再采用图像搜索方法对分割的边界进行优化,可以快速准确地提取视网膜层的9条边界.
1. 研究方法
提出的方法主要分为三部分:首先是对视网膜图像进行预处理,剪切为128 px×128 px的图像块; 然后利用RAU-net实现对视网膜层的分割; 最后运用Dijkstra方法[16]进行边界优化,最终得到分层结果. 具体流程如图 1所示.
1.1 预处理
采用AURA(Automated Retinal Analysis Tools)工具包对OCT视网膜图像(784 px×1 024 px, 128帧)进行强度归一化和压平处理[12]:首先以视网膜层的BM(Bruch's Membrane)边界为基准压平图像,并将每张B-scan图像剪切为128 px×1 024 px大小的图像块,保留需要分割的视网膜部分,去除脉络膜和玻璃体部分; 然后从每张B-scan图像中提取20个水平重叠大小为128 px×128 px的图像块用于训练. 在测试中,将输出的分割结果按输入图像块在原图像的位置重建为完整的视网膜分割图像.
1.2 残差网络和注意力机制结合的分割网络
1.2.1 残差网络
为了使模型学习更多视网膜层的抽象特征,一般采用更深层次的网络来学习高级特征,但更深的网络往往会带来梯度消失或者梯度爆炸的问题. HE等[15]提出了残差网络(Resnet),通过引入残差块(Residual Block)构建深层网络,这在很大程度上消除了深层体系结构中存在的梯度消失和爆炸的问题. 如图 2所示,残差块以x为输入项,H(x)为输出项,其中F(x)为残差映射函数. 当构建深层网络时,模型难以直接拟合实际映射H(x), 残差网络通过引入快捷连接将问题转换为拟合残差映射函数F(x), 此时实际映射H(x)表示为H(x)=F(x)+x.
在极端情况下,如果单位映射是最优的,那么将残差构建为0, 比通过非线性层来拟合单位映射更容易,即此时F(x)=0, 用一个恒等映射函数H(x)=x表示一组堆叠网络层的最佳解映射,模型只需最小化残差函数F(x)=H(x)-x来逼近实际映射,以解决网络层堆叠的性能退化问题.
假设现有L个残差块进行堆叠连接,以x(l)表示第l个残差块的输入项. 可推导第L个残差块的输出项为:
x(L+1)=xl+L−1∑i=lF(x(i)). (1) 由式(1)可知,残差网络的特征是各层残差特征的累加,保证了l+1层比l层拥有更多的特征信息.
1.2.2 注意力机制
注意力机制(Attention Mechanism)的实质是计算注意力的概率分布,对重要的特征分配更多的注意力, 突出关键特征对结果的影响,常用于时间序列分析相关的深度学习模型中[17]. 在U-net中编码器用于提取图像特征,对提取的特征图进行上采样,生成分割图像. 在U-net的解码器端引入注意力门(Attention Gate, AG)[18],对编码器中通过跳跃连接(Skip Connection)传播得到的重要特征进行增强处理,并抑制无关的特征. 注意力门模块是一种柔性注意力机制的应用,具体的内部结构如图 3所示.
注意力门的输入项是门控信号g和特征映射x. 在U-net[14]结构上,将跳跃连接的特征信息作为输入项x,将解码器中上采样后的特征信息作为门控信号g. 模块的构成包括线性变换Wg、Wx和ψ,偏置为bg和bψ,激活函数为Relu和Sigmoid,其中线性变换通过1×1通道的卷积实现,线性变换Wg和Wx的结果通过相加的方式结合,其目标是对每个像素矢量xi计算注意力系数αi∈[0, 1]:
αi=σ2(ψT−σ1(WTxxi+WTggi+bg)+bψ). (2) 使用三线性插值进行网格重采样后得到注意力系数α. 注意力门模块的输出项为输入项特征x和注意力系数α的乘积.
1.2.3 网络结构
本模型使用U-net为基本框架[14],在此基础上结合残差网络和注意力机制,因此该网络模型称为残差和注意力U-net(Residual and Attention U-net,RAU-net). 如图 4所示,与U-net类似,该网络结构包含编码和解码两部分,在编码部分输入OCT视网膜图像并提取特征,解码部分使用特征图和语义信息来生成预测图像作为分割结果.
与传统U-net框架不同,RAU-net使用残差块结构进行特征提取[19],采用[3×3]卷积层、激活函数Relu来构建残差块. 在编码与解码部分跳跃连接处加入注意力门. 在编码部分,第一个残差块处理后的通道数是32,将网络的编码中每个残差块处理后的通道数加倍,使用[2×2]最大池化(Maxpooling)和[2×2]上采样将数据在不同尺度之间转换. 残差块的结构有助于解决梯度问题,能够在加深网络层次、提取高维度特征的同时抑制梯度问题的出现. 通过结合残差块结构和注意力门结构,RAU-net可以获得更高级的特征,以及模型更加关注于视网膜层重要特征的分割. 该模型的输入项是大小为128 px×128 px的OCT视网膜切块图像,输出项是8个大小为128 px×128 px的概率图,分别表示7个视网膜层和背景(玻璃体和脉络膜)的预测结果.
1.3 边界优化
首先通过RAU-net分割得到视网膜层的分层结果,然后对结果进行拓扑校正,再由校正的结果确定9条边界的感兴趣区域(Region of Interest, ROI),最后应用Dijkstra方法优化视网膜层的9条边界.
由于层边界具有连续性,因此可通过拓扑校正发现异常区域并将其清除,然后由线性插值对边界上的点拟合出容忍边界,限制2条边界之间的层越界,有效保证了图像搜索结果的鲁棒性. 最后由Dijkstra算法确定最小加权路径[16],即视网膜层的分层边界. 视网膜B-scan模拟(图 5)将视网膜图表示为节点图并进行权重分配[10]. 以视网膜层分割后的9条边界作为基准线,通过上下拓宽2 px来确定搜索区域,寻找最优边界.
1.4 实验数据集
研究数据来自佛山科学技术学院光电技术实验室的数据库,采集于15名受试者的视网膜OCT数据. 所用采集仪器为眼底断层扫描系统(3D OCT-1 Maestro,日本拓普康). 每一组视网膜OCT数据包含128张B-scan图,且每张图的尺寸为2.3 mm×6 mm,包含784 px×1 024 px.
1.5 评价标准
使用平均绝对误差(Mean Absolute Error,MAE)和均方根误差(Root Mean Square Error,RMSE)来评价算法在测试数据上的结果. 将P定义为预测结果,G定义为实际值,计算公式如下:
MAE=1NN∑k=1|P(k)−G(k)|, (3) RMSE=√N∑k=1|P(k)−G(k)|N. (4) 2. 结果与讨论
2.1 准确率与损失函数
本文模型基于keras框架,使用Adagrad方法优化权值和偏置,达到最高的准确率和最小的损失函数值. 使用交叉熵损失函数计算损失函数值. 模型的准确率及损失函数曲线如图 6所示. RAU-net模型表现出较高的准确性,准确率达到了98.39%.
2.2 RAU-net分割结果的分析
基于RAU-net的视网膜层分割过程(图 7A),将RAU-net得到的分割结果进行拼接, 得到完整的B-scan分割图(图 7B),不同层之间用不同颜色表示. 图 7B中校正前第二层可见明显的红色斑块, 这是由于高反射伪影或散斑噪声的影响产生误差而导致的异常点. 通过层之间的拓扑关系,对异常点进行定位并清除(图 7B). 这有效保证了图像搜索结果的鲁棒性.
2.3 ROI区域搜索的结果
为了提高分层边界的精度,根据RAU-net的分割结果确定了含有9条边界的ROI区域(图 8),在该区域内搜索最优边界,可得到更精准的视网膜边界. 另外,所划定的ROI区域较小,有助于提高搜索效率.
2.4 定性与定量分析
对比研究FANG的方法[11](图 9A、B)与本文方法(图 9C、D)在视网膜上的分层结果可知:本文的分层结果与实际分层结果更加贴合,尤其针对存在血管阴影的视网膜图(如图 9B中与图 9D中血管造成的阴影位置),FANG的方法把血管阴影的边界当作了视网膜层的边界. 这是由于FANG采取边界分类,且所采用的网络深度太浅,导致学习到的特征信息有限,将血管的边界误判为视网膜层的边界. 而RAU-net针对视网膜层做分割,网络能够更好地理解每个视网膜层的区域性. RAU-net应用残差块加深了网络的深度,提取高维特征的同时避免梯度问题,能提取视网膜图像中更高级的特征. 而注意力门结构的突出有利于分割重要特征,减少无关特征信息的干扰,从而消除了血管阴影对分层的影响.
将RAU-net+Dijkstra方法与FANG采用的CNN-GS方法在视网膜自动分层的准确性和效率上进行比较(表 1).
表 1 2种方法的像素级评估Table 1. The pixel-level evaluation of both methods边界 MAE RMSE FANG的方法[11] RAU-net+Dijkstra FANG的方法[11] RAU-net+Dijkstra ILM 1.686 2 0.899 4 2.101 7 1.222 0 RNFL-GCL 1.661 7 1.485 4 2.630 0 1.936 7 IPL-INL 3.395 7 1.656 3 4.163 2 2.127 3 INL-OPL 2.815 8 0.798 8 3.760 8 1.111 0 OPL-ONL 1.652 3 1.219 7 2.063 0 1.723 9 ELM 2.482 7 0.707 0 3.219 1 1.084 3 IS-OS 1.243 6 0.693 4 1.593 2 0.960 1 OS-RPE 1.458 1 0.986 3 1.889 1 1.273 2 BM 1.701 5 1.138 7 2.080 6 1.519 4 注:受试数为5个. 与FANG的方法相比,本文方法表现出了更高的准确性. ILM、RNFL-GCL、INL-OPL、OPL-ONL、ELM、IS-OS、OS-RPE、BM的均方根误差均小于2,只有IPL-INL边界的均方根误差达到了2.127 3,而FANG的方法均方根误差达到了4.163 2. 这是由于RAU-net和Dijkstra法相结合,得到了更多的视网膜边界特征,提高了自动分层的精确度,使误差明显降低. 由实验可知,FANG的方法分层处理每张B-scan图像需10 min,而本文方法仅需4 s. 这在实际应用中可以显著提高医疗诊断效率.
3. 结论
针对OCT视网膜图像的自动分层成像,提出了一种基于RAU-net与图像搜索结合的快速分层方法,快速、精确地完成视网膜的分层成像. 结果表明:本文的实验结果在精确度上表现优秀,且速度快. 研究结果为OCT视网膜图像边界的分割提供了一种新的思路,为临床诊断治疗提供了一种高效的定量参考方法.
-
表 1 2种方法的像素级评估
Table 1 The pixel-level evaluation of both methods
边界 MAE RMSE FANG的方法[11] RAU-net+Dijkstra FANG的方法[11] RAU-net+Dijkstra ILM 1.686 2 0.899 4 2.101 7 1.222 0 RNFL-GCL 1.661 7 1.485 4 2.630 0 1.936 7 IPL-INL 3.395 7 1.656 3 4.163 2 2.127 3 INL-OPL 2.815 8 0.798 8 3.760 8 1.111 0 OPL-ONL 1.652 3 1.219 7 2.063 0 1.723 9 ELM 2.482 7 0.707 0 3.219 1 1.084 3 IS-OS 1.243 6 0.693 4 1.593 2 0.960 1 OS-RPE 1.458 1 0.986 3 1.889 1 1.273 2 BM 1.701 5 1.138 7 2.080 6 1.519 4 注:受试数为5个. -
[1] HUANG D, SWANSON E A, LIN C P, et al. Optical coherence tomography[J]. Science, 1991, 254: 1178-1181. doi: 10.1126/science.1957169
[2] 朱良慧, 曾毛毛, 赵佳玮, 等. 基于OCT图像的组织散射系数提取方法及其应用[J]. 华南师范大学学报(自然科学版), 2016, 48(4): 31-34. doi: 10.6054/j.jscnun.2016.05.008 ZHU L H, ZENG M M, ZHAO J W, et al. Quantify wound skin by extracting tissue scattering coefficient from OCT image[J]. Joumal of South China Normal University (Natural Science Edition), 2016, 48(4): 31-34. doi: 10.6054/j.jscnun.2016.05.008
[3] READ S A, ALONSO-CANEIRO D, VINCENT S J. Longitudinal changes in macular retinal layer thickness in pediatric populations: myopic vs non-myopic eyes[J]. PloS One, 2017, 12(6): e0180462/1-22. http://pubmedcentralcanada.ca/pmcc/articles/PMC5491256/
[4] CHAUHAN B C, VIANNA J R, SHARPE G P, et al. Differential effects of aging in the macular retinal layers, neuroretinal rim, and peripapillary retinal nerve fiber layer[J]. Ophthalmology, 2020, 127(2): 177-185. doi: 10.1016/j.ophtha.2019.09.013
[5] BUSSEL I I, WOLLSTEIN G, SCHUMAN J S. OCT for glaucoma diagnosis, screening and detection of glaucoma progression[J]. British Journal of Ophthalmology, 2014, 98(S2): 15-19.
[6] LEE W J, KIM Y K, KIM Y W, et al. Rate of macular ganglion cell-inner plexiform layer thinning in glaucomatous eyes with vascular endothelial growth factor inhibition[J]. Journal of Glaucoma, 2017, 26(11): 980-986. doi: 10.1097/IJG.0000000000000776
[7] NOVOSEL J, THEPASS G, LEMIJ H G, et al. Loosely coupled level sets for simultaneous 3D retinal layer segmentation in optical coherence tomography[J]. Medical Image Analysis, 2015, 26(1): 146-158. doi: 10.1016/j.media.2015.08.008
[8] SUN Y, NIU S, GAO X, et al. Adaptive-guided-coupling-probability level set for retinal layer segmentation[J]. IEEE Journal of Biomedical and Health Informatics, 2020, 24(11): 3236-3247. doi: 10.1109/JBHI.2020.2981562
[9] GARVIM M K, ABRAMOFF M D, WU X, et al. Automated 3-D intraretinal layer segmentation of macular spectral-domain optical coherence tomography images[J]. IEEE Transactions on Medical Imaging, 2009, 28(9): 1436-1447. doi: 10.1109/TMI.2009.2016958
[10] CHIU S J, LI X T, NICHOLAS P, et al. Automatic segmentation of seven retinal layers in SDOCT images congruent with expert manual segmentation[J]. Optics Express, 2010, 18: 19413-19428. doi: 10.1364/OE.18.019413
[11] FANG L, CUNEFARE D, WANG C, et al. Automatic segmentation of nine retinal layer boundaries in OCT images of non-exudative AMD patients using deep learning and graph search[J]. Biomedical Optics Express, 2017, 8(5): 2732-2744. doi: 10.1364/BOE.8.002732
[12] LANG A, CARASS A, HAUSER M, et al. Retinal layer segmentation of macular OCT images using boundary classification[J]. Biomedical Optics Express, 2013, 4(7): 1133-1152. doi: 10.1364/BOE.4.001133
[13] LIU Y, CARASS A, SOLOMON S D, et al. Multi-layer fast level set segmentation for macular OCT[C]//Proceedings of the 2018 IEEE 15th International Symposium on Biomedical Imaging. Washington: IEEE, 2018: 1445-1448.
[14] 唐小煜, 黄进波, 冯洁文, 等. 基于U-net和YOLOv4的绝缘子图像分割与缺陷检测[J]. 华南师范大学学报(自然科学版), 2020, 52(6): 15-21. doi: 10.6054/j.jscnun.2020088 TANG X Y, HUANG J B, FENG J W, et al. Image segmentation and defect detection of insulators based on U-net and YOLOv4[J]. Joumal of South China Normal University (Natural Science Edition), 2020, 52(6): 15-21. doi: 10.6054/j.jscnun.2020088
[15] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. Las Vegas: IEEE, 2016: 770-778.
[16] DIJKSTRA E W. A note on two problems in connexion with graphs[J]. Numerische Mathematik, 1959, 1(1): 269-271. doi: 10.1007/BF01386390
[17] HINTON G E, SRIVASTAVA N, KRIZHEVSKY A, et al. Improving neural networks by preventing co-adaptation of feature detectors[J/OL]. (2012-07-03)[2020-06-18]. https://arxiv.org/pdf/1207.0580.
[18] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Proceedings of neural information processing systems. Long Beach: NIPS, 2017: 5998-6008.
[19] OKTAY O, SCHLEMPER J, FOLGOC L L, et al. Attention U-net: learning where to look for the pancreas[J/OL]. (2018-05-20)[2020-06-18]. https://arxiv.org/pdf/1804.03999.
-
期刊类型引用(1)
1. 杨明辉,谢德洁,杜肖洋,陈荣. 改进U-Net的视网膜OCT图像分层方法研究. 电脑编程技巧与维护. 2024(03): 147-149 . 百度学术
其他类型引用(2)