2024年1月18日发(作者:)
2142021,57(8)ComputerEngineeringandApplications计算机工程与应用多尺度特征融合的脊柱X线图像分割方法赵阳,张俊华云南大学信息学院,昆明650500摘要:为了精确地从X线图像中分割脊柱,提出了一种基于深度学习的脊柱X线图像分割方法,使用基于多尺度特征融合的U-Net网络进行分割。将U-Net模型中的卷积层替换成类Inception网络来提取不同尺度的特征,并进行多尺度融合。同时在跳跃连接前增加残差连接层,并在首次上采样前添加卷积块注意力模块。该模型对20幅脊柱X线图像进行验证,Dice系数为0.8457,与近期X线脊柱图像分割方法相比,提高了0.1351。关键词:脊柱X线图像;U-Net;图像分割;卷积块注意力模块文献标志码:A中图分类号:TP391.41doi:10.3778/.1002-8331.2001-0219Multi-scaleFeatureFusionMethodforSpinalX-RayImageSegmentationZHAOYang,ZHANGJunhuaSchoolofInformation,YunnanUniversity,Kunming650500,ChinaAbstract:InordertosegmentspineaccuratelyfromX-rayimages,amethodofspineX-rayimagesegmentationbasedondeeplearningisproposed,volutionallayerintheU-NetmodelisreplacedwithanInceptionnetwoametime,theresidualconnectionlayerisaddedinfrontoftheskipconnection,andtheconvolutipaper,20spinalX-rayimagesareverifiedbythemodel,andtheDicecoefficientis0.8457,ds:spinalX-rayimage;U-Net;imagesegmentation;convolutionblockattentionmodule脊柱侧凸是一种脊柱三维结构的畸形疾病,全球有1%~4%的青少年受到此疾病的影响[1]。该疾病的诊断主要参考患者的脊柱侧凸角度,目前X线成像方式是诊断脊柱侧凸的首选,在X线图像中分割脊柱是后续测量、配准以及三维重建的基础。近期出现了不少脊柱X线图像分割方法。Anitha等人[2-3]提出了使用自定义的滤波器自动提取椎体终板以及自动获取轮廓的形态学算子的方法,但这些方法存在一定的观察者间的误差。Sardjono等人[4]提出基于带电粒子模型的物理方法来提取脊柱轮廓,实现过程复杂且实用性不高。叶伟等人[5]提出了一种基于模糊C均值聚类分割算法,该方法过程繁琐且实用性欠佳。以上方法都只对椎体进行了分割,却无法实现对脊柱的整体轮廓分割。深度学习在图像分割的领域有很多应用。Long等人提出了全卷积网络[6](FullConvolutionalNetwork,FCN),将卷积神经网络的最后一层全连接层替换为卷积层,得到特征图后再经过反卷积来获得像素级的分类基金项目:国家自然科学基金(61361010,61841112)。结果。通过对FCN结构改进,Ronneberger等人提出了一种编码-解码的网络结构U-Net[7]解决图像分割问题。Wu等人提出了BoostNet[8]来对脊柱X线图像进行目标检测以及一个基于多视角的相关网络[9]来完成对脊柱框架的定位。上述方法并未直接对脊柱图像进行分割,仅提取了关键点的特征并由定位的特征来获取脊柱的整体轮廓。Fang等人[10]采用FCN对脊柱的CT切片图像进行分割并进行三维重建,但分割精度相对较低。Horng等人[11]将脊柱X线图像进行切割后使用残差U-Net来对单个椎骨进行分割,再合成完整的脊柱图像,从而导致分割过程过于繁琐。Tan等人[12]和Grigorieva等人[13]采用U-Net来对脊柱X线图像进行分割并实现对Cobb角的测量或三维重建,但存在分割精度不高的问题。以上研究方法虽然在一定程度上完成脊柱分割,但仍存在两个问题:(1)只涉及椎体的定位和计算脊柱侧凸角度,却没有对图像进行完整的脊柱分割。(2)分割精度不高。作者简介:赵阳(1991—),男,硕士研究生,研究领域为计算机视觉、医学图像处理;张俊华(1976—),通信作者,女,博士,教授,研究领域为计算机视觉、医学图像处理,E-mail:***************.cn。收稿日期:2020-01-13修回日期:2020-04-15文章编号:1002-8331(2021)08-0214-06
赵阳,等:多尺度特征融合的脊柱X线图像分割方法针对上述问题,在U-Net的基础上提出了一种将Inception[14]结构和残差网络(ResidualNetwork,ResNet)[15]与U-Net相结合的方法,首先使用类Inception网络将其卷积层进行替换,增加网络的深度使其可以提取多尺度的信息,并在跳跃连接之前增加ResNet使其可以更稳定地提取信息,最后在U-Net第一次上采样之前增加卷积块注意力模块(ConvolutionalBlockAttentionModule,CBAM)[16]对空间和通道的权重进行注意力监督。1基于多尺度融合的脊柱分割方法1.1U-Net结构如图1所示为U-Net的结构,U-Net主要由特征提取、上采样和跳跃连接三个部分组成。特征提取主要由3×3的卷积核和2×2的最大池化层构成,每一层都提取了不同尺度的特征。上采样可以恢复初始图像大小,并在每一层通过跳跃连接将提取的特征进行特征融合来恢复目标的空间特征和细节。3×3卷积核跳跃连接2×2最大池化层上采样层1×1卷积核图1原始U-Net结构图1.2Inceptionblock在医学图像处理任务中,在不同尺度下网络能提取的特征是不一样的,从特征图中思考如何进行多尺度特征提取来增加网络提取到的信息对分割结果有积极影响。Inception网络就是一种提取多尺度特征的方法,基于该方法使用3×3、5×5、7×7的卷积核来进行不同尺度下的特征提取。考虑到5×5、7×7的卷积核计算量过大,结合Szegedy等人[17]提出的方法,使用2个3×3的卷积核进行连接代替5×5的卷积核,使用3个3×3的卷积核连接代替7×7的卷积核可以减少模型计算量。与此同时使用1×1的短连接来获取一些图像的空域信息。图2所示即为Inceptionblock的结构,通过串并连接可以充分利用三个3×3的卷积核,三个支路的输出分别为3×3、近似于5×5以及近似于7×7的卷积核。拼接之后的特征图经过Relu激活层并输入到最大池化层。1.3Resblock使用3×3的卷积核近似5×5和7×7的卷积核虽然减少了网络的计算量并提取了多尺度的特征,但与此同时2021,57(8)215拼接3×3卷积核1×1卷积核Relu激活层图2Inceptionblock结构增加了网络的宽度和深度,从而导致发生梯度爆炸或梯度消失。通过在Inceptionblock之后加入ResNet可以解决网络加宽和加深的问题。如图3所示,在Inceptionblock的后面添加3×3和1×1的卷积核构成的ResNet,并通过一个Relu激活层和批标准化层。批标准化可以在一定程度上加快模型收敛速度并缓解梯度消失的问题,与ResNet协同作用可以有效提高网络的稳定性。通过对加入的Resblock层数调整来进行实验,确定需要的Resblock的层数。3×3卷积核Relu激活层批标准化层1×1卷积核图3Resblock结构1.4CBAMCBAM是考虑了不同通道像素的重要性和同一通道不同位置像素的重要性提出的一种结合空间和通道的注意力模块。最早提出通道注意力机制模块的是SENet[18],SENet通过学习自动获取到每个特征通道的重要程度,然后按照这个重要程度增强有用的特征并抑制对当前任务用处不大的特征。CBAM在此基础上同时考虑了空间和通道的重要程度,由于卷积运算通过将跨通道和空间信息混合在一起来提取信息特征,因此该模块将沿通道和空间这两个主要维度来提取有意义的特征。设F∈RC×H×W是特征图的输入,将其送入CBAM,则特征图会经过一个1维的通道注意力模块Mc∈RC×1×1和2维的空间注意力模块Ms∈R1×H×W,其运算过程如下:F′=Mc(F)⊗F(1)F″=Ms(F′)⊗F′(2)
2162021,57(8)ComputerEngineeringandApplications计算机工程与应用F″其中F′是F经过通道注意力模块后输出的特征图,⊗表示逐是F′经过空间注意力模块后输出的特征图,力模块和空间注意力模块顺序连接,嵌入网络之中。本实验将CBAM放置于Dropout层和上采样层的中间,对最深层的特征进行注意力监督,在空间和通道上学习不同像素的重要程度,从而更准确地提取特征。Dropout层(0.5)全局最大池化元素相乘。式(1)为通道注意力的运算过程,Mc表示在通道上进行注意力运算。通道注意力的工作和SENet很类似,首先将输入的特征图压缩得到一个一维矢量,在对特征图进行压缩的过程中,不同点在于CBAM使用了全局最大池化和全局平均池化,得到两个不同的一维矢量。全局平均池化对特征图的每一个像素点都有反馈,全局最大池化只对特征图中响应最大的地方有反馈,为全局平均池化的补充。cc以F表示输入的特征图,则Favg与Fmax分别为特征全局平均池化逐元素相加Sigmod图经过全局平均池化AvgPool和全局最大池化MaxPoolW0和W1为多的特征向量,MLP为多层感知机运算,σ为sigmod激活函数,层感知机的两层参数,则通道注二维最大池化二维平均池化拼接7×7意力的运算过程如下:Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))=ccσ(W1(W0(Favg))+W1(W0(Fmax)))(3)Sigmod其中W0需要使用Relu函数进行激活。式(2)为空间注意力的运算过程,Ms表示在空间上进行注意力运算。将通道注意力模块输出的特征向c量放进空间注意力模块中,让最大池化Fmax和平均池c化Favg输出的特征进行一个拼接,并通过一个f7×7的上采样2×2图4CBAM示意图卷积核进行降维,通过一个sigmod激活层生成特征图其运算过程如下:Ms(F)=σ(f7×7([AvgPool(F);MaxPool(F)]))Ms(F)=σ(f7×71.5改进的U-Net模型如图5所示为改进的U-Net模型,结合Inception网络和ResNet,用Inceptionblock替换卷积层使得网络可(4)以进行多尺度特征提取融合,在Inceptionblock后面加入ResNet保证训练过程的稳定和性能优化,在网络的第四层和第五层后面加入dropout层防止训练进入过拟合,在网络的第一次上采样层前加入CBAM对空间和通道进行注意力监督,使得图像信息可以更完整地保留。输入的图片尺寸为256×256×1,经过Inceptionblock256×256×51I9(Fsavg;Fsmax))将通道注意力和空间注意力的输出进行相乘得到最后输出的特征。特征图通过CBAM后,网络在特征学习的基础上,在空间和通道上学习不同像素的重要程度。图4即为本实验模型中CBAM的示意图,通道注意256×256×32I1R1256×256×51128×128×32I2R2128×128×10564×64×64I364×64×21232×32×128I432×32×426R332×32×256R4256×256×1128×128×64I864×64×128I7256×256×32128×128×105256×256×1128×128×6464×64×212InceptionblockResblock2×2最大池化层Dropout层(0.5)上采样层跳跃连接CBAM64×64×128I632×32×42616×16×256I516×16×85332×32×25616×16×853图5改进的U-Net模型
赵阳,等:多尺度特征融合的脊柱X线图像分割方法的3×3、5×5、7×7的卷积核可以得到尺寸分别为256×256×8、256×256×17、256×156×26的特征图,经过拼接后的特征图尺寸为256×256×51,在Resblock之后,特征图大小调整为256×256×32并在最大池化层被压缩为128×128×32,直到经过第五个Inceptionblock,其尺寸为16×16×853。在特征图经过CBAM时,其尺寸不会发生改变,仅通过学习通道和空间的特征权重让网络自行调整,并将通道和空间的特征权重与特征图进行融合后输入到上采样层。上采样后的特征图与通过跳跃连接的原始图像信息进行拼接融合,最终通过一个sigmod激活层恢复原始图像大小,得到预测图。和原有的U-Net模型相比,改进的U-Net模型的优势如下:(1)进行多尺度特征提取,学习不同尺度下分割目标的特征。(2)在Resblock的作用下解决多尺度网络加宽带来的梯度消失或梯度爆炸的问题。(3)CBAM用于在空间和通道上学习不同像素的重要程度,从而获得更加准确的分割结果。2实验内容2.1实验环境本实验采用的硬件环境为CPUCoreTMi7-8700k3.7GHz,GPUNVIDIARTX2080显存8GB。软件环境为python3.6、tensorflow1.12为支撑的keras。2.2数据集预处理本实验数据集来源自SpineWeb[19]。Wu等人[8]也使用了该数据集来实验。该数据集包括609张脊柱前后X线图片,包括脊柱正常的样本以及发生脊柱侧凸的样本,其格式为bmp。本实验使用python的标注工具labelme对数据集进行标注,在标注前将脊柱X线图像进行预处理,使其大小为256×256,位深为8位。在预处理后,对每一节椎骨进行标注后获得标签图片并进行二值化处理,本实验的标签为医生认可的真实值。2.3损失函数本实验采用二元交叉熵来作为损失函数,表达式如式(5)所示:BCE(p,q)=-ylgy-(1-y)lg(1-y)(5)二元交叉熵主要用于二分类任务,而本实验主要是对脊柱进行分割,标签只有背景和脊柱两类,所以采用二元交叉熵作为损失函数。2.4评价指标本实验使用Dice系数作为评价指标,Dice系数主要用于计算两个不同集合的相似性。在本实验中使用预测图像与测试图像的标签来计算其Dice系数,从而得到预测图像与测试图像的相似程度来评价模型的优劣程度。2021,57(8)217Dice=2|A⋂B||A|+|B|(6)2.5实验细节将130张脊柱X线图像分为110张训练集和20张测试集,并使用图像翻转、平移、裁剪、变焦的方法来进行图像增强。实验选用Adam作为优化器,并将学习率设为0.0001。网络的batch_size为11,训练轮次为150轮,每一轮输入的图片为256张。本实验采用了提前结束的回调机制,若超过10个轮次模型的损失值没有降低,则提前终止模型训练。3实验结果及分析3.1模型Dice系数评估为了体现出本实验模型的优势,本实验一共设计了四组对比实验,分别对改进的网络是否使用CBAM模块、残差连接的不同层数来进行测试。实验1采用未添加CBAM的网络,并在Inceptionblock的后面仅添加一层ResNet,最终的平均Dice系数为0.8236。实验2采用未添加CBAM的网络,在Inceptionblock的后面添加四层ResNet,最终的平均Dice系数为0.8272。实验3采用添加了CBAM的网络,并在Inceptionblock后面添加一层ResNet,最终的平均Dice系数为0.8282。而实验4是采用添加了CBAM的网络,并在Inceptionblock的后面添加四层ResNet,最终的平均Dice系数为0.8457。从实验结果来看增加残差连接的层数和采用CBAM模块都可以在不同程度上对网络的性能有一定提升。表1给出了不同模型下分割精度的对比。表1各模型Dice系数对比模型U-NetInceptionblockResblockCBAMDice文献[13]实验1√0.7106实验2√√1层0.8236实验3√√1层4层√0.82722实验4√√√0.828√4层√0.8457从文献[13]当中采用的原始U-Net网络所取得的0.7106的Dice系数来看,本文最终取得的Dice系数为0.8457,比之前提高了0.1351。从图6当中的红框处可以看出,使用了Inceptionblock以及残差连接和添加了CBAM的分割效果比原始的U-Net网络和只使用了Inceptionblock以及残差连接的分割效果更好,且更接近于标签的真实值。3.2模型分割结果评估从图6当中的红框处可以看出,本文最终的实验模型的分割结果相比原始的U-Net网络分割结果有明显的提高,减少了椎体之间的粘连且与标签的真实值已非常接近,并减少了误分割出现的次数。
2182021,57(8)ComputerEngineeringandApplications计算机工程与应用(a)原始图像(b)标签的真实值(c)U-Net的预测值(d)使用Inceptionblock(e)使用Inceptionblock以及残差结构和未添加以及残差结构和添加了CBAM的网络预测值CBAM的网络预测值图6测试结果(红框内为不同模型差异之处)表3模型FCN32sFCN8sU-Net[13]Mask-R-CNN本文模型3.3训练时间评估从训练时间上来看,如表2所示,原始的U-Net网络不同算法Dice系数对比Dice系数0.68210.69640.71060.76490.8457提升幅度/%23.9821.4419.0110.56—每一个轮次上的训练时间平均为110s,改进的U-Net模型平均为每轮84s,远远低于原始的U-Net网络训练时间,分割的效果和训练的效率上都已经超过U-Net原始网络。表2模型文献[13]实验一实验二实验三实验四U-Net√√√√√各模型训练时间对比Resblock1层1层4层4层√√CBAM时间/s110√√√√53548384U-Net和Mask-R-CNN分别提高了23.98%、21.44%、19.01%和10.56%,充分表明本实验模型在分割精度上与其他算法相比有显著提高。Inceptionblock4结束语本文提出了一种基于U-Net改进的网络并对脊柱本实验通过对U-Net网络进行改进,提高了分割精度,但由于使用Inceptionblock进行多尺度特征提取并在跳跃连接之前加入的Resblock会增加模型的参数从而导致模型计算量和模型训练时间的增加,通过表2可以看出使用四层Resblock的模型比只使用一层Resblock的模型每一个轮次的训练时间多了30s,从而在一定程度上增加了训练代价,但对于医学影像处理任务精度比速度更为重要,训练代价的增加在可以接受的范围之内。进行自动分割的方法,通过对U-Net原有卷积核的改进,使用Inceptionblock进行多尺度特征提取,使用ResNet解决梯度消失和梯度爆炸的问题,并使用了CBAM对空间和通道的学习权重进行调整,从而提升网络性能。实验结果表明该模型可以有效提高脊柱X线图像的分割结果,但在一定程度上增加了训练代价。后续可对实验模型进一步探讨,在尽可能不增加训练代价的情况下得到更好的分割结果。本文在医学影像处理领域有一定的参考价值,并为后续深入研究打下坚实的基础。3.4不同模型Dice系数评估为了验证本实验模型的有效性,将本实验的数据集用于FCN32s、FCN8s以及Mask-R-CNN进行分割,并用Dice系数进行评估,表3给出了不同算法分割精度的对比。通过使用上述算法和本实验算法进行比较可以得出本文的算法模型的Dice系数相比于FCN32s、FCN8s、参考文献:[1]WEINSTEINSL,DOLANLA,CHENGJCY,centidiopathicscoliosis[J].TheLancet,2008,371(9623):1527-1537.[2]ANITHAH,KARUNAKARAK,-
赵阳,等:多尺度特征融合的脊柱X线图像分割方法maticextractionofvertebralendplatesfromscolioticradio-graphsusingcustomizedfilter[J].BiomedicalEngineeringLetters,2014,4(2):158-165.[3]ANITHAH,ticquantificationofspinalcurvatureinscolioticradiographusingimageprocess-ing[J].Journalofmedicalsystems,2012,36(3):1943-1951.[4]SARDJONOTA,WILKINSONMHF,VELDHUIZENAG,ticCobbangledeterminationfromradio-graphicimages[J].Spine,2013,38(20):1256-1262.[5]叶伟,陶晶,陈小宇,等.一种新颖的MR脊柱图像自动分割算法研究[J].中国医疗设备,2018,33(9):61-64.[6]LONGJ,SHELHAMERE,onvolu-tionalnetworksforsemanticsegmentation[C]//Proceed-ingsoftheIEEEConferenceonComputerVisionandPatternRecognition,2015:3431-3440.[7]RONNEBERGERO,FISCHERP,BROXT.U-Net:convo-lutionalnetworksforbiomedicalimagesegmentation[C]//InternationalCo:Springer,2015:234-241.[8]WUH,BAILEYC,RASOULINEJADP,ticlandmarkestimationforadolescentidiopathicscoliosisassessmentusingBoostNet[C]//InternationalCo:Springer,2017:127-135.[9]WUH,BAILEYC,RASOULINEJADP,tedcomprehensiveadolescentidiopathicscoliosisassess-mentusingMVC-Net[J].MedicalImageAnalysis,2018,48:1-11.[10]FANGL,ticsegmentationand3Drecon-structionofspinebasedonFCNandmarchingcubesinCTvolumes[C]//201810thInternationalConferenceonModelling,IdentificationandControl(ICMIC),2018:1-5.2021,57(8)219[11]HORNGMH,KUOKCP,FUMJ,glemeasurementofspinefromX-Rayimagesusingcon-volutionalneuralnetwork[J].ComputationalandMathe-maticalMethodsinMedicine,2019:6357171.[12]TANZ,YANGK,SUNY,maticscoliosisdiagnosisandmeasurementsystembasedondeeplearn-ing[C]//2018IEEEInternationalConferenceonRoboticsandBiomimetics(ROBIO),2018:439-443.[13]GRIGORIEVAI,VYUNNIKN,-structionofanindividualizedspinal3DmodelbasedontheX-rayrecognition[C]//Proceedingsofthe23rdCon-ferenceofOpenInnovationsAssociation,2018.[14]SZEGEDYC,IOFFES,VANHOUCKEV,ion-v4,inception-resnetandtheimpactofresidualconnec-tionsonlearning[C]//Thirty-FirstAAAIConferenceonArtificialIntelligence,2017.[15]HEK,ZHANGX,RENS,siduallearningforimagerecognition[C]//ProceedingsoftheIEEECon-ferenceonComputerVisionandPatternRecognition,2016:770-778.[16]WOOS,PARKJ,LEEJY,:convolutionalblockattentionmodule[C]//ProceedingsoftheEuropeanConferenceonComputerVision(ECCV),2018:3-19.[17]SZEGEDYC,VANHOUCKEV,IOFFES,k-ingtheinceptionarchitectureforcomputervision[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,2016:2818-2826.[18]HUJ,SHENL,e-and-excitationnetworks[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,2018:7132-7141.[19]t16:609spinalanterior-posteriorx-rayimages[EB/OL].[2019-10-11].http:///spineweb/?n=ts.


发布评论