基于深度学习的脑图像分割算法是目前的一个研究热点。本文首先对脑图像分割的意义以及相关算法内容进行系统阐述,突出了基于深度学习的脑图像分割算法的优势。然后,本文从针对脑图像存在的问题所提出的基于深度学习的脑图像分割算法、先验知识引导的基于深度学习的脑图像分割算法和基于通用深度学习模型的脑图像分割算法三个方面,介绍近年来流行的基于深度学习的脑图像分割算法,以便相关领域的科研工作者更系统地了解目前的研究进展。最后,本文为基于深度学习的脑图像分割算法的进一步研究提供了一些建议。
引用本文: 王玉丽, 赵子健. 基于深度学习的脑图像分割算法研究综述. 生物医学工程学杂志, 2020, 37(4): 721-729, 735. doi: 10.7507/1001-5515.201912050 复制
引言
人类的大脑通常分为三个区域:脑白质、灰质、脑脊液[1]。脑图像分割的目的往往是对脑中病变部位进行准确分割定位。最常进行分割的脑部病变是脑瘤,脑瘤可分为原发性和继发性脑瘤,原发性脑瘤起源于脑细胞,而继发性脑瘤则是从其他器官侵入大脑。最常见的原发性脑瘤是胶质瘤,它是由大脑胶质细胞产生的。世界卫生组织(World Health Organization,WHO)将胶质瘤分成从 I 级(the lowest malignancy and best prognosis)到 IV 级(the highest malignancy and worst prognosis)共 4 级。其中,恶性程度最高的胶质母细胞瘤中位生存时间只有 14.6 个月[2]。
脑图像分割技术能够对脑瘤的定量评估提供有价值的信息,因此是重要的辅助诊断程序,但是脑图像的分割往往依赖于医生的手动分割,而手动分割脑图像又需要扎实的大脑解剖学知识基础,整个手动分割过程不仅繁琐、耗时且具有主观性,容易由于操作人员的变化而出现主观性差异[3]。在这种情况下,自动分割脑图像就非常具有开发前景,因为它可以更快、更客观,甚至更准确地描述相关肿瘤参数,包括其子区域的体积等细节。因此,及时、自动地对脑瘤进行分割,对于帮助医生提高诊断水平、开展手术、制定治疗计划具有重要意义。
Menze 等[4]指出,在过去几十年里,关于脑图像自动分割的出版物数量呈指数级增长。这一观察结果不仅强调了脑图像自动分割工具的重要性,也表明有大量的研究人员积极地投入到此项研究中。近些年,人们开发了许多自动的脑图像分割算法。一般来说,可以分为三类:① 基于地图集方法。例如,多地图集标签融合(multi-atlas label fusion,MALF)方法利用多个参考地图集进行脑图像分割,在脑图像分割任务中取得了良好的效果[5]。然而,目前的 MALF 方法往往采用单一的脑图像模态进行分割,或者在使用多个脑图像模态时对每个模态一视同仁,没有充分利用不同模态的特异性,因此很可能限制了脑图像分割算法的准确性。此外,这类方法通常内存需求大、速度慢,无法应用于实际的医学辅助诊断,而且配准过程中产生的误差会降低 MALF 的准确性。② 基于手工特征的机器学习方法。该方法采用依赖于不同手工特征的不同分类器进行脑图像分割,具体包括:依赖空间和强度特征的支持向量机(support vector machine,SVM)模型、依赖强度特征的高斯混合模型(gaussian mixture model,GMM)、依赖外观以及空间特征的随机森林(random forest,RF)模型。然而由于脑部病变的多样性和复杂性,手工特征的表现力有限,且它们通常需要计算大量的特征以保证准确性,这会使其计算速度变慢,内存占用率增加。③ 基于深度学习的方法。该方法能够以数据驱动的方式自动学习特征,如全卷积神经网络(fully convolutional networks,FCN)和长期短期记忆(long short-term memory,LSTM)网络能够以分层的方式直接从底层数据中学习特征,而无需手动设计输入特征,这与基于手工特征的机器学习方法形成对比,从而可以实现更精确的分割结果。
通过对三类脑图像分割方法的介绍与比较可以看出,基于深度学习的脑图像分割算法具有计算速度快、自动学习特征、特征表达能力高效的特点,突破了传统脑图像分割算法的限制,成为近年来脑图像分割领域研究的热点。
目前,主要的脑部成像技术有计算机断层扫描(computer tomography,CT)成像技术、核磁共振成像(magnetic resonance imaging,MRI)技术和正电子发射型计算机断层显像(positron emission computed tomography,PET)技术。这些技术各自具有自己的优缺点:CT 脑图像具有较高的信噪比和较好的空间分辨率,可以提供较准确的解剖结构信息,但是会受骨像干扰[6];不同的 MRI 模式可以形成不同的组织对比图,从而可以提供更丰富、更有价值的结构信息[7],但组织对比度增强不是脑瘤的特异性造成的,因此 MRI 脑图像敏感性高但特异性低[8];与 MRI 和 CT 相比,PET 脑图像的敏感性和特异性都更高,另外,使用 PET-CT 融合技术可以更清楚地显示肿瘤边界[8]。但不论何种类型的脑图像都存在一些会影响分割算法性能的问题,这些问题主要包括以下七个方面:① 标记数据的稀缺。深度学习模型往往需要大量的训练数据,但是,在医学图像的环境中,昂贵的成像设备、复杂的图像采集工具、专家注释的必要性、隐私问题等,这些都导致难以构造大型高质量的医学图像数据集[9]。脑图像数据集也不例外,目前广泛使用的脑图像数据集是脑瘤分割(brain tumor segmentation,BraTS)数据集,每年数据集的数据量略有变化,但是通常仅有 200 多名患者的脑部 MRI 图像以及专家注释好的分割图。这与少则上万张,多则几百万张的自然场景图像相比,着实不足。② 高度类不均衡的问题。脑图像的背景比例往往达到 98%,而真正所要分割的病变部位往往只是整张脑图像中的很小的一部分。如果不预先对图像背景加以处理,就会造成结果偏向背景,即造成假阴性。③ 三维(three-dimensional,3D)脑图像高内存需求的问题。随着医学成像技术的发展,3D 医学图像不断增多,将脑图像分割算法应用到 3D 图像上,是值得研究的方向。但是将基于深度学习的脑图像分割算法应用到 3D 数据上会造成高内存需求的问题。④ 脑部病变的形状、大小、位置因患者而异,呈现出复杂性。⑤ 脑部病变会入侵周围的健康组织,这使脑图像中的病变部位和健康组织的边界模糊不清。⑥ 不同的脑部病变,如神经胶质增生和中风,在 MRI 图像中具有相同的外观,难以区分。⑦ 脑图像中的因设备或人工造成的噪声以及颅骨伪影也会对分割算法的性能造成影响。在以上七个方面的问题中,脑图像的标记数据稀缺、高度类不均衡和 3D 脑图像高内存需求的问题对基于深度学习的脑图像分割算法来说,影响最大也最为重要,因此,针对这三方面问题成为了基于深度学习的脑图像分割算法的研究热点,本文将会对相关的算法内容进行综述。
除此以外,将先验知识与深度学习模型结合起来以提高模型的效率和脑图像分割的准确性的分割算法,以及将各个领域的分割算法甚至分类算法应用到脑图像分割上以探究通用深度学习模型在脑图像分割上的效果的算法,也成为基于深度学习的脑图像分割算法的研究热点。因此,本文将从三个方面,即针对脑图像存在的问题所提出的脑图像分割算法、先验知识引导的脑图像分割算法和基于通用深度学习模型的脑图像分割算法,综述近年来基于深度学习的脑图像分割算法。
1 针对脑图像存在的问题所提出的脑图像分割算法
1.1 脑图像标记数据的稀缺
针对脑图像标记数据的稀缺问题,研究人员主要是通过数据处理来解决的,数据处理方式有以下几种:① 数据增强,包含随机轴翻转、随机角度旋转、随机缩放、随机弹性形变、伽玛校正增强等,通过数据增强扩充脑图像数据集。② 将一张脑图像分成多个部分来扩充脑图像数据集。③ MRI 是脑瘤分析、监测和手术计划的重要诊断工具,不同的 MRI 图像模式下能够获得不同的模态图像,如 T1、T1c、T2 和 FLAIR 模态,不同的模态可以突出不同的组织,因此可以利用不同模态之间的互补功能来解决脑图像标记数据的稀缺问题。
值得注意的是,Havaei 等[10]只使用了多种模态结合的方式来解决脑图像标记数据的稀缺问题,并指出数据增强技术没有提高其所提出的基于深度学习的脑图像分割算法的性能。与此类似,Myronenko 等[11]指出更复杂的图像增强技术,如随机直方图匹配、随机图像过滤等,不会对其所提出的基于深度学习脑图像分割算法有任何的改进。可见,在设计基于深度学习的脑图像分割算法的时候,如何解决脑图像标记数据的稀缺问题并没有一个统一的答案,需要研究人员根据自己所设计的深度学习算法来选择具体解决脑图像标记数据稀缺问题的方式。
深度学习算法可分为有监督深度学习算法和无监督深度学习算法,有监督深度学习算法需要标记数据,而无监督深度学习算法无需标记数据,显然基于无监督的深度学习的脑图像分割算法可以完全解决脑图像标记数据的稀缺问题。但是由于基于无监督的深度学习的脑图像分割算法往往比较复杂,且性能一般不如基于有监督的深度学习的脑图像分割算法,因此对于应用于脑图像分割的无监督深度学习算法的研究较少。毋庸置疑的是,对基于无监督的深度学习的脑图像分割算法的研究是很有意义的。
Dalca 等[12]提出了一种基于无监督深度学习的脑图像分割算法,该算法需要建立一个解剖先验,组成这个解剖先验的标签图可以从不同数据集和不同成像方式的成像数据中得到,而不是从当前任务中得到。该算法首先通过卷积神经网络去学习这个解剖先验,然后将目标数据输入到卷积神经网络中,卷积神经网络会输出脑图像数据中的各个位置属于不同标签的概率分布参数,即概率分布的期望和方差,最后通过输出的概率分布得到最终的分割图,结构如图 1 所示。该算法分割精度比经典的基于有监督深度学习的脑图像分割算法差 5% 左右,但是分割速度很快,一张 MRI 脑图像仅需要几秒钟就可以完成分割。该算法的提出推动了基于无监督深度学习的脑图像分割算法的发展。

1.2 脑图像的高度类不均衡
脑图像被分成 5 个部分:背景、坏死区、水肿区、增强肿瘤区和非增强肿瘤区。脑图像分割的目的是将坏死区、水肿区、增强肿瘤区和非增强肿瘤区从背景中分割出来[11]。但是,脑图像具有高度的类不均衡的问题,背景所占比例达到 98%,这会使基于深度学习的脑图像分割算法出现假阴性的错误。针对脑图像的高度不均衡的问题,在基于深度学习的脑图像分割算法中有一些常用的处理手段:① 从损失函数着手,可以使用加权损失函数,即背景的权重要远大于病变区域的权重,还可以使用骰子(dice)损失函数,与加权损失函数相比,dice 损失函数没有超参数,使用起来更简单。这是两种针对脑图像的高度不均衡问题最常用的损失函数。另外还可以使用聚焦损失函数和杰卡德(Jaccard)相似系数损失函数等。损失函数的选择并没有统一标准,需要在具体的实验中确定哪种损失函数效果更好。② 剪裁,即将大部分背景直接删除,以增大脑部病变部位所占的比例,但是这样会造成假阳性的问题,即将健康组织误分割成病变组织。③ 将一张脑图像裁剪成多张图像块,采样时,使各类别的图像块数量相同,这种方式能同时解决脑图像标记数据的稀缺问题,但是同样也会造成假阳性的问题。
为了解决上述常用手段带来的问题,Chen 等[13]提出了采样所有标记为病变部位的像素的方法,对于每个像素,都提取一个围绕它的图像块,该病变部位像素被随机放置在图像块的任意位置,这样可以有效解决假阴性和假阳性的问题。Havaei 等[10]提出了一种新颖的两阶段训练方法:第一阶段,与上一段常用手段③ 相同,即用每种类别的图像块数量相同的数据集去训练网络模型;第二阶段,用原始类不均衡的数据集仅对网络的输出层进行训练,而固定其他网络层参数。实验证明,两阶段训练方法能有效解决脑图像的高度类不均衡问题。Hussain 等[14]提出了类似的两阶段训练方法,第一阶段与上述的方法相同,第二阶段也是用原始数据集只对输出层进行训练;不同的是,第二阶段用了加权损失函数,其中背景的权重是 8,水肿的权重是 2,其他三类病变的权重为 1,实验再次证明两阶段训练方式的有效性。近年来,经过研究人员的努力,解决方案从简单、效果有限变得更加巧妙、效果更好,有效地解决了脑图像的高度类不均衡的问题,切实地提高了基于深度学习的脑图像分割算法的性能。
1.3 3D 脑图像高内存的需求
随着医学成像技术的发展,3D 脑图像越来越多,3D 脑图像所包含的信息远远丰富于二维(two-dimensional,2D)脑图像,但将基于深度学习的脑图像分割算法应用到 3D 脑图像上时,会存在高内存需求的问题。如何解决 3D 脑图像高内存的需求的问题,以充分利用 3D 脑图像所蕴含的丰富信息,成为近年来基于深度学习的脑图像分割算法的研究热点。
针对 3D 脑图像高内存的需求问题,常用的缓解方式有:① 在必要时就对图像进行下采样,即内存一旦不够用,就进行下采样,这是一种以提高模型性能为主要目标的方式。② 将 3D 脑图像分成多个小块,分别进行分割,最后将分割结果拼接起来。这是一种解决 3D 脑图像高内存需求问题的一种简单有效的方式,但是不能充分地利用 3D 脑图像所蕴含的丰富的信息。③ 网络输出的前一层用完全连接的卷积实现,而不是传统简单的全连接。
Brügger 等[15]提出了一种新颖的可逆网络来解决 3D 脑图像高内存的需求问题。可逆网络是将可逆序列整合到网络结构中,可逆序列允许网络结构由后一层中的输出恢复前一层的输出,从而节省了为反向传播存储激活结果的内存空间。实验结果显示,与不可逆结构相比较,使用相同的训练数据,可逆结构在不降低性能的情况下内存占用率减少了三分之一。
2D 脑图像的深度学习分割算法忽略了体积中互相关联的信息,而 3D 脑图像的深度学习分割算法具有较高的计算成本和内存占用率,因此,以同时解决基于 2D 脑图像的深度学习分割算法和基于 3D 脑图像的深度学习分割算法的局限性为目的,将 2D 模型和 3D 模型相结合的基于深度学习的脑图像分割算法逐渐成为研究热点。
Wang 等[16]提出一种多视角融合方法,即将三个正交的 2D 脑图像输入到深度学习模型中,通过投票策略决定正交点的标签,从而达到 2D 模型分割 3D 脑图像的目的,实验证明,这种多视角融合方法,不仅能够大大减少 3D 脑图像内存的需求,还能提高基于深度学习的脑图像分割模型的性能。Mlynarski 等[17]提出将 2D 深度学习分割模型学习到的特征与原始脑图像信息一起输入到 3D 深度学习分割模型中,这样 3D 深度学习分割模型不仅输入了原始脑图像的信息,还输入了 2D 深度学习分割模型提取的某一平面内大范围的特征值,因此可以明显加大 3D 深度学习模型的感受野。该方法在 2017 年 BraTS 挑战赛中取得了不错的成绩,在增强肿瘤、整个肿瘤和肿瘤核心的平均 dice 分数分别为 0.854、0.918、0.883。
脑图像标记数据的稀缺、高度类不均衡和 3D 脑图像的高内存需求是限制基于深度学习的脑图像分割算法性能的三个主要问题,因此很多研究人员针对这三个主要问题提出了有效的处理手段和算法以提高分割算法的性能。但是,解决这三个主要的脑图像问题并不是提高基于深度学习的脑图像分割算法性能的唯一方式,还有很多研究人员专注在深度学习模型上的创新以提高脑图像分割算法的性能,因此下面两节将介绍专注于深度学习算法上的创新的脑图像分割算法。
2 先验知识引导的脑图像分割算法
人可以凭借以前所学的知识在遭遇类似事件时作出恰当的反应,那么将脑图像分割的先验知识应用到以神经网络为基础的深度学习模型中,是否能够提高基于深度学习的脑图像分割算法的效率和准确性呢?在此思想的指导下,先验知识引导的基于深度学习的脑图像分割算法成为又一研究热点。
Wang 等[18]提出了一种交互式网络模型,称为基于边界框和特定图像的微调分割交互模型(bounding box and image-specific fine-tuning-based segmentation,BIFSeg)。该模型先预训练一个 FCN,然后将预训练网络的输出结果与原始图像信息和用户给与的交互信息重新输入到预训练模型中,结构如图 2 所示。根据实验,BIFSeg 与传统的深度学习模型候选压缩网络(proposal compression network,PC-Net)相比,可以将整个肿瘤和肿瘤核心的分割 dice 系数指标分别从 83.52% 提高到 86.29%、从 82.66% 提高到 86.13%,与其他常用的交互式算法,如测地线图像分割(geodesic image segmentation,GeoS)算法、基于迭代图割的交互式前景提取(interactive foreground extraction using iterated graph cuts,GrowCut)算法相比,能获得相似的 dice 分数,但是 BIFSeg 所用时间明显缩短,分割一张 3D 脑图像中的整个肿瘤和肿瘤核心平均用时为 68 s 和 82.3 s,可见该基于深度学习的脑图像分割算法可以在用时较少的情况下获得更高的分割精度和鲁棒性。

另一种利用脑图像先验知识的角度是利用脑组织结构间的约束,以减少脑图像的错误分割。Wang 等[16]提出了一种新颖的用于脑图像分割的级联结构,该级联结构将多类别分割任务分解为 3 个二值分割任务:子网络 1 分割整个肿瘤区域,得到肿瘤区域的边界框;然后将此区域内的信息作为子网络 2 的输入,以分割肿瘤核心区;最后子网络 3 根据子网络 2 的输出,来分割增强肿瘤,整个分割任务的结构如图 3 所示。与使用复杂的网络直接对多类肿瘤子区域分割相比,使用 3 个结构相似的二值分割子网络不仅利用了先验知识、减少了错误分割,而且更容易训练,可以减少过拟合。在 BraTS 2017 测试集上,该算法在增强肿瘤、完整肿瘤和肿瘤核心的平均 dice 分数分别为 0.783 1、0.873 9、0.774 8,但是不能端到端训练是该算法的一个缺点。Zhou 等[19]也提出了类似想法,不同之处在于,3 个子网络依次通过粗分割定位整个肿瘤区域、精细分割整个肿瘤区域和精确分割增强肿瘤,因此 3 个子网络的分类层通道数分别为 5、5、2,而不都是 2。另外,该算法的 3 个子网络结构几乎一样,因此,采用了一遍多任务网络(one-pass multi-task network,OM-Net),即将 3 个子网络合并到一个可以端到端训练的整体网络中,这样可以节省大量参数。在 BraTS 2018 测试集上,该方法在增强肿瘤、整个肿瘤和肿瘤核心的平均 dice 分数分别为 0.777 5、0.884 2、0.796 0,获得 2018 年 BraTS 挑战赛的第三名。

Kao 等[20]提出将脑部病变的先验知识与经典的 3D “U”型网络(u-shaped network,U-net)模型相结合的算法应用到脑图像分割上,该算法需先构造出不同类别的脑部病变的热图,再根据热图创建兴趣区域(volume-of-interest,VOI)图,最后将 VOI 图和 MRI 图像一起输入到 3D U-net 中。在实验中训练了两个相同的 3D U-net,一个输入包含 VOI 图,另一个输入不包含 VOI 图。用 BraTS 2017 验证集评估这两个脑图像分割网络的性能。定量结果显示,使用 VOI 图的网络在分割增强肿瘤时,dice 相似系数提高 3.5%。另外,性能较差的基线模型,在输入 VOI 图后,获得了能与最先进的脑图像分割算法相媲美的性能。可见先验知识对基于深度学习的脑图像分割算法的性能提高具有重要意义。
3 基于通用深度学习模型的脑图像分割算法
不同领域的图像具有不同的特点,但是不同领域的图像分割的目的是相同的,就是将图像中的像素进行分类,因此不同领域的图像分割技术可互相借鉴。于是,很多研究人员会从其他领域的分割或者分类模型中寻找灵感,来改进脑图像分割算法。本节将主要介绍深度学习模型中具有很好泛化能力的较为通用的模型在脑图像分割上的应用。
3.1 编码-解码网络结构
U-net 是最为经典的编码-解码网络结构,如图 4 所示[21],U-net 可以实现端到端的训练,依靠数据增强,只需要较少的训练样本,就可获得理想的效果。U-net 的产生极大促进了包括脑图像在内的医学图像分割算法的发展。

Kayalibay 等[22]提出在 U-net 的编码路径上用残差块代替两次普通的卷积,并在解码路径的不同层次上分别输出脑图像分割图,低层次分割图经过上采样与高一级的分割图元素相加,形成一种多尺度融合结构。这种多尺度融合结构具有深度监督的作用,能够加快网络收敛。Ibtehaz 等[9]参加 BraTS 2017 挑战赛时,使用的脑图像分割模型与 Kayalibay 等[22]提出的网络结构类似,最终整个肿瘤、肿瘤核心和增强肿瘤的分割 dice 系数指标分别为 85.8%、77.5% 和 64.7%,这证实了残差块的使用和多尺度融合的结构能有效提高脑图像分割算法的性能。McKinley 等[23]提出将密集连接卷积神经网络与 U-net 相结合进行脑图像分割,即用带有扩张卷积(dilated convolution)的密集块(dense block)代替 U-net 中普通的卷积。该脑图像分割算法在 BraTS 2018 挑战赛中获得了第三名。Myronenko 等[11]提出的脑图像分割算法是在编码路径端点添加一个额外的类似自动编码器结构的分支来重构原始图像,使用自动编码器分支的目的是向编码路径添加额外的指导和正则化。该方法在 BraTS 2018 测试数据集中的增强肿瘤、整个肿瘤和肿瘤核心的 dice 系数指标分别为 76.64%、88.39% 和 81.54%,获得了该挑战赛的第一名。
有些研究人员没有把关注点放在改进编码-解码网络结构上,而是研究更加通用的提高脑图像分割模型性能的方法。在 Kayalibay 等[22]提出的基于 U-net 的脑图像分割算法的文章中,包含大量的消融实验,如探究杰卡德(Jaccard)损失函数与交叉熵损失函数的优劣、跳跃连接的有无和不同方式的影响、多尺度输出的影响和不同模态及其不同组合的影响的实验,最后确定使用编码-解码网络结构的脑图像分割模型的最优结构及参数。Isensee 等[24]提出一种非新网络(no new-net),该算法关注的是训练过程,即如何对数据的初始化、数据增强和后处理进行优化,另外还探究了不同损失函数的优劣,并对额外的公共数据集进行了训练。尽管该算法只使用了一个通用的 U-net 架构,但在 BraTS 2018 挑战赛中获得了第二名,这为研究人员提高基于深度学习的脑图像分割算法的性能提供了新思路。
3.2 多个神经网络结构的级联或集成
编码-解码网络结构是单个网络结构,而加深网络深度,使网络变得更加复杂通常可以提高网络性能。因此从提高脑图像分割算法的精度的角度上,许多研究人员开展了多个神经网络结构级联或集成的模型在脑图像分割上的应用研究。
Liu 等[25]提出的脑图像分割模型中,包括 3 个子网络:子网络 1 和子网络 2 输入的是脑图像的局部信息,2 个子网络的区别在于卷积核的大小不同;子网络 3 输入的是经过下采样的脑图像的全部信息。3 个子网络输出大小相同的特征图,最后将所有特征图相接输入最后的体素级分类层。实验结果证明,从卷积核大小不同和多尺度的子网络中获得的混合特征可为脑图像体素的精确分类提供有效信息。Havaei 等[10]提出类似的脑图像分割算法,构建一个双网络结构,2 个网络分别被称为局部网络和全局网络。与 Liu 等[25]算法的不同之处在于,此脑图像分割算法没有将 2 个子网络输出的特征图直接连接在一起而是将第一个网络输出的概率图作为第二个网络的额外输入,实现了局部信息和全局信息的互相补充。该方法在 BraTS 2013 测试数据集中的增强肿瘤、整个肿瘤和肿瘤核心的 dice 系数指标分别为 73%、88% 和 79%。Hussain 等[14]也提出过类似的脑图像分割算法,证明了这种多个子网络级联的深度学习模型在脑图像分割领域的流行。有些研究人员还提出了一种迭代的想法,即将脑图像分割模型的输出与原始图像信息一起重新输入到新的相同的脑图像分割模型中,以达到细化分割结果的目的,其迭代次数由实验决定,如在 Chen 等[26]提出的体素残差网络(voxelwise residual network,VoxResNet)算法即迭代了一次,该算法在所使用的脑图像数据集中的灰质、白质和脑脊液的 dice 系数指标分别为 86.15%、89.46% 和 84.25%。
Kamnitsas 等[27]提出网络的结构和设置的参数会对深度学习模型的性能产生很大的影响,单一的网络结构很可能对特定的数据集产生过拟合,因此他们采用多个神经网络结构集成的算法进行脑图像分割,即对来自不同网络结构的预测结果采用投票策略决定最后的结果。该脑图像分割集成算法中包括 2 个深度医疗(deepmedic)模型、3 个 3D FCN 和 2 个 3D U-net,这些网络结构以不同的方式进行配置和训练。实验证明,多模型和结构集成模型(ensembles of multiple models and architectures,EMMA)是一种公正、通用的深度学习算法,在 BraTS 2017 比赛中,该算法获得 50 多支参赛队伍中的第一名。Iqbal 等[28]也提出了类似的算法,该算法对 FCN 和 LSTM 的输出结果进行投票,以确定最后的结果。实验证明,与单个网络结构算法相比较,多个神经网络结构集成的算法能将脑图像各个区域的分割 dice 系数指标提高 2% 左右。
3.3 深度学习模型与其他经典算法的结合
自从用于语义分割的 FCN 被提出以来[29],在语义分割领域,以 FCN 为基础的深度学习算法就蓬勃发展起来了。脑图像分割领域也不例外,近三年国际医学图像计算和计算机辅助干预协会(Medical Image Computing and Computer Assisted Intervention Society,MICCAI)组织的脑瘤分割挑战赛中的第一名都是深度学习模型[7],但是经典的算法也在不断发展。因此将基于深度学习的分割算法与其他经典的算法相结合成为脑图像分割算法的又一研究方向。
Kamnitsas 等[30]首次提出将 3D 全连接条件随机场(conditional random field,CRF)应用到脑图像分割中,该算法将 3D CRF 作为一种后处理方式,来改善卷积神经网络的输出,实验证明 3D CRF 的应用能将深度学习模型的各项指标平均提高 1%。但 CRF 是不可训练的,因此整个模型不可端到端训练。Zhao 等[31]提出将 CRF 改造成可训练的结构并与 FCN 相结合应用到脑图像分割上,从而解决了不能端到端训练的问题。该方法在 BraTS 2013 测试数据集中的增强肿瘤、整个肿瘤和肿瘤核心的 dice 系数指标分别为 73%、85% 和 80%。受对抗网络(adversarial networks,AN)的启发,Xue 等[32]提出将 FCN 和 AN 结合起来应用到脑图像分割上。FCN 通过最小化最小绝对值偏差(least absolute deviations,LAD)进行训练,而 AN 通过最大化 LAD 进行训练,于是 FCN 和 AN 就在这种最小-最大博弈中以交替的方式进行训练,该方法在 BraTS 2015 测试数据集中的增强肿瘤、整个肿瘤和肿瘤核心的 dice 系数指标分别为 66%、85% 和 70%,该方法的缺点是对尺寸较小的脑部病变不敏感,且当脑部病变类别较多时,模型内存需求很高。
Soltaninejad 等[33]提出将 RF 与 FCN 相结合应用到脑图像分割上,该算法将 FCN 输出的特征图和手工特征图一起输入到最先进的 RF 模型中进行脑图像分割,该方法在 BraTS 2013 测试数据集中的增强肿瘤、整个肿瘤和肿瘤核心的 dice 系数指标分别为 73%、88% 和 80%。该方法认为 RF 能弥补卷积神经网络不能联系大范围上下文的缺点。Li 等[34]将 FCN 与地图集相结合应用到脑图像分割上,该算法是先用地图集算法对脑图像进行粗分割,再用 FCN 对脑图像进行细分割,该方法在所使用的数据集中的白质、灰质和脑脊液的平均 dice 系数指标分别为 89.8%、91.4% 和 95.8%。Sharma 等[35]提出了将 k-means 算法和人工神经网络相结合(k-means and artificial neural network,KMANN)应用到脑图像分割上。结果证明该方法性能要远好于传统的 k-means 算法和单个神经网络。另外研究人员还探究了人工神经网络(artificial neural network,ANN)与 SVM 相结合[36]和 ANN 与主成分分析相结合[37]等在脑图像分割上的应用,但性能普遍不及先进的只含有神经网络的深度学习模型。
4 总结及展望
本综述主要总结了近年来有代表性的基于深度学习的脑图像分割算法,针对脑图像存在的问题的基于深度学习的脑图像分割算法、先验知识引导的基于深度学习的脑图像分割算法和基于通用深度学习模型的脑图像分割算法三个方面进行综述总结,如图 5 所示。

针对脑图像存在的问题的基于深度学习的脑图像分割算法具有针对性,能够为开发出可用于实际的脑图像分割工具打下良好的基础;由于脑图像分割的专业性,如何将先验知识引入到脑图像分割算法中一直是脑图像分割领域研究的热点,实验证明,先验知识引导的脑图像分割算法确实可以提高脑图像分割模型的效率和性能;基于通用深度学习模型的脑图像分割算法证明了各个领域分割技术的通用性,也鼓励广大的研究人员互相交流,彼此借鉴,在各自的领域上共同进步。
综上可以看出,未来的基于深度学习的脑图像分割算法或将有以下三个发展方向:
(1)由基于有监督学习的脑图像分割算法向基于无监督学习或半监督学习的脑图像分割算法发展。比如探究如何将经典的无监督深度学习算法,如生成式对抗网络(generative adversarial networks,GAN)和自编码器(auto encoder)神经网络应用到脑图像分割上,以及将有监督的深度学习模型与聚类算法、RF 或者 SVM 这种经典的分类算法相结合,以达到在保证分割算法准确性的前提下,减少甚至不使用脑图像数据的目的。脑图像标记数据的稀缺性限制了有监督模型的性能,而无监督模型可以突破这一限制,从理论上无监督学习更适合脑图像的分割,因此基于无监督学习的脑图像分割算法是很有潜力的。
(2)进一步发展先验知识引导的基于深度学习的脑图像分割算法。比如在后处理阶段中,用先验知识对深度学习模型的分割结果进行优化,例如肿瘤核心区域应该在整个肿瘤的内部,但是分割结果却在整个肿瘤的外部,通过先验知识可知,这个分割结果是有问题的,那么如何通过先验知识处理这个问题,进而提升整个基于深度学习的脑图像分割算法的性能是值得研究的方向。
(3)继续研究适合脑图像分割的通用深度学习模型。一方面积极探究其他领域中先进的分割甚至分类算法应用在脑图像分割上的可能性和效果,另一方面可以对经典的泛化效果好的深度学习模型进行深入探究,如可视化深度学习模型中的某些网络层,观察这些网络层提取了哪些特征、这些特征有什么作用,进而更好地改进这些深度学习模型以适应脑图像的分割。
利益冲突声明:本文全体作者均声明不存在利益冲突。
引言
人类的大脑通常分为三个区域:脑白质、灰质、脑脊液[1]。脑图像分割的目的往往是对脑中病变部位进行准确分割定位。最常进行分割的脑部病变是脑瘤,脑瘤可分为原发性和继发性脑瘤,原发性脑瘤起源于脑细胞,而继发性脑瘤则是从其他器官侵入大脑。最常见的原发性脑瘤是胶质瘤,它是由大脑胶质细胞产生的。世界卫生组织(World Health Organization,WHO)将胶质瘤分成从 I 级(the lowest malignancy and best prognosis)到 IV 级(the highest malignancy and worst prognosis)共 4 级。其中,恶性程度最高的胶质母细胞瘤中位生存时间只有 14.6 个月[2]。
脑图像分割技术能够对脑瘤的定量评估提供有价值的信息,因此是重要的辅助诊断程序,但是脑图像的分割往往依赖于医生的手动分割,而手动分割脑图像又需要扎实的大脑解剖学知识基础,整个手动分割过程不仅繁琐、耗时且具有主观性,容易由于操作人员的变化而出现主观性差异[3]。在这种情况下,自动分割脑图像就非常具有开发前景,因为它可以更快、更客观,甚至更准确地描述相关肿瘤参数,包括其子区域的体积等细节。因此,及时、自动地对脑瘤进行分割,对于帮助医生提高诊断水平、开展手术、制定治疗计划具有重要意义。
Menze 等[4]指出,在过去几十年里,关于脑图像自动分割的出版物数量呈指数级增长。这一观察结果不仅强调了脑图像自动分割工具的重要性,也表明有大量的研究人员积极地投入到此项研究中。近些年,人们开发了许多自动的脑图像分割算法。一般来说,可以分为三类:① 基于地图集方法。例如,多地图集标签融合(multi-atlas label fusion,MALF)方法利用多个参考地图集进行脑图像分割,在脑图像分割任务中取得了良好的效果[5]。然而,目前的 MALF 方法往往采用单一的脑图像模态进行分割,或者在使用多个脑图像模态时对每个模态一视同仁,没有充分利用不同模态的特异性,因此很可能限制了脑图像分割算法的准确性。此外,这类方法通常内存需求大、速度慢,无法应用于实际的医学辅助诊断,而且配准过程中产生的误差会降低 MALF 的准确性。② 基于手工特征的机器学习方法。该方法采用依赖于不同手工特征的不同分类器进行脑图像分割,具体包括:依赖空间和强度特征的支持向量机(support vector machine,SVM)模型、依赖强度特征的高斯混合模型(gaussian mixture model,GMM)、依赖外观以及空间特征的随机森林(random forest,RF)模型。然而由于脑部病变的多样性和复杂性,手工特征的表现力有限,且它们通常需要计算大量的特征以保证准确性,这会使其计算速度变慢,内存占用率增加。③ 基于深度学习的方法。该方法能够以数据驱动的方式自动学习特征,如全卷积神经网络(fully convolutional networks,FCN)和长期短期记忆(long short-term memory,LSTM)网络能够以分层的方式直接从底层数据中学习特征,而无需手动设计输入特征,这与基于手工特征的机器学习方法形成对比,从而可以实现更精确的分割结果。
通过对三类脑图像分割方法的介绍与比较可以看出,基于深度学习的脑图像分割算法具有计算速度快、自动学习特征、特征表达能力高效的特点,突破了传统脑图像分割算法的限制,成为近年来脑图像分割领域研究的热点。
目前,主要的脑部成像技术有计算机断层扫描(computer tomography,CT)成像技术、核磁共振成像(magnetic resonance imaging,MRI)技术和正电子发射型计算机断层显像(positron emission computed tomography,PET)技术。这些技术各自具有自己的优缺点:CT 脑图像具有较高的信噪比和较好的空间分辨率,可以提供较准确的解剖结构信息,但是会受骨像干扰[6];不同的 MRI 模式可以形成不同的组织对比图,从而可以提供更丰富、更有价值的结构信息[7],但组织对比度增强不是脑瘤的特异性造成的,因此 MRI 脑图像敏感性高但特异性低[8];与 MRI 和 CT 相比,PET 脑图像的敏感性和特异性都更高,另外,使用 PET-CT 融合技术可以更清楚地显示肿瘤边界[8]。但不论何种类型的脑图像都存在一些会影响分割算法性能的问题,这些问题主要包括以下七个方面:① 标记数据的稀缺。深度学习模型往往需要大量的训练数据,但是,在医学图像的环境中,昂贵的成像设备、复杂的图像采集工具、专家注释的必要性、隐私问题等,这些都导致难以构造大型高质量的医学图像数据集[9]。脑图像数据集也不例外,目前广泛使用的脑图像数据集是脑瘤分割(brain tumor segmentation,BraTS)数据集,每年数据集的数据量略有变化,但是通常仅有 200 多名患者的脑部 MRI 图像以及专家注释好的分割图。这与少则上万张,多则几百万张的自然场景图像相比,着实不足。② 高度类不均衡的问题。脑图像的背景比例往往达到 98%,而真正所要分割的病变部位往往只是整张脑图像中的很小的一部分。如果不预先对图像背景加以处理,就会造成结果偏向背景,即造成假阴性。③ 三维(three-dimensional,3D)脑图像高内存需求的问题。随着医学成像技术的发展,3D 医学图像不断增多,将脑图像分割算法应用到 3D 图像上,是值得研究的方向。但是将基于深度学习的脑图像分割算法应用到 3D 数据上会造成高内存需求的问题。④ 脑部病变的形状、大小、位置因患者而异,呈现出复杂性。⑤ 脑部病变会入侵周围的健康组织,这使脑图像中的病变部位和健康组织的边界模糊不清。⑥ 不同的脑部病变,如神经胶质增生和中风,在 MRI 图像中具有相同的外观,难以区分。⑦ 脑图像中的因设备或人工造成的噪声以及颅骨伪影也会对分割算法的性能造成影响。在以上七个方面的问题中,脑图像的标记数据稀缺、高度类不均衡和 3D 脑图像高内存需求的问题对基于深度学习的脑图像分割算法来说,影响最大也最为重要,因此,针对这三方面问题成为了基于深度学习的脑图像分割算法的研究热点,本文将会对相关的算法内容进行综述。
除此以外,将先验知识与深度学习模型结合起来以提高模型的效率和脑图像分割的准确性的分割算法,以及将各个领域的分割算法甚至分类算法应用到脑图像分割上以探究通用深度学习模型在脑图像分割上的效果的算法,也成为基于深度学习的脑图像分割算法的研究热点。因此,本文将从三个方面,即针对脑图像存在的问题所提出的脑图像分割算法、先验知识引导的脑图像分割算法和基于通用深度学习模型的脑图像分割算法,综述近年来基于深度学习的脑图像分割算法。
1 针对脑图像存在的问题所提出的脑图像分割算法
1.1 脑图像标记数据的稀缺
针对脑图像标记数据的稀缺问题,研究人员主要是通过数据处理来解决的,数据处理方式有以下几种:① 数据增强,包含随机轴翻转、随机角度旋转、随机缩放、随机弹性形变、伽玛校正增强等,通过数据增强扩充脑图像数据集。② 将一张脑图像分成多个部分来扩充脑图像数据集。③ MRI 是脑瘤分析、监测和手术计划的重要诊断工具,不同的 MRI 图像模式下能够获得不同的模态图像,如 T1、T1c、T2 和 FLAIR 模态,不同的模态可以突出不同的组织,因此可以利用不同模态之间的互补功能来解决脑图像标记数据的稀缺问题。
值得注意的是,Havaei 等[10]只使用了多种模态结合的方式来解决脑图像标记数据的稀缺问题,并指出数据增强技术没有提高其所提出的基于深度学习的脑图像分割算法的性能。与此类似,Myronenko 等[11]指出更复杂的图像增强技术,如随机直方图匹配、随机图像过滤等,不会对其所提出的基于深度学习脑图像分割算法有任何的改进。可见,在设计基于深度学习的脑图像分割算法的时候,如何解决脑图像标记数据的稀缺问题并没有一个统一的答案,需要研究人员根据自己所设计的深度学习算法来选择具体解决脑图像标记数据稀缺问题的方式。
深度学习算法可分为有监督深度学习算法和无监督深度学习算法,有监督深度学习算法需要标记数据,而无监督深度学习算法无需标记数据,显然基于无监督的深度学习的脑图像分割算法可以完全解决脑图像标记数据的稀缺问题。但是由于基于无监督的深度学习的脑图像分割算法往往比较复杂,且性能一般不如基于有监督的深度学习的脑图像分割算法,因此对于应用于脑图像分割的无监督深度学习算法的研究较少。毋庸置疑的是,对基于无监督的深度学习的脑图像分割算法的研究是很有意义的。
Dalca 等[12]提出了一种基于无监督深度学习的脑图像分割算法,该算法需要建立一个解剖先验,组成这个解剖先验的标签图可以从不同数据集和不同成像方式的成像数据中得到,而不是从当前任务中得到。该算法首先通过卷积神经网络去学习这个解剖先验,然后将目标数据输入到卷积神经网络中,卷积神经网络会输出脑图像数据中的各个位置属于不同标签的概率分布参数,即概率分布的期望和方差,最后通过输出的概率分布得到最终的分割图,结构如图 1 所示。该算法分割精度比经典的基于有监督深度学习的脑图像分割算法差 5% 左右,但是分割速度很快,一张 MRI 脑图像仅需要几秒钟就可以完成分割。该算法的提出推动了基于无监督深度学习的脑图像分割算法的发展。

1.2 脑图像的高度类不均衡
脑图像被分成 5 个部分:背景、坏死区、水肿区、增强肿瘤区和非增强肿瘤区。脑图像分割的目的是将坏死区、水肿区、增强肿瘤区和非增强肿瘤区从背景中分割出来[11]。但是,脑图像具有高度的类不均衡的问题,背景所占比例达到 98%,这会使基于深度学习的脑图像分割算法出现假阴性的错误。针对脑图像的高度不均衡的问题,在基于深度学习的脑图像分割算法中有一些常用的处理手段:① 从损失函数着手,可以使用加权损失函数,即背景的权重要远大于病变区域的权重,还可以使用骰子(dice)损失函数,与加权损失函数相比,dice 损失函数没有超参数,使用起来更简单。这是两种针对脑图像的高度不均衡问题最常用的损失函数。另外还可以使用聚焦损失函数和杰卡德(Jaccard)相似系数损失函数等。损失函数的选择并没有统一标准,需要在具体的实验中确定哪种损失函数效果更好。② 剪裁,即将大部分背景直接删除,以增大脑部病变部位所占的比例,但是这样会造成假阳性的问题,即将健康组织误分割成病变组织。③ 将一张脑图像裁剪成多张图像块,采样时,使各类别的图像块数量相同,这种方式能同时解决脑图像标记数据的稀缺问题,但是同样也会造成假阳性的问题。
为了解决上述常用手段带来的问题,Chen 等[13]提出了采样所有标记为病变部位的像素的方法,对于每个像素,都提取一个围绕它的图像块,该病变部位像素被随机放置在图像块的任意位置,这样可以有效解决假阴性和假阳性的问题。Havaei 等[10]提出了一种新颖的两阶段训练方法:第一阶段,与上一段常用手段③ 相同,即用每种类别的图像块数量相同的数据集去训练网络模型;第二阶段,用原始类不均衡的数据集仅对网络的输出层进行训练,而固定其他网络层参数。实验证明,两阶段训练方法能有效解决脑图像的高度类不均衡问题。Hussain 等[14]提出了类似的两阶段训练方法,第一阶段与上述的方法相同,第二阶段也是用原始数据集只对输出层进行训练;不同的是,第二阶段用了加权损失函数,其中背景的权重是 8,水肿的权重是 2,其他三类病变的权重为 1,实验再次证明两阶段训练方式的有效性。近年来,经过研究人员的努力,解决方案从简单、效果有限变得更加巧妙、效果更好,有效地解决了脑图像的高度类不均衡的问题,切实地提高了基于深度学习的脑图像分割算法的性能。
1.3 3D 脑图像高内存的需求
随着医学成像技术的发展,3D 脑图像越来越多,3D 脑图像所包含的信息远远丰富于二维(two-dimensional,2D)脑图像,但将基于深度学习的脑图像分割算法应用到 3D 脑图像上时,会存在高内存需求的问题。如何解决 3D 脑图像高内存的需求的问题,以充分利用 3D 脑图像所蕴含的丰富信息,成为近年来基于深度学习的脑图像分割算法的研究热点。
针对 3D 脑图像高内存的需求问题,常用的缓解方式有:① 在必要时就对图像进行下采样,即内存一旦不够用,就进行下采样,这是一种以提高模型性能为主要目标的方式。② 将 3D 脑图像分成多个小块,分别进行分割,最后将分割结果拼接起来。这是一种解决 3D 脑图像高内存需求问题的一种简单有效的方式,但是不能充分地利用 3D 脑图像所蕴含的丰富的信息。③ 网络输出的前一层用完全连接的卷积实现,而不是传统简单的全连接。
Brügger 等[15]提出了一种新颖的可逆网络来解决 3D 脑图像高内存的需求问题。可逆网络是将可逆序列整合到网络结构中,可逆序列允许网络结构由后一层中的输出恢复前一层的输出,从而节省了为反向传播存储激活结果的内存空间。实验结果显示,与不可逆结构相比较,使用相同的训练数据,可逆结构在不降低性能的情况下内存占用率减少了三分之一。
2D 脑图像的深度学习分割算法忽略了体积中互相关联的信息,而 3D 脑图像的深度学习分割算法具有较高的计算成本和内存占用率,因此,以同时解决基于 2D 脑图像的深度学习分割算法和基于 3D 脑图像的深度学习分割算法的局限性为目的,将 2D 模型和 3D 模型相结合的基于深度学习的脑图像分割算法逐渐成为研究热点。
Wang 等[16]提出一种多视角融合方法,即将三个正交的 2D 脑图像输入到深度学习模型中,通过投票策略决定正交点的标签,从而达到 2D 模型分割 3D 脑图像的目的,实验证明,这种多视角融合方法,不仅能够大大减少 3D 脑图像内存的需求,还能提高基于深度学习的脑图像分割模型的性能。Mlynarski 等[17]提出将 2D 深度学习分割模型学习到的特征与原始脑图像信息一起输入到 3D 深度学习分割模型中,这样 3D 深度学习分割模型不仅输入了原始脑图像的信息,还输入了 2D 深度学习分割模型提取的某一平面内大范围的特征值,因此可以明显加大 3D 深度学习模型的感受野。该方法在 2017 年 BraTS 挑战赛中取得了不错的成绩,在增强肿瘤、整个肿瘤和肿瘤核心的平均 dice 分数分别为 0.854、0.918、0.883。
脑图像标记数据的稀缺、高度类不均衡和 3D 脑图像的高内存需求是限制基于深度学习的脑图像分割算法性能的三个主要问题,因此很多研究人员针对这三个主要问题提出了有效的处理手段和算法以提高分割算法的性能。但是,解决这三个主要的脑图像问题并不是提高基于深度学习的脑图像分割算法性能的唯一方式,还有很多研究人员专注在深度学习模型上的创新以提高脑图像分割算法的性能,因此下面两节将介绍专注于深度学习算法上的创新的脑图像分割算法。
2 先验知识引导的脑图像分割算法
人可以凭借以前所学的知识在遭遇类似事件时作出恰当的反应,那么将脑图像分割的先验知识应用到以神经网络为基础的深度学习模型中,是否能够提高基于深度学习的脑图像分割算法的效率和准确性呢?在此思想的指导下,先验知识引导的基于深度学习的脑图像分割算法成为又一研究热点。
Wang 等[18]提出了一种交互式网络模型,称为基于边界框和特定图像的微调分割交互模型(bounding box and image-specific fine-tuning-based segmentation,BIFSeg)。该模型先预训练一个 FCN,然后将预训练网络的输出结果与原始图像信息和用户给与的交互信息重新输入到预训练模型中,结构如图 2 所示。根据实验,BIFSeg 与传统的深度学习模型候选压缩网络(proposal compression network,PC-Net)相比,可以将整个肿瘤和肿瘤核心的分割 dice 系数指标分别从 83.52% 提高到 86.29%、从 82.66% 提高到 86.13%,与其他常用的交互式算法,如测地线图像分割(geodesic image segmentation,GeoS)算法、基于迭代图割的交互式前景提取(interactive foreground extraction using iterated graph cuts,GrowCut)算法相比,能获得相似的 dice 分数,但是 BIFSeg 所用时间明显缩短,分割一张 3D 脑图像中的整个肿瘤和肿瘤核心平均用时为 68 s 和 82.3 s,可见该基于深度学习的脑图像分割算法可以在用时较少的情况下获得更高的分割精度和鲁棒性。

另一种利用脑图像先验知识的角度是利用脑组织结构间的约束,以减少脑图像的错误分割。Wang 等[16]提出了一种新颖的用于脑图像分割的级联结构,该级联结构将多类别分割任务分解为 3 个二值分割任务:子网络 1 分割整个肿瘤区域,得到肿瘤区域的边界框;然后将此区域内的信息作为子网络 2 的输入,以分割肿瘤核心区;最后子网络 3 根据子网络 2 的输出,来分割增强肿瘤,整个分割任务的结构如图 3 所示。与使用复杂的网络直接对多类肿瘤子区域分割相比,使用 3 个结构相似的二值分割子网络不仅利用了先验知识、减少了错误分割,而且更容易训练,可以减少过拟合。在 BraTS 2017 测试集上,该算法在增强肿瘤、完整肿瘤和肿瘤核心的平均 dice 分数分别为 0.783 1、0.873 9、0.774 8,但是不能端到端训练是该算法的一个缺点。Zhou 等[19]也提出了类似想法,不同之处在于,3 个子网络依次通过粗分割定位整个肿瘤区域、精细分割整个肿瘤区域和精确分割增强肿瘤,因此 3 个子网络的分类层通道数分别为 5、5、2,而不都是 2。另外,该算法的 3 个子网络结构几乎一样,因此,采用了一遍多任务网络(one-pass multi-task network,OM-Net),即将 3 个子网络合并到一个可以端到端训练的整体网络中,这样可以节省大量参数。在 BraTS 2018 测试集上,该方法在增强肿瘤、整个肿瘤和肿瘤核心的平均 dice 分数分别为 0.777 5、0.884 2、0.796 0,获得 2018 年 BraTS 挑战赛的第三名。

Kao 等[20]提出将脑部病变的先验知识与经典的 3D “U”型网络(u-shaped network,U-net)模型相结合的算法应用到脑图像分割上,该算法需先构造出不同类别的脑部病变的热图,再根据热图创建兴趣区域(volume-of-interest,VOI)图,最后将 VOI 图和 MRI 图像一起输入到 3D U-net 中。在实验中训练了两个相同的 3D U-net,一个输入包含 VOI 图,另一个输入不包含 VOI 图。用 BraTS 2017 验证集评估这两个脑图像分割网络的性能。定量结果显示,使用 VOI 图的网络在分割增强肿瘤时,dice 相似系数提高 3.5%。另外,性能较差的基线模型,在输入 VOI 图后,获得了能与最先进的脑图像分割算法相媲美的性能。可见先验知识对基于深度学习的脑图像分割算法的性能提高具有重要意义。
3 基于通用深度学习模型的脑图像分割算法
不同领域的图像具有不同的特点,但是不同领域的图像分割的目的是相同的,就是将图像中的像素进行分类,因此不同领域的图像分割技术可互相借鉴。于是,很多研究人员会从其他领域的分割或者分类模型中寻找灵感,来改进脑图像分割算法。本节将主要介绍深度学习模型中具有很好泛化能力的较为通用的模型在脑图像分割上的应用。
3.1 编码-解码网络结构
U-net 是最为经典的编码-解码网络结构,如图 4 所示[21],U-net 可以实现端到端的训练,依靠数据增强,只需要较少的训练样本,就可获得理想的效果。U-net 的产生极大促进了包括脑图像在内的医学图像分割算法的发展。

Kayalibay 等[22]提出在 U-net 的编码路径上用残差块代替两次普通的卷积,并在解码路径的不同层次上分别输出脑图像分割图,低层次分割图经过上采样与高一级的分割图元素相加,形成一种多尺度融合结构。这种多尺度融合结构具有深度监督的作用,能够加快网络收敛。Ibtehaz 等[9]参加 BraTS 2017 挑战赛时,使用的脑图像分割模型与 Kayalibay 等[22]提出的网络结构类似,最终整个肿瘤、肿瘤核心和增强肿瘤的分割 dice 系数指标分别为 85.8%、77.5% 和 64.7%,这证实了残差块的使用和多尺度融合的结构能有效提高脑图像分割算法的性能。McKinley 等[23]提出将密集连接卷积神经网络与 U-net 相结合进行脑图像分割,即用带有扩张卷积(dilated convolution)的密集块(dense block)代替 U-net 中普通的卷积。该脑图像分割算法在 BraTS 2018 挑战赛中获得了第三名。Myronenko 等[11]提出的脑图像分割算法是在编码路径端点添加一个额外的类似自动编码器结构的分支来重构原始图像,使用自动编码器分支的目的是向编码路径添加额外的指导和正则化。该方法在 BraTS 2018 测试数据集中的增强肿瘤、整个肿瘤和肿瘤核心的 dice 系数指标分别为 76.64%、88.39% 和 81.54%,获得了该挑战赛的第一名。
有些研究人员没有把关注点放在改进编码-解码网络结构上,而是研究更加通用的提高脑图像分割模型性能的方法。在 Kayalibay 等[22]提出的基于 U-net 的脑图像分割算法的文章中,包含大量的消融实验,如探究杰卡德(Jaccard)损失函数与交叉熵损失函数的优劣、跳跃连接的有无和不同方式的影响、多尺度输出的影响和不同模态及其不同组合的影响的实验,最后确定使用编码-解码网络结构的脑图像分割模型的最优结构及参数。Isensee 等[24]提出一种非新网络(no new-net),该算法关注的是训练过程,即如何对数据的初始化、数据增强和后处理进行优化,另外还探究了不同损失函数的优劣,并对额外的公共数据集进行了训练。尽管该算法只使用了一个通用的 U-net 架构,但在 BraTS 2018 挑战赛中获得了第二名,这为研究人员提高基于深度学习的脑图像分割算法的性能提供了新思路。
3.2 多个神经网络结构的级联或集成
编码-解码网络结构是单个网络结构,而加深网络深度,使网络变得更加复杂通常可以提高网络性能。因此从提高脑图像分割算法的精度的角度上,许多研究人员开展了多个神经网络结构级联或集成的模型在脑图像分割上的应用研究。
Liu 等[25]提出的脑图像分割模型中,包括 3 个子网络:子网络 1 和子网络 2 输入的是脑图像的局部信息,2 个子网络的区别在于卷积核的大小不同;子网络 3 输入的是经过下采样的脑图像的全部信息。3 个子网络输出大小相同的特征图,最后将所有特征图相接输入最后的体素级分类层。实验结果证明,从卷积核大小不同和多尺度的子网络中获得的混合特征可为脑图像体素的精确分类提供有效信息。Havaei 等[10]提出类似的脑图像分割算法,构建一个双网络结构,2 个网络分别被称为局部网络和全局网络。与 Liu 等[25]算法的不同之处在于,此脑图像分割算法没有将 2 个子网络输出的特征图直接连接在一起而是将第一个网络输出的概率图作为第二个网络的额外输入,实现了局部信息和全局信息的互相补充。该方法在 BraTS 2013 测试数据集中的增强肿瘤、整个肿瘤和肿瘤核心的 dice 系数指标分别为 73%、88% 和 79%。Hussain 等[14]也提出过类似的脑图像分割算法,证明了这种多个子网络级联的深度学习模型在脑图像分割领域的流行。有些研究人员还提出了一种迭代的想法,即将脑图像分割模型的输出与原始图像信息一起重新输入到新的相同的脑图像分割模型中,以达到细化分割结果的目的,其迭代次数由实验决定,如在 Chen 等[26]提出的体素残差网络(voxelwise residual network,VoxResNet)算法即迭代了一次,该算法在所使用的脑图像数据集中的灰质、白质和脑脊液的 dice 系数指标分别为 86.15%、89.46% 和 84.25%。
Kamnitsas 等[27]提出网络的结构和设置的参数会对深度学习模型的性能产生很大的影响,单一的网络结构很可能对特定的数据集产生过拟合,因此他们采用多个神经网络结构集成的算法进行脑图像分割,即对来自不同网络结构的预测结果采用投票策略决定最后的结果。该脑图像分割集成算法中包括 2 个深度医疗(deepmedic)模型、3 个 3D FCN 和 2 个 3D U-net,这些网络结构以不同的方式进行配置和训练。实验证明,多模型和结构集成模型(ensembles of multiple models and architectures,EMMA)是一种公正、通用的深度学习算法,在 BraTS 2017 比赛中,该算法获得 50 多支参赛队伍中的第一名。Iqbal 等[28]也提出了类似的算法,该算法对 FCN 和 LSTM 的输出结果进行投票,以确定最后的结果。实验证明,与单个网络结构算法相比较,多个神经网络结构集成的算法能将脑图像各个区域的分割 dice 系数指标提高 2% 左右。
3.3 深度学习模型与其他经典算法的结合
自从用于语义分割的 FCN 被提出以来[29],在语义分割领域,以 FCN 为基础的深度学习算法就蓬勃发展起来了。脑图像分割领域也不例外,近三年国际医学图像计算和计算机辅助干预协会(Medical Image Computing and Computer Assisted Intervention Society,MICCAI)组织的脑瘤分割挑战赛中的第一名都是深度学习模型[7],但是经典的算法也在不断发展。因此将基于深度学习的分割算法与其他经典的算法相结合成为脑图像分割算法的又一研究方向。
Kamnitsas 等[30]首次提出将 3D 全连接条件随机场(conditional random field,CRF)应用到脑图像分割中,该算法将 3D CRF 作为一种后处理方式,来改善卷积神经网络的输出,实验证明 3D CRF 的应用能将深度学习模型的各项指标平均提高 1%。但 CRF 是不可训练的,因此整个模型不可端到端训练。Zhao 等[31]提出将 CRF 改造成可训练的结构并与 FCN 相结合应用到脑图像分割上,从而解决了不能端到端训练的问题。该方法在 BraTS 2013 测试数据集中的增强肿瘤、整个肿瘤和肿瘤核心的 dice 系数指标分别为 73%、85% 和 80%。受对抗网络(adversarial networks,AN)的启发,Xue 等[32]提出将 FCN 和 AN 结合起来应用到脑图像分割上。FCN 通过最小化最小绝对值偏差(least absolute deviations,LAD)进行训练,而 AN 通过最大化 LAD 进行训练,于是 FCN 和 AN 就在这种最小-最大博弈中以交替的方式进行训练,该方法在 BraTS 2015 测试数据集中的增强肿瘤、整个肿瘤和肿瘤核心的 dice 系数指标分别为 66%、85% 和 70%,该方法的缺点是对尺寸较小的脑部病变不敏感,且当脑部病变类别较多时,模型内存需求很高。
Soltaninejad 等[33]提出将 RF 与 FCN 相结合应用到脑图像分割上,该算法将 FCN 输出的特征图和手工特征图一起输入到最先进的 RF 模型中进行脑图像分割,该方法在 BraTS 2013 测试数据集中的增强肿瘤、整个肿瘤和肿瘤核心的 dice 系数指标分别为 73%、88% 和 80%。该方法认为 RF 能弥补卷积神经网络不能联系大范围上下文的缺点。Li 等[34]将 FCN 与地图集相结合应用到脑图像分割上,该算法是先用地图集算法对脑图像进行粗分割,再用 FCN 对脑图像进行细分割,该方法在所使用的数据集中的白质、灰质和脑脊液的平均 dice 系数指标分别为 89.8%、91.4% 和 95.8%。Sharma 等[35]提出了将 k-means 算法和人工神经网络相结合(k-means and artificial neural network,KMANN)应用到脑图像分割上。结果证明该方法性能要远好于传统的 k-means 算法和单个神经网络。另外研究人员还探究了人工神经网络(artificial neural network,ANN)与 SVM 相结合[36]和 ANN 与主成分分析相结合[37]等在脑图像分割上的应用,但性能普遍不及先进的只含有神经网络的深度学习模型。
4 总结及展望
本综述主要总结了近年来有代表性的基于深度学习的脑图像分割算法,针对脑图像存在的问题的基于深度学习的脑图像分割算法、先验知识引导的基于深度学习的脑图像分割算法和基于通用深度学习模型的脑图像分割算法三个方面进行综述总结,如图 5 所示。

针对脑图像存在的问题的基于深度学习的脑图像分割算法具有针对性,能够为开发出可用于实际的脑图像分割工具打下良好的基础;由于脑图像分割的专业性,如何将先验知识引入到脑图像分割算法中一直是脑图像分割领域研究的热点,实验证明,先验知识引导的脑图像分割算法确实可以提高脑图像分割模型的效率和性能;基于通用深度学习模型的脑图像分割算法证明了各个领域分割技术的通用性,也鼓励广大的研究人员互相交流,彼此借鉴,在各自的领域上共同进步。
综上可以看出,未来的基于深度学习的脑图像分割算法或将有以下三个发展方向:
(1)由基于有监督学习的脑图像分割算法向基于无监督学习或半监督学习的脑图像分割算法发展。比如探究如何将经典的无监督深度学习算法,如生成式对抗网络(generative adversarial networks,GAN)和自编码器(auto encoder)神经网络应用到脑图像分割上,以及将有监督的深度学习模型与聚类算法、RF 或者 SVM 这种经典的分类算法相结合,以达到在保证分割算法准确性的前提下,减少甚至不使用脑图像数据的目的。脑图像标记数据的稀缺性限制了有监督模型的性能,而无监督模型可以突破这一限制,从理论上无监督学习更适合脑图像的分割,因此基于无监督学习的脑图像分割算法是很有潜力的。
(2)进一步发展先验知识引导的基于深度学习的脑图像分割算法。比如在后处理阶段中,用先验知识对深度学习模型的分割结果进行优化,例如肿瘤核心区域应该在整个肿瘤的内部,但是分割结果却在整个肿瘤的外部,通过先验知识可知,这个分割结果是有问题的,那么如何通过先验知识处理这个问题,进而提升整个基于深度学习的脑图像分割算法的性能是值得研究的方向。
(3)继续研究适合脑图像分割的通用深度学习模型。一方面积极探究其他领域中先进的分割甚至分类算法应用在脑图像分割上的可能性和效果,另一方面可以对经典的泛化效果好的深度学习模型进行深入探究,如可视化深度学习模型中的某些网络层,观察这些网络层提取了哪些特征、这些特征有什么作用,进而更好地改进这些深度学习模型以适应脑图像的分割。
利益冲突声明:本文全体作者均声明不存在利益冲突。