计算机断层成像(CT)是肺腺癌诊断与评估的重要工具,利用CT图像预测肺腺癌患者手术后的无复发生存期(RFS)对于术后治疗方案的制定具有重要意义。针对CT图像的肺腺癌RFS精准预测难题,本文提出了一种基于自监督预训练和多任务学习的肺腺癌RFS预测方法。采用“图像变换—图像恢复”的自监督学习策略,在公开肺部CT数据集上对3D-UNet网络进行自监督预训练解析肺部图像的通用视觉特征,通过分割与分类的多任务学习策略进一步优化网络特征提取能力,引导网络提取与RFS相关的图像特征,同时设计多尺度特征聚合模块以充分聚合多尺度的图像特征,最后借助前馈神经网络预测肺腺癌RFS风险评分。通过十折交叉验证评估所提方法的预测性能。结果显示,所提方法预测RFS的一致性指数(C-index)与预测三年内是否复发的曲线下面积(AUC)分别达到0.691 ± 0.076与0.707 ± 0.082,预测性能优于现有方法。综上,本研究所提方法在肺腺癌患者RFS预测方面表现出潜在的优越性,有望为个体化治疗方案的制定提供可靠依据。
引用本文: 胡伦瑜, 夏威, 李琼, 高欣. 基于自监督预训练和多任务学习的肺腺癌无复发生存期预测. 生物医学工程学杂志, 2024, 41(2): 205-212. doi: 10.7507/1001-5515.202309060 复制
0 引言
肺癌是我国发病数最高的恶性肿瘤[1],其中,肺腺癌是肺癌中最常见的组织学类型,占40%~45%[2]。手术切除是肺腺癌首选的治疗手段,但术后复发风险较高[3]。肺腺癌患者术后无复发生存期(recurrence-free survival,RFS)的精准预测,可为临床制定个体化术后随访与治疗方案提供重要依据[4],提高患者生存率。
计算机断层扫描(computed tomography,CT)是肺腺癌诊断与评估的重要工具,包含了关联RFS的影像特征[5]。Xie等[6]利用影像组学方法,从CT图像的肿瘤区域提取一阶统计特征、形状特征、纹理特征构建了肺腺癌RFS预测模型。然而,影像组学特征提取依赖于肿瘤区域的人工精细勾画[6-9],这不仅费时费力且可重复性不高,不利于成果的临床推广应用;此外,影像组学方法依赖手工设计的特征,特征提取挖掘的信息有限[10],难以实现RFS的精准预测。
与影像组学相比,深度学习方法无需勾画肿瘤区域,利用神经网络从影像数据中自动提取针对特定任务的深层图像特征,减少人工干预的同时,可提升模型准确度[11-13]。深度学习方法通常采用端到端的模型训练策略,但RFS属于生存类数据[14],存在较多的删失(患者随访期内未复发或失访),致使有确切生存时间的样本较少,难以为端到端的模型训练提供充足的数据支撑。部分研究将RFS预测简化为分类任务[15-17],但这种策略仅能二分类预测患者在某一时间点内是否复发,所建模型的临床价值极为有限。为了解决这一问题,研究者们先采用预训练的神经网络模型提取图像特征,然后借助可利用删失数据的Cox比例风险(Cox proportional hazard,CPH)模型[18]预测RFS。在基于神经网络预训练的图像特征提取方面,Baek等[19]利用肿瘤分割任务对UNet网络进行预训练,然后提取网络瓶颈层中的图像特征,然而仅基于分割任务的预训练会使网络过度关注肿瘤边界信息,忽略包含潜在生存预测信息的瘤内与瘤周区域;Liu等[20]利用二维(two-dimensional,2D)自然图像数据集ImageNet对VGG-19网络进行预训练,然后提取CT图像切片中的图像特征,但自然图像与CT图像具有明显差异,预训练模型既无法理解肿瘤解剖结构,也无法挖掘肿瘤整体的三维(three-dimensional,3D)图像特征[21]。此外,CPH模型属于广义线性模型,仅能对输入特征进行线性组合,无法拟合CT图像特征与RFS间可能存在的复杂非线性关系,导致其预测准确度受限。
针对现有研究的不足,本文提出一种基于自监督预训练和多任务学习的肺腺癌RFS预测方法。首先,将3D-UNet作为骨干网络,利用公开的肺部CT数据集进行自监督预训练,使网络充分理解肺部CT图像中肿瘤3D解剖结构;利用分割与分类结合的多任务学习策略优化网络的特征提取能力:肿瘤分割任务使网络有效关注肿瘤区域,并利用包含肿瘤和瘤周的全局图像预测与RFS相关的肿瘤病理高低危类别,引导网络提取与RFS相关的全局图像特征;然后,设计多尺度特征聚合模块充分聚合来自不同网络层的图像特征;最后,基于CPH模型和前馈神经网络,设计了一种具有非线性拟合能力的RFS预测网络,以聚合特征为输入预测RFS的风险评分。
1 数据与预处理
1.1 数据来源
本文收集了2010年至2018年间在中山大学肿瘤防治中心(中心1)以及中山大学附属第一医院(中心2)接受手术切除的924名T0-1期肺腺癌患者数据,其中773例患者来自中心1,151例患者来自中心2。每例患者的数据包括术前肺部CT图像与随访信息。术前肺部CT图像层厚为0.70~1.50 mm;通过门诊记录和电话访谈进行随访,收集患者RFS与复发状态。在患者术后两年内每三个月进行一次随访,之后每年进行一次随访。对于在随访期间发生复发转移的患者,其RFS定义为发生复发转移的日期与手术日期之间的时间间隔;对于信息删失的患者,其RFS为最后一次随访的日期与手术日期之间的时间间隔。中心1患者的RFS范围为69~3 547天(中位时间为1 869天),复发人数为143人(18.5%);中心2患者的RFS范围为403~3 583天(中位时间为1 583天),复发人数为43人(28.5%)。为了获得CT影像中肿瘤区域的标注模板,首先采用深度学习分割模型nnUNet[22]对肿瘤进行自动的粗分割,再由具有14年经验的放射科医生使用MITK 2022.04软件修正自动分割结果。此外,根据患者术后或术中冷冻切片的病理评估结果确定肿瘤病理高低危分组:将预后较好[23]的非典型腺瘤性增生、原位腺癌、微浸润性腺癌与贴壁型为主的浸润性腺癌划分为低危组,将其他类型划分为高危组。
本文使用十折交叉验证对所提方法进行评估。将整体数据集平均划分为十组,在每次验证中,使用其中的九组作为训练集,剩余一组作为测试集,如此循环十次保证所有患者数据都经过独立测试,最终报道测试的平均结果。
1.2 数据预处理
首先,为了解决不同CT图像间的各向异性问题,利用线性插值将图像的体素尺寸统一重采样为1 mm × 1 mm × 1 mm。然后,为了降低骨骼、胸壁的干扰以及提高图像的对比度,对图像强度值进行窗宽窗位调整,将强度值裁剪至[−1 024, 400]。为了提高模型稳定性和加快训练收敛速度,通过线性归一化操作将图像强度值归一化至[0, 1]。最后,从每一例CT图像中基于肿瘤标注模板计算的肿瘤中心点裁剪32 × 32 × 32的图像块作为网络的输入。
2 方法
本文提出的肺腺癌RFS预测方法整体框架与网络结构如图1所示。图像输入经自监督预训练的3D-UNet骨干网络后,在网络的分类和分割端分别输出病理分类和肿瘤分割结果实现多任务学习,从而提取与RFS相关的图像特征。将来自网络不同层次的图像特征通过多尺度特征聚合模块进行聚合,然后输入RFS预测网络以输出最终的复发风险评分。

2.1 自监督预训练
自监督预训练可以通过设定合理的学习目标,有效地利用大量无标注数据训练网络,使网络学习数据中与特定任务通用的特征信息,从而提升下游任务收益[24]。针对图像类数据,“模型起源”(models genesis,MG)方法[25]采取了“图像变换—图像恢复”的自监督学习思路,将无标注的3D图像本身作为标签,训练3D-UNet网络恢复经过复杂变换的图像,从中学习到图像通用的视觉特征信息。因此,本文利用MG方法在公开肺部数据集上对3D-UNet网络进行自监督预训练,通过肺部CT图像的恢复任务,使网络解析肺部CT图像中常见的解剖结构,从而提升网络对肺部图像的特征提取能力,作为本文后续RFS精准预测的基础。
自监督预训练具体流程图见附件1。首先,在每一例预处理后的完整肺部CT图像中,随机裁剪32个能够反映肺部解剖结构信息的(包含肺组织并且不包含空气)、尺寸为32 × 32 × 32的图像块作为原始图像块。每一个原始图像块x经过一系列图像变换操作得到变换图像块 ,再利用图像恢复网络对其恢复得到恢复图像块
。利用量化恢复图像块
与原始图像块x差异的损失函数
训练网络,使之具备将变换后图像块
恢复为原始图像块x的能力。
图像变换部分共包含四种操作:强度值非线性变换、局部像素重排、内部掩码变换、外部掩码变换。对每一个输入图像块采用随机的不同变换方式组合得到更加多样的变换,增加网络恢复图像的难度,使网络从图像的外观、纹理、上下文等多个角度得到训练,进而学习全面的肺部解剖结构特征。各项变换操作的具体细节见附件2。
图像恢复部分采用3D-UNet网络对经过复杂变换的图像进行恢复。训练中通过优化损失函数使网络获得图像恢复能力,由于均方误差(mean squared error,MSE)损失的计算量小,适用于大型数据集的训练,因此本文以MSE损失作为图像恢复任务的损失函数,计算过程如下:
![]() |
其中,为图像块中的体素数量,
为体素的真实强度值,
为对应的体素经网络所恢复出的强度值。
为了保证网络从自监督学习中获得的特征提取能力的泛化性,本文自监督预训练在肺结节检测竞赛(Lung Nodule Analysis 2016,LUNA16)公开数据集[26]上进行。LUNA16数据集共纳入888例图像层厚为0.60~2.50 mm的肺部CT图像,并划分出了若干子集,本文将其中0~4号子集作为预训练的训练集,将5~6号子集作为验证集。
2.2 分割与分类多任务学习
将自监督预训练后的3D-UNet作为骨干网络进行分割和分类的多任务学习,进一步优化网络对肺部图像的特征提取能力:肿瘤分割任务使网络有效关注肿瘤区域,降低骨骼及肺部其他组织的干扰;与RFS高度相关的肿瘤高低危分类[23]任务引导网络挖掘与RFS相关的图像特征。
图像输入骨干网络后,分别在分割端与分类端输出肿瘤分割与病理分类的结果,具体网络结构如图1所示。骨干网络由编码、解码部分组成。编码部分包含四个卷积块(卷积块1~4),其输出通道数由64逐步翻倍至512,块之间连接2 × 2 × 2步长为2的最大池化层以进行特征图下采样,每个块内包括两个3 × 3 × 3卷积,每个卷积后连接批归一化层(batch normalization,BN)以及ReLU激活层。Baek等[19]的研究证明,预训练后的3D-UNet网络瓶颈层(卷积块4)汇聚了丰富的生存信息,因此该研究使用了瓶颈层的图像特征进行后续的生存期预测。然而,网络瓶颈层的图像特征属于深层特征,虽然包含充分的全局信息并具有较强的语义表达能力,但分辨率较低,对肺部空间几何细节信息的表征较弱;而网络编码部分的浅层网络层的图像特征虽然感受野较小,但其分辨率较高,几何细节信息表征能力强。为了充分利用网络中不同层次的图像特征,本文提出多尺度特征聚合模块,将来自瓶颈层与编码部分三个浅层卷积块(卷积块1~3)的图像特征聚合后再进行病理高低危分类以及后续的RFS预测。由于该模块与编码部分相连,额外的复杂卷积设计不仅会影响骨干网络从自监督预训练中获得的学习能力,还会增加过拟合风险,因此本文对该模块进行轻量化设计,模块仅由三个全局平均池化层组成,其结构如图1所示。首先对于编码部分不同层次的每一个卷积块,将其长、宽、高、通道数分别为w、h、l、n的特征图 通过全局平均池化(global average pooling,GAP)压缩至长度为n的一维特征映射
,具体计算过程如下:
![]() |
然后将各层特征图的一维特征映射进行串联拼接,并通过两个维度分别为1 024和1的全连接层与Sigmoid激活层,在分类端输出患者为病理高危的预测概率。网络的解码部分包含三个与编码部分相同结构的卷积块(卷积块5~7),输出通道数由512逐步减半至64。每个卷积块之前,特征图由2 × 2 × 2步长为2的反卷积进行上采样,然后与编码部分中尺寸相同的对应层特征图进行通道拼接,最终通过1 × 1 × 1卷积与Sigmoid激活层在分割端输出肿瘤分割结果。
本文多任务学习的损失函数由分割任务损失、分类任务损失两部分构成。首先,利用Dice Loss作为分割任务的损失函数,具体计算过程如下:
![]() |
其中是网络预测分割结果,
是标准分割结果。其次,在分类任务中,由于一般的二分类交叉熵损失函数难以克服本文不同类间样本数量严重不均衡及易学习样本占比过大的问题,本文利用Focal Loss[27]作为损失函数进行优化,计算过程如下:
![]() |
其中是平衡正负样本占比的权重因子,正样本的权重为
,负样本的权重为
;
是聚焦因子,用以降低易学习样本的损失贡献,增加难学习样本的损失比例;
是网络预测当前样本为正样本的概率,范围在0~1之间。因此综上,本文多任务学习的损失函数为:
![]() |
2.3 基于特征非线性拟合的RFS预测
RFS预测属于生存分析任务,RFS是生存数据,存在数据删失情况,需要同时考虑复发状态以及复发时间,因此传统回归方法无法对RFS进行预测。现有研究常使用CPH模型进行生存分析,然而真实的医学数据通常难以满足CPH模型对特征的线性比例假设,这会导致其预测准确性和泛化性较差,因此本文基于前馈神经网络构建具有非线性拟合能力的RFS预测网络以提高RFS预测性能。网络以聚合特征作为输入,通过各神经元节点的权重和ReLU激活层确定输入特征与输出复发风险之间的复杂非线性关系,具体结构如图1所示。网络由若干隐层组成,每个隐层首先包含一个全连接层,后接丢弃层(Dropout)减少神经元个数避免过拟合。通过网格超参搜索法确定网络最终由四个隐层组成,神经元节点数分别为32、8、8、1。
RFS预测网络训练所用损失函数由两部分组成。首先,使用负对数平均似然函数[28] 作为损失的主要部分,其计算过程如下:
![]() |
其中 为网络输出的复发风险评分,
为在时间点
内发生复发转移的患者数量,
表示在时间点
尚未发生复发转移的患者的集合。为了控制网络复杂度,防止过拟合,增加
正则化惩罚项:
![]() |
其中 是正则化系数,
是网络权重。综上,进行RFS预测时网络所用损失函数为:
![]() |
3 实验结果与分析
3.1 评价指标
本文采用一致性指数(concordance index,C-index)评价RFS预测性能,其数值越大代表预测越准确。部分算法仅能对患者是否在某一时间点内复发进行二分类预测,如预测三年RFS(即预测患者在三年内是否复发)。为了对比,本文也利用所提方法预测三年RFS,并使用受试者工作特征曲线(receiver operating characteristic curve,ROC)下的面积(area under curve,AUC)作为评估指标。
3.2 实验环境与设置
本文在Ubuntu 20.05(Canonical Inc.,美国)操作系统的深度学习框架PyTorch 1.10(Facebook Inc.,美国)上进行深度神经网络的训练,计算机具体配置为:显卡(NVIDIA GeForce RTX 3090 Ti,Nvidia Inc.,美国)、中央处理器器(Intel Xeon Silver 4210 CPU,Inter Inc.,美国)。自监督预训练、多任务学习与RFS预测训练环节中的具体超参设置见附件3。
3.3 对比实验结果
为了验证所提方法的性能,本文将所提方法与基于影像组学的Xie等[6]和基于深度学习的Hosny等[15]、Liu等[20]现有肺腺癌RFS预测方法进行了对比,预测性能见表1。所提方法的各项指标在十折交叉实验中取得最优结果:C-index比Xie等[6]的方法提高了0.048,比Liu等[20]的方法提高了0.029;AUC比Hosny等[15]的方法提高了0.048,比Xie等[6]的方法提高了0.045,比Liu等[20]的方法提高了0.024。具体而言,Hosny等[15]的方法仅能对固定时间点的RFS进行预测,临床应用价值有限,且该方法的AUC结果最低,说明端到端的CNN模型在预测RFS时表现较差。Xie等[6]方法的AUC结果超过上述深度学习方法,证明影像组学方法在肺腺癌RFS预测任务上具有较好的表现,但由于影像组学特征局限于人工勾画的肿瘤区域,且特征由固定公式计算,忽略了瘤周区域的预测信息,再加上CPH模型无法拟合特征的非线性关系,因此该方法的RFS预测性能仍然有限。Liu等[20]的深度学习方法可实现完整的RFS预测,且C-index与AUC结果皆超过上述方法,说明深度神经网络可以通过在2D自然图像数据集上的预训练来获得一定的特征提取能力,但由于2D自然图像数据与3D CT图像存在区别,提取的特征用以预测RFS性能依旧受限。本研究所提方法通过一系列定制的学习任务有针对性地提高了网络特征提取能力,并通过前馈神经网络拟合RFS与特征间的非线性关系,从而克服了上述方法的缺陷,实现了最优的RFS预测性能。

3.4 消融实验结果
为了验证所提方法中各策略与模块的有效性,基于所提完整方法分别构建去除多任务学习(方法1)、去除自监督预训练(方法2)、去除多尺度特征聚合(方法3)、以“CPH模型”代替RFS预测网络(方法4)的四种方法进行消融实验,各方法预测RFS的结果如表2所示。由结果可见,任一策略与模块的缺失都导致了预测性能的下降,这证明了其有效性,它们协同工作可提高RFS预测性能。

方法1与所提方法的性能差距最为明显,表明多任务学习对性能提升的贡献程度最高。为了进一步验证多任务学习的有效性,本文实现了仅基于肿瘤高低危分类任务引导的RFS预测方法(方法5)。方法5的C-index为0.679 ± 0.078、AUC为0.696 ± 0.085,预测性能低于所提方法,说明相较于分类单任务,分割与分类多任务学习可令网络更有效地挖掘与RFS相关的特征信息,提高后续RFS预测性能。
3.5 可视化分析
为了进一步展现所提方法的可解释性,本文使用Grad-CAM方法[29]生成类激活图(见图2),视觉强化患者CT图像中与复发相关的重要区域。图中2a和2b行分别是随机选取的一例RFS小于一年的术后早期复发患者和一例随访期大于五年且在随访期间未复发患者的图像,各行的第一、二列分别为原始输入图像和手工标注的肿瘤区域图像,第三、四列分别为骨干网络浅网络层(卷积块1)和深网络层(瓶颈层)输出的类激活图,类激活图中越接近于红色的高亮表示该区域对网络分类决策的贡献越大,白色箭头指向胸膜牵拉区域,黄色箭头指向肿瘤的毛刺,黑色箭头指向肿瘤分叶处。

a. 术后早期复发患者;b. 术后无复发患者
Figure2. Images of two patients with different recurrence statusa. patient with early postoperative recurrence; b. patient with no postoperative recurrence
在术后早期复发患者的图像中,肿瘤表现为实性并且伴有毛刺、分叶征以及胸膜牵拉等在早期研究中已被证实与高复发风险相关的征象[30]。在该患者浅网络层输出的类激活图中,高亮区域与肿瘤区域高度重合,表明网络经过分割任务的训练后能够精准识别并定位肿瘤区域,同时,部分高亮区域分布于肿瘤毛刺与胸膜牵拉区域。当网络层加深到达瓶颈层后肿瘤内部高亮区域大面积加深,进一步集中至毛刺与分叶处,表明网络能够重点关注与高复发风险相关的肿瘤征象信息,这与临床实践相符。在无复发患者的图像中,肿瘤表现为低风险的磨玻璃状,且虽然该肿瘤与胸膜存在连接,但磨玻璃状的肿瘤难以造成高危害的胸膜侵犯[31]。在该患者浅、深层网络输出的类激活图中,肿瘤边缘、内部和与胸膜连接处高亮的面积占比远小于术后早期复发患者的情况,说明网络从图像中获取的与高复发风险相关的信息少,这与该患者实际的良好术后情况相符。综上所述,所提方法的可视化结果直观地说明了该方法自动挖掘CT图像中与复发相关信息的过程具有高度的临床可解释性,对不同复发情况的患者具有良好的区分性能。
此外,由图2可知不同深度的网络层包含着不同类型的信息,相较于Baek等[19]仅利用单一的瓶颈层特征进行RFS预测,本文设计的多尺度特征聚合模块可充分聚合来自不同网络层的多尺度图像特征。并且,类激活图中肿瘤周边组织的高亮说明了瘤周区域同样蕴含预测信息,所提方法的图像输入方式可充分利用该部分信息,这也有助于预测性能的提高。
4 结论
本文提出了一种全新的肺腺癌RFS预测方法,结合自监督预训练与多任务学习策略深入挖掘与RFS相关的CT图像特征,再利用多尺度特征融合模块充分聚合多尺度的包含不同信息的图像特征,最后设计了一种具有非线性拟合能力的RFS预测网络,利用聚合特征完成RFS预测。本文通过消融实验证明了所提方法中各策略与模块的有效性,并通过与相关研究的对比实验证明了所提方法在预测准确性与泛化性方面超越了现有的肺腺癌RFS预测方法,有望为肺腺癌患者个体化治疗方案的制定提供有效依据,具有较高的临床应用价值。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突。
作者贡献声明:胡伦瑜负责本文算法程序设计、结果记录分析以及论文撰写;夏威负责实验指导、数据分析指导以及论文审阅修订;李琼负责本文工作的临床指导;高欣负责论文审阅修订与总体指导。
伦理声明:本研究通过了中山大学肿瘤防治中心伦理委员会的审批(批文编号:B2022-293-01)。
本文附件见本刊网站的电子版本(biomedeng.cn)。
0 引言
肺癌是我国发病数最高的恶性肿瘤[1],其中,肺腺癌是肺癌中最常见的组织学类型,占40%~45%[2]。手术切除是肺腺癌首选的治疗手段,但术后复发风险较高[3]。肺腺癌患者术后无复发生存期(recurrence-free survival,RFS)的精准预测,可为临床制定个体化术后随访与治疗方案提供重要依据[4],提高患者生存率。
计算机断层扫描(computed tomography,CT)是肺腺癌诊断与评估的重要工具,包含了关联RFS的影像特征[5]。Xie等[6]利用影像组学方法,从CT图像的肿瘤区域提取一阶统计特征、形状特征、纹理特征构建了肺腺癌RFS预测模型。然而,影像组学特征提取依赖于肿瘤区域的人工精细勾画[6-9],这不仅费时费力且可重复性不高,不利于成果的临床推广应用;此外,影像组学方法依赖手工设计的特征,特征提取挖掘的信息有限[10],难以实现RFS的精准预测。
与影像组学相比,深度学习方法无需勾画肿瘤区域,利用神经网络从影像数据中自动提取针对特定任务的深层图像特征,减少人工干预的同时,可提升模型准确度[11-13]。深度学习方法通常采用端到端的模型训练策略,但RFS属于生存类数据[14],存在较多的删失(患者随访期内未复发或失访),致使有确切生存时间的样本较少,难以为端到端的模型训练提供充足的数据支撑。部分研究将RFS预测简化为分类任务[15-17],但这种策略仅能二分类预测患者在某一时间点内是否复发,所建模型的临床价值极为有限。为了解决这一问题,研究者们先采用预训练的神经网络模型提取图像特征,然后借助可利用删失数据的Cox比例风险(Cox proportional hazard,CPH)模型[18]预测RFS。在基于神经网络预训练的图像特征提取方面,Baek等[19]利用肿瘤分割任务对UNet网络进行预训练,然后提取网络瓶颈层中的图像特征,然而仅基于分割任务的预训练会使网络过度关注肿瘤边界信息,忽略包含潜在生存预测信息的瘤内与瘤周区域;Liu等[20]利用二维(two-dimensional,2D)自然图像数据集ImageNet对VGG-19网络进行预训练,然后提取CT图像切片中的图像特征,但自然图像与CT图像具有明显差异,预训练模型既无法理解肿瘤解剖结构,也无法挖掘肿瘤整体的三维(three-dimensional,3D)图像特征[21]。此外,CPH模型属于广义线性模型,仅能对输入特征进行线性组合,无法拟合CT图像特征与RFS间可能存在的复杂非线性关系,导致其预测准确度受限。
针对现有研究的不足,本文提出一种基于自监督预训练和多任务学习的肺腺癌RFS预测方法。首先,将3D-UNet作为骨干网络,利用公开的肺部CT数据集进行自监督预训练,使网络充分理解肺部CT图像中肿瘤3D解剖结构;利用分割与分类结合的多任务学习策略优化网络的特征提取能力:肿瘤分割任务使网络有效关注肿瘤区域,并利用包含肿瘤和瘤周的全局图像预测与RFS相关的肿瘤病理高低危类别,引导网络提取与RFS相关的全局图像特征;然后,设计多尺度特征聚合模块充分聚合来自不同网络层的图像特征;最后,基于CPH模型和前馈神经网络,设计了一种具有非线性拟合能力的RFS预测网络,以聚合特征为输入预测RFS的风险评分。
1 数据与预处理
1.1 数据来源
本文收集了2010年至2018年间在中山大学肿瘤防治中心(中心1)以及中山大学附属第一医院(中心2)接受手术切除的924名T0-1期肺腺癌患者数据,其中773例患者来自中心1,151例患者来自中心2。每例患者的数据包括术前肺部CT图像与随访信息。术前肺部CT图像层厚为0.70~1.50 mm;通过门诊记录和电话访谈进行随访,收集患者RFS与复发状态。在患者术后两年内每三个月进行一次随访,之后每年进行一次随访。对于在随访期间发生复发转移的患者,其RFS定义为发生复发转移的日期与手术日期之间的时间间隔;对于信息删失的患者,其RFS为最后一次随访的日期与手术日期之间的时间间隔。中心1患者的RFS范围为69~3 547天(中位时间为1 869天),复发人数为143人(18.5%);中心2患者的RFS范围为403~3 583天(中位时间为1 583天),复发人数为43人(28.5%)。为了获得CT影像中肿瘤区域的标注模板,首先采用深度学习分割模型nnUNet[22]对肿瘤进行自动的粗分割,再由具有14年经验的放射科医生使用MITK 2022.04软件修正自动分割结果。此外,根据患者术后或术中冷冻切片的病理评估结果确定肿瘤病理高低危分组:将预后较好[23]的非典型腺瘤性增生、原位腺癌、微浸润性腺癌与贴壁型为主的浸润性腺癌划分为低危组,将其他类型划分为高危组。
本文使用十折交叉验证对所提方法进行评估。将整体数据集平均划分为十组,在每次验证中,使用其中的九组作为训练集,剩余一组作为测试集,如此循环十次保证所有患者数据都经过独立测试,最终报道测试的平均结果。
1.2 数据预处理
首先,为了解决不同CT图像间的各向异性问题,利用线性插值将图像的体素尺寸统一重采样为1 mm × 1 mm × 1 mm。然后,为了降低骨骼、胸壁的干扰以及提高图像的对比度,对图像强度值进行窗宽窗位调整,将强度值裁剪至[−1 024, 400]。为了提高模型稳定性和加快训练收敛速度,通过线性归一化操作将图像强度值归一化至[0, 1]。最后,从每一例CT图像中基于肿瘤标注模板计算的肿瘤中心点裁剪32 × 32 × 32的图像块作为网络的输入。
2 方法
本文提出的肺腺癌RFS预测方法整体框架与网络结构如图1所示。图像输入经自监督预训练的3D-UNet骨干网络后,在网络的分类和分割端分别输出病理分类和肿瘤分割结果实现多任务学习,从而提取与RFS相关的图像特征。将来自网络不同层次的图像特征通过多尺度特征聚合模块进行聚合,然后输入RFS预测网络以输出最终的复发风险评分。

2.1 自监督预训练
自监督预训练可以通过设定合理的学习目标,有效地利用大量无标注数据训练网络,使网络学习数据中与特定任务通用的特征信息,从而提升下游任务收益[24]。针对图像类数据,“模型起源”(models genesis,MG)方法[25]采取了“图像变换—图像恢复”的自监督学习思路,将无标注的3D图像本身作为标签,训练3D-UNet网络恢复经过复杂变换的图像,从中学习到图像通用的视觉特征信息。因此,本文利用MG方法在公开肺部数据集上对3D-UNet网络进行自监督预训练,通过肺部CT图像的恢复任务,使网络解析肺部CT图像中常见的解剖结构,从而提升网络对肺部图像的特征提取能力,作为本文后续RFS精准预测的基础。
自监督预训练具体流程图见附件1。首先,在每一例预处理后的完整肺部CT图像中,随机裁剪32个能够反映肺部解剖结构信息的(包含肺组织并且不包含空气)、尺寸为32 × 32 × 32的图像块作为原始图像块。每一个原始图像块x经过一系列图像变换操作得到变换图像块 ,再利用图像恢复网络对其恢复得到恢复图像块
。利用量化恢复图像块
与原始图像块x差异的损失函数
训练网络,使之具备将变换后图像块
恢复为原始图像块x的能力。
图像变换部分共包含四种操作:强度值非线性变换、局部像素重排、内部掩码变换、外部掩码变换。对每一个输入图像块采用随机的不同变换方式组合得到更加多样的变换,增加网络恢复图像的难度,使网络从图像的外观、纹理、上下文等多个角度得到训练,进而学习全面的肺部解剖结构特征。各项变换操作的具体细节见附件2。
图像恢复部分采用3D-UNet网络对经过复杂变换的图像进行恢复。训练中通过优化损失函数使网络获得图像恢复能力,由于均方误差(mean squared error,MSE)损失的计算量小,适用于大型数据集的训练,因此本文以MSE损失作为图像恢复任务的损失函数,计算过程如下:
![]() |
其中,为图像块中的体素数量,
为体素的真实强度值,
为对应的体素经网络所恢复出的强度值。
为了保证网络从自监督学习中获得的特征提取能力的泛化性,本文自监督预训练在肺结节检测竞赛(Lung Nodule Analysis 2016,LUNA16)公开数据集[26]上进行。LUNA16数据集共纳入888例图像层厚为0.60~2.50 mm的肺部CT图像,并划分出了若干子集,本文将其中0~4号子集作为预训练的训练集,将5~6号子集作为验证集。
2.2 分割与分类多任务学习
将自监督预训练后的3D-UNet作为骨干网络进行分割和分类的多任务学习,进一步优化网络对肺部图像的特征提取能力:肿瘤分割任务使网络有效关注肿瘤区域,降低骨骼及肺部其他组织的干扰;与RFS高度相关的肿瘤高低危分类[23]任务引导网络挖掘与RFS相关的图像特征。
图像输入骨干网络后,分别在分割端与分类端输出肿瘤分割与病理分类的结果,具体网络结构如图1所示。骨干网络由编码、解码部分组成。编码部分包含四个卷积块(卷积块1~4),其输出通道数由64逐步翻倍至512,块之间连接2 × 2 × 2步长为2的最大池化层以进行特征图下采样,每个块内包括两个3 × 3 × 3卷积,每个卷积后连接批归一化层(batch normalization,BN)以及ReLU激活层。Baek等[19]的研究证明,预训练后的3D-UNet网络瓶颈层(卷积块4)汇聚了丰富的生存信息,因此该研究使用了瓶颈层的图像特征进行后续的生存期预测。然而,网络瓶颈层的图像特征属于深层特征,虽然包含充分的全局信息并具有较强的语义表达能力,但分辨率较低,对肺部空间几何细节信息的表征较弱;而网络编码部分的浅层网络层的图像特征虽然感受野较小,但其分辨率较高,几何细节信息表征能力强。为了充分利用网络中不同层次的图像特征,本文提出多尺度特征聚合模块,将来自瓶颈层与编码部分三个浅层卷积块(卷积块1~3)的图像特征聚合后再进行病理高低危分类以及后续的RFS预测。由于该模块与编码部分相连,额外的复杂卷积设计不仅会影响骨干网络从自监督预训练中获得的学习能力,还会增加过拟合风险,因此本文对该模块进行轻量化设计,模块仅由三个全局平均池化层组成,其结构如图1所示。首先对于编码部分不同层次的每一个卷积块,将其长、宽、高、通道数分别为w、h、l、n的特征图 通过全局平均池化(global average pooling,GAP)压缩至长度为n的一维特征映射
,具体计算过程如下:
![]() |
然后将各层特征图的一维特征映射进行串联拼接,并通过两个维度分别为1 024和1的全连接层与Sigmoid激活层,在分类端输出患者为病理高危的预测概率。网络的解码部分包含三个与编码部分相同结构的卷积块(卷积块5~7),输出通道数由512逐步减半至64。每个卷积块之前,特征图由2 × 2 × 2步长为2的反卷积进行上采样,然后与编码部分中尺寸相同的对应层特征图进行通道拼接,最终通过1 × 1 × 1卷积与Sigmoid激活层在分割端输出肿瘤分割结果。
本文多任务学习的损失函数由分割任务损失、分类任务损失两部分构成。首先,利用Dice Loss作为分割任务的损失函数,具体计算过程如下:
![]() |
其中是网络预测分割结果,
是标准分割结果。其次,在分类任务中,由于一般的二分类交叉熵损失函数难以克服本文不同类间样本数量严重不均衡及易学习样本占比过大的问题,本文利用Focal Loss[27]作为损失函数进行优化,计算过程如下:
![]() |
其中是平衡正负样本占比的权重因子,正样本的权重为
,负样本的权重为
;
是聚焦因子,用以降低易学习样本的损失贡献,增加难学习样本的损失比例;
是网络预测当前样本为正样本的概率,范围在0~1之间。因此综上,本文多任务学习的损失函数为:
![]() |
2.3 基于特征非线性拟合的RFS预测
RFS预测属于生存分析任务,RFS是生存数据,存在数据删失情况,需要同时考虑复发状态以及复发时间,因此传统回归方法无法对RFS进行预测。现有研究常使用CPH模型进行生存分析,然而真实的医学数据通常难以满足CPH模型对特征的线性比例假设,这会导致其预测准确性和泛化性较差,因此本文基于前馈神经网络构建具有非线性拟合能力的RFS预测网络以提高RFS预测性能。网络以聚合特征作为输入,通过各神经元节点的权重和ReLU激活层确定输入特征与输出复发风险之间的复杂非线性关系,具体结构如图1所示。网络由若干隐层组成,每个隐层首先包含一个全连接层,后接丢弃层(Dropout)减少神经元个数避免过拟合。通过网格超参搜索法确定网络最终由四个隐层组成,神经元节点数分别为32、8、8、1。
RFS预测网络训练所用损失函数由两部分组成。首先,使用负对数平均似然函数[28] 作为损失的主要部分,其计算过程如下:
![]() |
其中 为网络输出的复发风险评分,
为在时间点
内发生复发转移的患者数量,
表示在时间点
尚未发生复发转移的患者的集合。为了控制网络复杂度,防止过拟合,增加
正则化惩罚项:
![]() |
其中 是正则化系数,
是网络权重。综上,进行RFS预测时网络所用损失函数为:
![]() |
3 实验结果与分析
3.1 评价指标
本文采用一致性指数(concordance index,C-index)评价RFS预测性能,其数值越大代表预测越准确。部分算法仅能对患者是否在某一时间点内复发进行二分类预测,如预测三年RFS(即预测患者在三年内是否复发)。为了对比,本文也利用所提方法预测三年RFS,并使用受试者工作特征曲线(receiver operating characteristic curve,ROC)下的面积(area under curve,AUC)作为评估指标。
3.2 实验环境与设置
本文在Ubuntu 20.05(Canonical Inc.,美国)操作系统的深度学习框架PyTorch 1.10(Facebook Inc.,美国)上进行深度神经网络的训练,计算机具体配置为:显卡(NVIDIA GeForce RTX 3090 Ti,Nvidia Inc.,美国)、中央处理器器(Intel Xeon Silver 4210 CPU,Inter Inc.,美国)。自监督预训练、多任务学习与RFS预测训练环节中的具体超参设置见附件3。
3.3 对比实验结果
为了验证所提方法的性能,本文将所提方法与基于影像组学的Xie等[6]和基于深度学习的Hosny等[15]、Liu等[20]现有肺腺癌RFS预测方法进行了对比,预测性能见表1。所提方法的各项指标在十折交叉实验中取得最优结果:C-index比Xie等[6]的方法提高了0.048,比Liu等[20]的方法提高了0.029;AUC比Hosny等[15]的方法提高了0.048,比Xie等[6]的方法提高了0.045,比Liu等[20]的方法提高了0.024。具体而言,Hosny等[15]的方法仅能对固定时间点的RFS进行预测,临床应用价值有限,且该方法的AUC结果最低,说明端到端的CNN模型在预测RFS时表现较差。Xie等[6]方法的AUC结果超过上述深度学习方法,证明影像组学方法在肺腺癌RFS预测任务上具有较好的表现,但由于影像组学特征局限于人工勾画的肿瘤区域,且特征由固定公式计算,忽略了瘤周区域的预测信息,再加上CPH模型无法拟合特征的非线性关系,因此该方法的RFS预测性能仍然有限。Liu等[20]的深度学习方法可实现完整的RFS预测,且C-index与AUC结果皆超过上述方法,说明深度神经网络可以通过在2D自然图像数据集上的预训练来获得一定的特征提取能力,但由于2D自然图像数据与3D CT图像存在区别,提取的特征用以预测RFS性能依旧受限。本研究所提方法通过一系列定制的学习任务有针对性地提高了网络特征提取能力,并通过前馈神经网络拟合RFS与特征间的非线性关系,从而克服了上述方法的缺陷,实现了最优的RFS预测性能。

3.4 消融实验结果
为了验证所提方法中各策略与模块的有效性,基于所提完整方法分别构建去除多任务学习(方法1)、去除自监督预训练(方法2)、去除多尺度特征聚合(方法3)、以“CPH模型”代替RFS预测网络(方法4)的四种方法进行消融实验,各方法预测RFS的结果如表2所示。由结果可见,任一策略与模块的缺失都导致了预测性能的下降,这证明了其有效性,它们协同工作可提高RFS预测性能。

方法1与所提方法的性能差距最为明显,表明多任务学习对性能提升的贡献程度最高。为了进一步验证多任务学习的有效性,本文实现了仅基于肿瘤高低危分类任务引导的RFS预测方法(方法5)。方法5的C-index为0.679 ± 0.078、AUC为0.696 ± 0.085,预测性能低于所提方法,说明相较于分类单任务,分割与分类多任务学习可令网络更有效地挖掘与RFS相关的特征信息,提高后续RFS预测性能。
3.5 可视化分析
为了进一步展现所提方法的可解释性,本文使用Grad-CAM方法[29]生成类激活图(见图2),视觉强化患者CT图像中与复发相关的重要区域。图中2a和2b行分别是随机选取的一例RFS小于一年的术后早期复发患者和一例随访期大于五年且在随访期间未复发患者的图像,各行的第一、二列分别为原始输入图像和手工标注的肿瘤区域图像,第三、四列分别为骨干网络浅网络层(卷积块1)和深网络层(瓶颈层)输出的类激活图,类激活图中越接近于红色的高亮表示该区域对网络分类决策的贡献越大,白色箭头指向胸膜牵拉区域,黄色箭头指向肿瘤的毛刺,黑色箭头指向肿瘤分叶处。

a. 术后早期复发患者;b. 术后无复发患者
Figure2. Images of two patients with different recurrence statusa. patient with early postoperative recurrence; b. patient with no postoperative recurrence
在术后早期复发患者的图像中,肿瘤表现为实性并且伴有毛刺、分叶征以及胸膜牵拉等在早期研究中已被证实与高复发风险相关的征象[30]。在该患者浅网络层输出的类激活图中,高亮区域与肿瘤区域高度重合,表明网络经过分割任务的训练后能够精准识别并定位肿瘤区域,同时,部分高亮区域分布于肿瘤毛刺与胸膜牵拉区域。当网络层加深到达瓶颈层后肿瘤内部高亮区域大面积加深,进一步集中至毛刺与分叶处,表明网络能够重点关注与高复发风险相关的肿瘤征象信息,这与临床实践相符。在无复发患者的图像中,肿瘤表现为低风险的磨玻璃状,且虽然该肿瘤与胸膜存在连接,但磨玻璃状的肿瘤难以造成高危害的胸膜侵犯[31]。在该患者浅、深层网络输出的类激活图中,肿瘤边缘、内部和与胸膜连接处高亮的面积占比远小于术后早期复发患者的情况,说明网络从图像中获取的与高复发风险相关的信息少,这与该患者实际的良好术后情况相符。综上所述,所提方法的可视化结果直观地说明了该方法自动挖掘CT图像中与复发相关信息的过程具有高度的临床可解释性,对不同复发情况的患者具有良好的区分性能。
此外,由图2可知不同深度的网络层包含着不同类型的信息,相较于Baek等[19]仅利用单一的瓶颈层特征进行RFS预测,本文设计的多尺度特征聚合模块可充分聚合来自不同网络层的多尺度图像特征。并且,类激活图中肿瘤周边组织的高亮说明了瘤周区域同样蕴含预测信息,所提方法的图像输入方式可充分利用该部分信息,这也有助于预测性能的提高。
4 结论
本文提出了一种全新的肺腺癌RFS预测方法,结合自监督预训练与多任务学习策略深入挖掘与RFS相关的CT图像特征,再利用多尺度特征融合模块充分聚合多尺度的包含不同信息的图像特征,最后设计了一种具有非线性拟合能力的RFS预测网络,利用聚合特征完成RFS预测。本文通过消融实验证明了所提方法中各策略与模块的有效性,并通过与相关研究的对比实验证明了所提方法在预测准确性与泛化性方面超越了现有的肺腺癌RFS预测方法,有望为肺腺癌患者个体化治疗方案的制定提供有效依据,具有较高的临床应用价值。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突。
作者贡献声明:胡伦瑜负责本文算法程序设计、结果记录分析以及论文撰写;夏威负责实验指导、数据分析指导以及论文审阅修订;李琼负责本文工作的临床指导;高欣负责论文审阅修订与总体指导。
伦理声明:本研究通过了中山大学肿瘤防治中心伦理委员会的审批(批文编号:B2022-293-01)。
本文附件见本刊网站的电子版本(biomedeng.cn)。