胃癌病理图像是胃癌诊断的金标准,然而其复发预测任务面临病灶组织形态特征不显著、多级分辨率特征融合不足、无法有效利用上下文信息等问题。为此,提出了一种基于胃癌病理图像分析的三阶段复发预测方法。在第一阶段,利用自监督学习框架SimCLR对低分辨率下的补丁图像进行训练以降低不同组织图像的耦合度,从而获得解耦后的增强特征。在第二阶段,将获取的低分辨率增强特征与对应高分辨率未增强特征进行融合,实现不同分辨率下的特征互补。在第三阶段,针对补丁图像数量差异较大导致位置编码困难的问题,利用多尺度的局部邻域进行位置编码并利用自注意力机制获得具有上下文信息的特征,随后与卷积神经网络所提取的局部特征进行融合。通过在临床收集的数据上进行评估,与同类方法最佳性能相比,本文所提出的网络模型在准确率、曲线下面积(AUC)指标上取得了最佳性能,分别提高了7.63%、4.51%,证明了该方法对胃癌复发预测的有效性。
引用本文: 周泓宇, 陶海波, 薛飞跃, 王彬, 金怀平, 李振辉. 基于多分辨率特征融合与上下文信息的胃癌复发预测方法. 生物医学工程学杂志, 2024, 41(5): 886-894. doi: 10.7507/1001-5515.202403014 复制
0 引言
胃癌是世界范围内常见癌症之一,在我国恶性肿瘤中发病率、死亡率均位列前三,每年死亡近29万例[1-2]。虽然可以通过切除术治疗胃癌,但仍有约60%的患者会在术后复发[3],因此复发预测是胃癌预后预测的重要组成部分。病理图像能够直接观察病变组织,在器质性病变诊断中具有不可替代的作用,是医学界公认的癌症诊断金标准[4-5]。然而病理图像具有尺寸巨大、病灶组织形态特征不显著、病灶组织占比远小于正常组织、多级分辨率蕴含丰富信息但缺乏细粒度标签等特点,如图1所示,这些特点使得临床诊断过程较为耗时且诊断结果的一致性较低。为此,建立一个基于胃癌病理图像的复发预测模型,对于胃癌的临床预后预测具有重要意义。

近年来,深度学习技术,如卷积神经网络和残差结构[6-7]等方法,被广泛应用到医学图像分析领域。目前,诸多学者将深度学习方法应用于数字病理图像预后预测领域,以期辅助临床诊断,并逐渐发展为计算病理学[8-11]。Campanella等[12]引入多实例学习思想,将卷积神经网络与循环神经网络相结合,该模型在前列腺癌分类和乳腺癌转移预测上取得了较好的效果。于凌涛等[13]结合迁移学习,探究了不同得分聚合规则对乳腺癌补丁图像良恶性分类的影响,该模型在补丁图像的预测上取得了一定效果。金怀平等[14]引入集成学习思想,通过集成多个异质子模型的结果预测胃癌是否转移,其预测精度明显优于仅使用单一模型。Ilse等[15]将多实例问题转换为包级标签的伯努利分布问题,提出了一种聚合算子计算不同补丁图像的得分并获得预测结果。Li等[16]采用最大池化对多实例学习进行改进,提出了一种基于最高得分实例的池化方式,进一步提高了准确率。Lu等[17]提出了一种基于弱监督深度学习的病理图像分类方法,通过实例级聚类约束特征空间获得较好的特征表示。Shao等[18]基于补丁图像提出了相关性多实例学习框架,并在乳腺癌、肾细胞癌上验证了所提框架的有效性。
虽然上述研究促进了深度学习在病理图像预后预测中的应用,但针对胃癌病理图像的复发预测研究仍然存在以下问题:① 现有研究大多基于像素级的细粒度标签进行,仅使用患者级标签的研究仍存在诸多挑战。② 现有研究对数据的多分辨率重视不足,造成不同分辨率间大量相关信息丢失。③ 补丁图像作为变长序列,进行位置编码较为困难,导致不同补丁之间上下文信息利用不足,预测结果的可解释性较低。
为解决上述问题,本文提出了一种基于多分辨率特征融合上下文信息的模型用于胃癌复发预测。针对仅有患者级标签的问题,引入对比学习思想对补丁图像进行特征差异化,从而实现特征解耦,为下游任务提供一个良好的特征表示。针对多分辨率重视不足的问题,提出了一种多分辨率特征融合方法,实现不同分辨率下的特征互补。针对病理图像位置编码困难的问题,引入条件位置编码并进行改进,进一步利用不同实例之间的上下文信息,增强模型的可解释性。
1 本文方法
基于多分辨率特征融合与上下文信息的胃癌复发预测方法的主要原理结构如图2所示,共分为三个阶段:① 利用自监督学习框架SimCLR对低分辨率下的补丁图像进行训练,降低不同类型组织间的耦合度,从而获得解耦后的增强特征。② 将获取的低分辨率增强特征与对应高分辨率未增强特征进行融合,获取数据的多分辨率信息,进一步提升预测的准确率。③ 利用多尺度的局部邻域进行位置编码,并将自注意力机制与卷积神经网络所获取的上下文特征、局部特征进行融合,通过分类头获得最终的预测结果。

1.1 低分辨率补丁图像特征解耦
基于病理图像进行复发预测的研究大多是使用ImageNet数据集[19]的权重进行微调,忽略了自然图像与病理图像之间的巨大差异,导致提取到的特征耦合严重,预测结果并不理想。考虑到补丁图像并没有像素级标签,因此引入自监督学习思想,在低分辨率补丁图像上对特征提取器进行预训练。通过对补丁图像进行数据增强并差异化不同组织类型间的相似度,从而获得增强的特征表示。SimCLR作为一种自监督学习模型,能够学习到无标签数据的潜在分布,进行有效的特征提取[20],其工作框架如图2中SimCLR预训练部分所示。为获得更高的特征提取能力和提高训练效率,我们使用EfficientNet V2 Small作为SimCLR的特征提取器[21],对提取到的特征进行投影后使用对比损失函数计算损失。样本
的投影过程可以表示为
,对比损失函数的公式如式(1)所示:
![]() |
式中,和
分别表示当前样本
增强向量的最终表示,
是调节参数,
是当前批次中数据的总数。通过以上步骤,有效提高了特征的表示能力,从而避免因数据差异较小导致特征耦合严重的问题。
1.2 多分辨率补丁图像特征融合
数字病理图像具有金字塔结构,可以在多级分辨率下对图像进行观察,低分辨率下观察组织的大范围排列分布,高分辨率下分析单个细胞的形态,如图3所示。为充分利用数字病理图像不同分辨率下的特征,需要对多级分辨率下的补丁图像进行特征融合。大多数研究使用图4中的拼接方式、相加方式,这容易导致补丁图像不同分辨率间的关联信息丢失[14-16]。我们希望特征融合操作能够具有一定的可解释性,更多地利用已经解耦的优质低分辨率特征影响其对应的高分辨率特征,从而充分利用病理图像多级分辨率所具有的优点。


为实现上述思想,我们提出了一种特征融合方法,具体原理如图4中所提融合方式所示。首先获得单张数字病理图像的补丁级深度特征,这些特征分别是经过特征解耦的低分辨率特征与直接使用ImageNet权重提取的高分辨率特征。其次,将低分辨率特征向量与其对应的所有高分辨率特征向量求内积,获得相似度。然后,使用最大最小归一化对同一个批次获得的相似度分数进行归一化处理,为避免丢失分数为0的高分辨率特征,使用softmax函数获得最终的相似度。最后,用相似度分数与高分辨率原始特征相乘,并将结果与低分辨率特征进行融合,从而使得未解耦的高分辨率特征在一定程度上具有低分辨率特征的解耦性。
1.3 补丁图像的上下文信息融合
在临床治疗中,病理学家需要反复观察病理图像的不同区域,利用不同组间的分布关系判断肿瘤侵袭以及浸润的程度,从而制定治疗策略。在理论推导上,文献[18]已经证明关注实例之间的相关性,可以有效降低多实例问题的信息熵,从而提高模型的决策性。
然而,不同数字病理图像所含有的组织量并不相同,切分出的补丁图像的数量并不固定,因此不同数字病理图像裁切出的补丁图像可以视为变长序列数据。但与自注意力机制搭配使用的传统位置编码,仅能对固定长度的序列数据进行位置编码,无法适用于变长序列数据。文献[22]基于卷积层提出条件位置编码,但对数字病理图像的深度特征进行编码时存在感受野过小、上下文信息获取不足等问题。因此结合数字病理图像的特性,引入多尺度卷积对该方法进行一定的改进:使用1×1普通卷积、3×3普通卷积分别获取当前补丁图像特征以及与其联系紧密的局部邻域特征;使用扩张率为2的3×3空洞卷积,在不增加计算量的基础上获取与当前补丁图像有一定联系的局部邻域特征。融合不同邻域的特征图,并将该特征图重塑为补丁特征输入到视觉转换器(Vision Transformer,ViT)中[23],从而结合自注意力机制有效地获得不同补丁图像间的上下文信息,编码过程如图5所示。

自注意力机制是ViT融合不同补丁图像之间上下文信息的关键,它应用于数字病理图像的基本原理可以概括如下:首先将提取到的补丁图像特征分别与可学习的系数投影矩阵
、
、
计算乘积,从而获得
的映射表示
、
、
。紧接着,使用
、
、
计算
与其他输入特征的相似性。使用
的映射
与其他特征的
映射计算出注意力分数,并将该分数与其他特征的
映射相乘并相加,从而得到
具有其他嵌入特征上下文信息的注意力输出
。当使用矩阵进行并行计算时,计算过程如式(2)所示:
![]() |
式中,、
、
分别是由不同特征的
、
、
组成的特征矩阵,
是特征向量的维度,作为缩放因子控制点积的尺度。最后,拼接多头自注意力机制的输出并映射为最终输出。多头注意力机制的公式如式(3)所示:
![]() |
式中是每个自注意力头的输出,
是变换矩阵。
2 实验结果及分析
2.1 数据集与评价指标
本文数据由云南省肿瘤医院提供,所有数据均通过伦理审查委员会同意并获得授权可以使用,数据的患者级标签由4名病理科主任医生共同诊断。共使用214张数字病理图像,其中复发数据108例,未复发数据106例。本文选取5倍和20倍分辨率进行补丁图像切分,大小为512 pixel×512 pixel,丢弃组织占比不足15%的切片,分别获得41 610张、60
本文使用准确率(accuracy,ACC)、召回率(recall,REC)、特异度(specificity,SPE)、F1分数(F1 score,F1)、受试者曲线下面积(area under curve,AUC)以及混淆矩阵作为模型的评价指标。各指标的计算方法如式(4)~(7)所示。
![]() |
![]() |
![]() |
![]() |
其中,TP是真阳性的样本数,FP是假阳性的样本数;相应地,TN与FN分别是真阴性与假阴性的样本数。PRE是查准率,反映真阳性样本在预测为阳性样本中的比例。
2.2 实验环境与参数设定
本文所有实验采用Python 3.8.8和PyTorch 1.12.1。实验设备GPU为NVIDIA GeForce RTX =0.5,为了保证训练效果,随机抽选10%的数据进行验证。在训练所提方法阶段,共迭代200轮,使用AdamW优化器进行迭代优化,初始学习率大小为2e-5,权重衰减设置为1e-5。训练批次大小为1并引入预热策略对学习率进行动态调整,在前60个迭代中将学习率由0缓慢增加到指定学习率。
2.3 消融实验
消融实验分为使用不同数据的单分支消融实验和完整方法的整体消融实验。通过比较表1中的数据可知所提方法的ACC、F1与AUC均为最佳,虽然REC、SPE并没有获得最佳值,但预测性能最为均衡。网络6的REC接近SPE的两倍,预测结果偏向正类,这表明该模型无法对负类样本做出有效区分。同样的,网络7的SPE得分最高,但对正类样本的预测可靠性较低。网络1的ACC相比网络2降低约8.75%,分析其原因可能是由于固定长度的位置编码在变长序列数据上无法获得有效训练。高分辨率数据过多导致无法进行全局特征学习,因此仅通过卷积神经网络进行特征提取,通过网络4和网络5可以发现简单的卷积神经网络在融合数据上的性能仍然优于ImageNet预训练模型所提取的数据,网络8也证明了多分辨率数据融合的重要性。

为进一步验证特征解耦的必要性,分别对预训练权重和ImageNet权重提取的补丁图像特征进行可视化,如图6所示。可以发现基于预训练提取的特征被较为明确地划分成了多个不同簇,而基于ImageNet权重提取的特征并没有出现明显的簇划分,即无法进行有效的特征提取。这表明,使用对比学习方法的预训练模型对于补丁图像的特征提取能力要优于ImageNet权重。此外,通过查看不同簇所对应的补丁图像,可以发现在整个数字病理图像中肿瘤组织远少于其他组织,这将会影响模型对不同实例的关注程度,但对所提方法而言,虽然正类实例占比较少,但由于特征耦合度低,模型更容易区分出不同组织的特征,结合其补丁图像自身的上下文信息后,可以有效提高预测结果的准确性。

2.4 对比实验
为进一步验证所提方法的有效性,在相同的数据集上分别进行胃癌复发预测对比实验,选择如下对比方法:CNN-RNN[12]、文献[13]、文献[14]、ABMIL[15]、ViT[23]、DSMIL[16]、CLAM[17]、TransMIL[18]。实验结果如表2所示,对应的混淆矩阵如图7所示。


分析表2可以得出,本文所提方法的ACC、SPE、F1与AUC均为最优,准确率较TransMIL提升7.6%。在此基础上,所提方法REC与SPE相差最小,对不同类别的预测最为均衡。这表明基于补丁图像的特征解耦、多分辨率的特征融合、多尺度邻域的条件位置编码,所提方法对胃癌复发有良好的预测效果。而对比方法虽然有效地提高了准确率,但仍受限于无法充分利用病理图像的多级分辨率和多实例的上下文信息,在性能上还存在一定的提升空间。
通过图7混淆矩阵,可以发现对比方法的预测结果具有偏向性,对某个类别预测较为准确,但无法有效分辨出另一个类别。虽然TransMIL对预测偏向做出了一定改善,但本文所提方法对正类、负类的预测最为均衡,且性能最佳。
肿瘤细胞更容易与苏木精结合,因此在病理图像中通常呈现深紫色或蓝紫色,如图8未复发病理图像左下方、复发病理图像右侧所示。在临床诊断过程中,病理医生重点关注肿瘤细胞聚集区域及其邻近区域。同样,深度学习模型在推理预测过程中,也应对这些反映疾病信息的区域进行重点关注,减少对其他信息较少区域的关注。为此,本文通过对模型获得的注意力分数进行可视化,评估不同模型在图像上关注的不同区域,图8给出了不同方法对于示例病理图像的注意力分数热力图,图中每个矩形区域代表一个补丁图像,颜色的深浅表示模型对当前补丁图像的关注程度。通过对比热力图可以发现,相较于同类对比方法,本文方法更多地关注了肿瘤细胞聚集区域,在此基础上又额外关注了少量肌肉、基质等邻近区域,这些区域作为肿瘤区域的上下文信息,极有可能受到了肿瘤浸润影响,从而有效提高了预测精度和可解释性。ABMIL对不同区域实现了差异化关注,但关注区域不够准确;ViT与CLAM存在对肌肉区域过多关注的问题;DSMIL基于关键实例计算其他实例得分,但相近的特征空间降低了模型对其他实例的差异化关注,导致对关键实例之外的区域关注程度近似,因此热力图也近似;TransMIL需要对注意力分数进行映射变换,因此其热力图仅能对一部分的补丁图像给予差异化关注,虽然在复发病例的预测中降低了对肌肉区域的关注,但也在未复发病例的预测中忽略了大量的细胞聚集区域。

3 结论
本文针对胃癌病理图像复发预测所存在的问题,提出了一种基于多分辨率特征与上下文信息的胃癌复发预测方法。总体方案主要由三部分构成:基于自监督学习的特征解耦模块,用于增强低分辨率图像特征;所提的多分辨率特征融合方法,用于病理图像多分辨率特征的使用;改进的条件位置编码,为上下文信息的获取提供了可靠的编码方式。该方法提高了仅使用患者级标签预测胃癌复发的性能,并在临床收集的数据集上验证了其有效性,这为临床诊断、制定治疗方案提供了有效依据,对于临床实际应用有一定推动作用。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突
作者贡献声明:周泓宇主要负责实验方案设计、程序编写和论文撰写;陶海波主要负责数据收集、医学背景知识指导以及实验结果分析;薛飞跃主要负责数据预处理与算法咨询;王彬负责指导实验,并对文章进行审阅;金怀平负责总体方案设计、实验指导、论文撰写、审阅与修订;李振辉提供了基金支持、论文审阅和修改意见。
本文代码仓库地址:
伦理声明:本研究通过了云南省肿瘤医院伦理委员会的审批(批文编号:KYLX2022122)。
0 引言
胃癌是世界范围内常见癌症之一,在我国恶性肿瘤中发病率、死亡率均位列前三,每年死亡近29万例[1-2]。虽然可以通过切除术治疗胃癌,但仍有约60%的患者会在术后复发[3],因此复发预测是胃癌预后预测的重要组成部分。病理图像能够直接观察病变组织,在器质性病变诊断中具有不可替代的作用,是医学界公认的癌症诊断金标准[4-5]。然而病理图像具有尺寸巨大、病灶组织形态特征不显著、病灶组织占比远小于正常组织、多级分辨率蕴含丰富信息但缺乏细粒度标签等特点,如图1所示,这些特点使得临床诊断过程较为耗时且诊断结果的一致性较低。为此,建立一个基于胃癌病理图像的复发预测模型,对于胃癌的临床预后预测具有重要意义。

近年来,深度学习技术,如卷积神经网络和残差结构[6-7]等方法,被广泛应用到医学图像分析领域。目前,诸多学者将深度学习方法应用于数字病理图像预后预测领域,以期辅助临床诊断,并逐渐发展为计算病理学[8-11]。Campanella等[12]引入多实例学习思想,将卷积神经网络与循环神经网络相结合,该模型在前列腺癌分类和乳腺癌转移预测上取得了较好的效果。于凌涛等[13]结合迁移学习,探究了不同得分聚合规则对乳腺癌补丁图像良恶性分类的影响,该模型在补丁图像的预测上取得了一定效果。金怀平等[14]引入集成学习思想,通过集成多个异质子模型的结果预测胃癌是否转移,其预测精度明显优于仅使用单一模型。Ilse等[15]将多实例问题转换为包级标签的伯努利分布问题,提出了一种聚合算子计算不同补丁图像的得分并获得预测结果。Li等[16]采用最大池化对多实例学习进行改进,提出了一种基于最高得分实例的池化方式,进一步提高了准确率。Lu等[17]提出了一种基于弱监督深度学习的病理图像分类方法,通过实例级聚类约束特征空间获得较好的特征表示。Shao等[18]基于补丁图像提出了相关性多实例学习框架,并在乳腺癌、肾细胞癌上验证了所提框架的有效性。
虽然上述研究促进了深度学习在病理图像预后预测中的应用,但针对胃癌病理图像的复发预测研究仍然存在以下问题:① 现有研究大多基于像素级的细粒度标签进行,仅使用患者级标签的研究仍存在诸多挑战。② 现有研究对数据的多分辨率重视不足,造成不同分辨率间大量相关信息丢失。③ 补丁图像作为变长序列,进行位置编码较为困难,导致不同补丁之间上下文信息利用不足,预测结果的可解释性较低。
为解决上述问题,本文提出了一种基于多分辨率特征融合上下文信息的模型用于胃癌复发预测。针对仅有患者级标签的问题,引入对比学习思想对补丁图像进行特征差异化,从而实现特征解耦,为下游任务提供一个良好的特征表示。针对多分辨率重视不足的问题,提出了一种多分辨率特征融合方法,实现不同分辨率下的特征互补。针对病理图像位置编码困难的问题,引入条件位置编码并进行改进,进一步利用不同实例之间的上下文信息,增强模型的可解释性。
1 本文方法
基于多分辨率特征融合与上下文信息的胃癌复发预测方法的主要原理结构如图2所示,共分为三个阶段:① 利用自监督学习框架SimCLR对低分辨率下的补丁图像进行训练,降低不同类型组织间的耦合度,从而获得解耦后的增强特征。② 将获取的低分辨率增强特征与对应高分辨率未增强特征进行融合,获取数据的多分辨率信息,进一步提升预测的准确率。③ 利用多尺度的局部邻域进行位置编码,并将自注意力机制与卷积神经网络所获取的上下文特征、局部特征进行融合,通过分类头获得最终的预测结果。

1.1 低分辨率补丁图像特征解耦
基于病理图像进行复发预测的研究大多是使用ImageNet数据集[19]的权重进行微调,忽略了自然图像与病理图像之间的巨大差异,导致提取到的特征耦合严重,预测结果并不理想。考虑到补丁图像并没有像素级标签,因此引入自监督学习思想,在低分辨率补丁图像上对特征提取器进行预训练。通过对补丁图像进行数据增强并差异化不同组织类型间的相似度,从而获得增强的特征表示。SimCLR作为一种自监督学习模型,能够学习到无标签数据的潜在分布,进行有效的特征提取[20],其工作框架如图2中SimCLR预训练部分所示。为获得更高的特征提取能力和提高训练效率,我们使用EfficientNet V2 Small作为SimCLR的特征提取器[21],对提取到的特征进行投影后使用对比损失函数计算损失。样本
的投影过程可以表示为
,对比损失函数的公式如式(1)所示:
![]() |
式中,和
分别表示当前样本
增强向量的最终表示,
是调节参数,
是当前批次中数据的总数。通过以上步骤,有效提高了特征的表示能力,从而避免因数据差异较小导致特征耦合严重的问题。
1.2 多分辨率补丁图像特征融合
数字病理图像具有金字塔结构,可以在多级分辨率下对图像进行观察,低分辨率下观察组织的大范围排列分布,高分辨率下分析单个细胞的形态,如图3所示。为充分利用数字病理图像不同分辨率下的特征,需要对多级分辨率下的补丁图像进行特征融合。大多数研究使用图4中的拼接方式、相加方式,这容易导致补丁图像不同分辨率间的关联信息丢失[14-16]。我们希望特征融合操作能够具有一定的可解释性,更多地利用已经解耦的优质低分辨率特征影响其对应的高分辨率特征,从而充分利用病理图像多级分辨率所具有的优点。


为实现上述思想,我们提出了一种特征融合方法,具体原理如图4中所提融合方式所示。首先获得单张数字病理图像的补丁级深度特征,这些特征分别是经过特征解耦的低分辨率特征与直接使用ImageNet权重提取的高分辨率特征。其次,将低分辨率特征向量与其对应的所有高分辨率特征向量求内积,获得相似度。然后,使用最大最小归一化对同一个批次获得的相似度分数进行归一化处理,为避免丢失分数为0的高分辨率特征,使用softmax函数获得最终的相似度。最后,用相似度分数与高分辨率原始特征相乘,并将结果与低分辨率特征进行融合,从而使得未解耦的高分辨率特征在一定程度上具有低分辨率特征的解耦性。
1.3 补丁图像的上下文信息融合
在临床治疗中,病理学家需要反复观察病理图像的不同区域,利用不同组间的分布关系判断肿瘤侵袭以及浸润的程度,从而制定治疗策略。在理论推导上,文献[18]已经证明关注实例之间的相关性,可以有效降低多实例问题的信息熵,从而提高模型的决策性。
然而,不同数字病理图像所含有的组织量并不相同,切分出的补丁图像的数量并不固定,因此不同数字病理图像裁切出的补丁图像可以视为变长序列数据。但与自注意力机制搭配使用的传统位置编码,仅能对固定长度的序列数据进行位置编码,无法适用于变长序列数据。文献[22]基于卷积层提出条件位置编码,但对数字病理图像的深度特征进行编码时存在感受野过小、上下文信息获取不足等问题。因此结合数字病理图像的特性,引入多尺度卷积对该方法进行一定的改进:使用1×1普通卷积、3×3普通卷积分别获取当前补丁图像特征以及与其联系紧密的局部邻域特征;使用扩张率为2的3×3空洞卷积,在不增加计算量的基础上获取与当前补丁图像有一定联系的局部邻域特征。融合不同邻域的特征图,并将该特征图重塑为补丁特征输入到视觉转换器(Vision Transformer,ViT)中[23],从而结合自注意力机制有效地获得不同补丁图像间的上下文信息,编码过程如图5所示。

自注意力机制是ViT融合不同补丁图像之间上下文信息的关键,它应用于数字病理图像的基本原理可以概括如下:首先将提取到的补丁图像特征分别与可学习的系数投影矩阵
、
、
计算乘积,从而获得
的映射表示
、
、
。紧接着,使用
、
、
计算
与其他输入特征的相似性。使用
的映射
与其他特征的
映射计算出注意力分数,并将该分数与其他特征的
映射相乘并相加,从而得到
具有其他嵌入特征上下文信息的注意力输出
。当使用矩阵进行并行计算时,计算过程如式(2)所示:
![]() |
式中,、
、
分别是由不同特征的
、
、
组成的特征矩阵,
是特征向量的维度,作为缩放因子控制点积的尺度。最后,拼接多头自注意力机制的输出并映射为最终输出。多头注意力机制的公式如式(3)所示:
![]() |
式中是每个自注意力头的输出,
是变换矩阵。
2 实验结果及分析
2.1 数据集与评价指标
本文数据由云南省肿瘤医院提供,所有数据均通过伦理审查委员会同意并获得授权可以使用,数据的患者级标签由4名病理科主任医生共同诊断。共使用214张数字病理图像,其中复发数据108例,未复发数据106例。本文选取5倍和20倍分辨率进行补丁图像切分,大小为512 pixel×512 pixel,丢弃组织占比不足15%的切片,分别获得41 610张、60
本文使用准确率(accuracy,ACC)、召回率(recall,REC)、特异度(specificity,SPE)、F1分数(F1 score,F1)、受试者曲线下面积(area under curve,AUC)以及混淆矩阵作为模型的评价指标。各指标的计算方法如式(4)~(7)所示。
![]() |
![]() |
![]() |
![]() |
其中,TP是真阳性的样本数,FP是假阳性的样本数;相应地,TN与FN分别是真阴性与假阴性的样本数。PRE是查准率,反映真阳性样本在预测为阳性样本中的比例。
2.2 实验环境与参数设定
本文所有实验采用Python 3.8.8和PyTorch 1.12.1。实验设备GPU为NVIDIA GeForce RTX =0.5,为了保证训练效果,随机抽选10%的数据进行验证。在训练所提方法阶段,共迭代200轮,使用AdamW优化器进行迭代优化,初始学习率大小为2e-5,权重衰减设置为1e-5。训练批次大小为1并引入预热策略对学习率进行动态调整,在前60个迭代中将学习率由0缓慢增加到指定学习率。
2.3 消融实验
消融实验分为使用不同数据的单分支消融实验和完整方法的整体消融实验。通过比较表1中的数据可知所提方法的ACC、F1与AUC均为最佳,虽然REC、SPE并没有获得最佳值,但预测性能最为均衡。网络6的REC接近SPE的两倍,预测结果偏向正类,这表明该模型无法对负类样本做出有效区分。同样的,网络7的SPE得分最高,但对正类样本的预测可靠性较低。网络1的ACC相比网络2降低约8.75%,分析其原因可能是由于固定长度的位置编码在变长序列数据上无法获得有效训练。高分辨率数据过多导致无法进行全局特征学习,因此仅通过卷积神经网络进行特征提取,通过网络4和网络5可以发现简单的卷积神经网络在融合数据上的性能仍然优于ImageNet预训练模型所提取的数据,网络8也证明了多分辨率数据融合的重要性。

为进一步验证特征解耦的必要性,分别对预训练权重和ImageNet权重提取的补丁图像特征进行可视化,如图6所示。可以发现基于预训练提取的特征被较为明确地划分成了多个不同簇,而基于ImageNet权重提取的特征并没有出现明显的簇划分,即无法进行有效的特征提取。这表明,使用对比学习方法的预训练模型对于补丁图像的特征提取能力要优于ImageNet权重。此外,通过查看不同簇所对应的补丁图像,可以发现在整个数字病理图像中肿瘤组织远少于其他组织,这将会影响模型对不同实例的关注程度,但对所提方法而言,虽然正类实例占比较少,但由于特征耦合度低,模型更容易区分出不同组织的特征,结合其补丁图像自身的上下文信息后,可以有效提高预测结果的准确性。

2.4 对比实验
为进一步验证所提方法的有效性,在相同的数据集上分别进行胃癌复发预测对比实验,选择如下对比方法:CNN-RNN[12]、文献[13]、文献[14]、ABMIL[15]、ViT[23]、DSMIL[16]、CLAM[17]、TransMIL[18]。实验结果如表2所示,对应的混淆矩阵如图7所示。


分析表2可以得出,本文所提方法的ACC、SPE、F1与AUC均为最优,准确率较TransMIL提升7.6%。在此基础上,所提方法REC与SPE相差最小,对不同类别的预测最为均衡。这表明基于补丁图像的特征解耦、多分辨率的特征融合、多尺度邻域的条件位置编码,所提方法对胃癌复发有良好的预测效果。而对比方法虽然有效地提高了准确率,但仍受限于无法充分利用病理图像的多级分辨率和多实例的上下文信息,在性能上还存在一定的提升空间。
通过图7混淆矩阵,可以发现对比方法的预测结果具有偏向性,对某个类别预测较为准确,但无法有效分辨出另一个类别。虽然TransMIL对预测偏向做出了一定改善,但本文所提方法对正类、负类的预测最为均衡,且性能最佳。
肿瘤细胞更容易与苏木精结合,因此在病理图像中通常呈现深紫色或蓝紫色,如图8未复发病理图像左下方、复发病理图像右侧所示。在临床诊断过程中,病理医生重点关注肿瘤细胞聚集区域及其邻近区域。同样,深度学习模型在推理预测过程中,也应对这些反映疾病信息的区域进行重点关注,减少对其他信息较少区域的关注。为此,本文通过对模型获得的注意力分数进行可视化,评估不同模型在图像上关注的不同区域,图8给出了不同方法对于示例病理图像的注意力分数热力图,图中每个矩形区域代表一个补丁图像,颜色的深浅表示模型对当前补丁图像的关注程度。通过对比热力图可以发现,相较于同类对比方法,本文方法更多地关注了肿瘤细胞聚集区域,在此基础上又额外关注了少量肌肉、基质等邻近区域,这些区域作为肿瘤区域的上下文信息,极有可能受到了肿瘤浸润影响,从而有效提高了预测精度和可解释性。ABMIL对不同区域实现了差异化关注,但关注区域不够准确;ViT与CLAM存在对肌肉区域过多关注的问题;DSMIL基于关键实例计算其他实例得分,但相近的特征空间降低了模型对其他实例的差异化关注,导致对关键实例之外的区域关注程度近似,因此热力图也近似;TransMIL需要对注意力分数进行映射变换,因此其热力图仅能对一部分的补丁图像给予差异化关注,虽然在复发病例的预测中降低了对肌肉区域的关注,但也在未复发病例的预测中忽略了大量的细胞聚集区域。

3 结论
本文针对胃癌病理图像复发预测所存在的问题,提出了一种基于多分辨率特征与上下文信息的胃癌复发预测方法。总体方案主要由三部分构成:基于自监督学习的特征解耦模块,用于增强低分辨率图像特征;所提的多分辨率特征融合方法,用于病理图像多分辨率特征的使用;改进的条件位置编码,为上下文信息的获取提供了可靠的编码方式。该方法提高了仅使用患者级标签预测胃癌复发的性能,并在临床收集的数据集上验证了其有效性,这为临床诊断、制定治疗方案提供了有效依据,对于临床实际应用有一定推动作用。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突
作者贡献声明:周泓宇主要负责实验方案设计、程序编写和论文撰写;陶海波主要负责数据收集、医学背景知识指导以及实验结果分析;薛飞跃主要负责数据预处理与算法咨询;王彬负责指导实验,并对文章进行审阅;金怀平负责总体方案设计、实验指导、论文撰写、审阅与修订;李振辉提供了基金支持、论文审阅和修改意见。
本文代码仓库地址:
伦理声明:本研究通过了云南省肿瘤医院伦理委员会的审批(批文编号:KYLX2022122)。