乳腺癌是由于乳腺上皮细胞异常增殖所导致的恶性疾病,多见于女性患者,临床上常用乳腺癌组织病理图像进行诊断。现阶段深度学习技术在医学图像处理领域取得突破性进展,在乳腺癌病理分类任务中效果优于传统检测技术。本文首先阐述了深度学习在乳腺病理图像的应用进展,从多尺度特征提取、细胞特征分析以及分类分型三个方面进行了概述,其次归纳总结了多模态数据融合方法在乳腺病理图像上的优势,最后指出深度学习在乳腺癌病理图像诊断领域面临的挑战并展望未来,这对推进深度学习技术在乳腺诊断中的发展具有重要的指导意义。
引用本文: 姜良, 张程, 曹慧, 姜百浩. 基于深度学习的乳腺病理图像诊断研究进展. 生物医学工程学杂志, 2024, 41(5): 1072-1077, 1084. doi: 10.7507/1001-5515.202311061 复制
0 引言
乳腺癌的发病率位于各类肿瘤前列,严重威胁着女性的生命健康。2020年全球癌症统计报告显示,乳腺癌新发病例数为2 261 419例,其发病率在绝大多数国家中排名第一,并每年以0.5%的速率上升[1]。乳腺癌早期症状多以乳房肿块、皮肤异常、乳头溢液等为主,这些症状较难引起患者的注意,容易错过最佳治疗的时机。随着癌细胞逐渐成长,肿瘤开始侵入周围的乳腺组织,并扩散到附近的淋巴结或其他器官[2]。由于乳腺X线片法等非侵入性方法不能够有效揭示乳腺癌的肿瘤间和肿瘤内异质性,因此乳腺病理学检查成为诊断乳腺癌的“金标准”[3]。乳腺癌的病理表现形式复杂多样,在临床特征、组织形态学和基因改变方面都存在异质性,所以确定不同亚型患者的特异靶点对于治疗方案选择和预后判断至关重要[4]。
2019年发布的《第五版WHO乳腺肿瘤分类》为乳腺癌的诊断、分子分型和靶向治疗提供了明确的方案[5],指出临床和病理形态学因素已不能充分反映乳腺癌的生物学行为,需要借助分子病理检测技术[6]。然而,这种检测技术不仅无法有效区分形态学特征重叠的肿瘤,而且无法实现根据特殊的基因变异位点对特殊类型乳腺癌分型。针对这些问题,人工智能技术逐渐为病理图像诊断带来新的解决方案,在数字病理图像分析领域先后取得多项研究进展[7]。
传统的机器学习方法需要依赖人工标注大量的图像样本来训练模型,在处理图像时存在一定局限性。与之不同的是,深度学习技术通过使用不同的神经网络结构能够自动从大量的图像数据中学习高级特征,从而可以更高效地处理各类医学图像数据,并实现对复杂结构的深入分析[8]。现阶段,许多学者总结了基于深度学习的乳腺病理图像分类研究,其中包括乳腺癌良恶性分类方法,如Krithiga等[9]重点介绍各种先进模型算法、图像预处理技术以及评估指标,强调了图像识别技术较分子检测技术的优越性。Rashmi等[10]总结出乳腺病理图像在计算机辅助诊断系统开发的主要障碍,认为集中于放大倍数(例如40倍、100倍、200倍和400倍)的病理图像进行研究,将有助于分析乳腺癌的不同亚型。
本文基于上述研究,首先介绍近年来乳腺病理图像的特征提取方法,主要从多尺度特征融合角度进行归纳总结;在此基础上,详细阐述在乳腺病理图像的细胞特征分析以及分类分型方面的诊断方法;其次表述多模态数据融合在乳腺良恶性肿瘤分类的研究进展;最后从病理图像数据、模型可解释性等方面归纳目前存在的问题,同时展望未来研究方向,为乳腺病理图像诊断领域的研究学者提供新的借鉴思路。
1 基于深度学习的乳腺病理图像诊断方法研究
1.1 乳腺病理图像的多尺度特征提取
病理图像存在染质稀疏、背景杂斑干扰、表观多样的缺陷,导致深度学习模型对复杂特征的提取效果较差,而目前多尺度特征融合能够捕获不同尺度下的特征信息,对于密集预测任务而言是必不可少的[11]。多尺度特征融合是通过采用相加、最大值与拼接的方法,对不同尺度下得到的特征通道权重进行融合,这种方法为乳腺病理图像分类任务提供更精确、更具鲁棒性的解决方案[12]。
目前,乳腺病理图像存在病理区域尺寸分布分散、细节特征不明显以及同类组织影像间的视觉差异较大等问题,越来越多专家利用多尺度特征融合的卷积神经网络(convolutional neural network,CNN)、Transformer等深度学习模型强大的特征捕获能力来解决上述问题以更好地满足临床需要[13]。表1列举了常见深度学习模型。

CNN通过层叠的卷积操作,逐步提取图像的局部细节与高层次语义信息,能够有效捕捉不同尺度的特征,从细胞形态到组织结构均能进行良好的建模。例如,Sheikh等[14]基于CNN开发了一种多尺度输入、多特征提取的网络模型(MSI-MFNet),通过将密集连接网络中多分辨率的分层特征图进行融合,以学习不同尺度的乳腺病理特征,有助于提取乳腺病变区域的多样化特征。Amin等[15]提出了一种基于特征聚合的CNN,该模型通过将网络架构进行深层次设计,以精细地融合分层特征,从而学习到乳腺病理多尺度纹理特征,该方法在保证分类精度的同时,使模型更具轻量化。Alqahtani等[16]提出了多尺度压缩与激励ResNet(multiscale squeeze-and-excitation ResNet,msSE-ResNet),该模型以ResNet为基础模型,使用不同的最大池化层来收集多尺度特征,将各尺度处学习到的特征信道权重进行融合,使得测试集上准确率达到88.87%,确保分类模型在不同倍数病理图像上具有鲁棒性。Xu等[17]提出了基于CNN的多维特征融合网络(MDFF-Net)进行特征提取,该模型将一维特征与二维特征融合,并且设计了并行多尺度信道洗牌模块(parallel multi-scale channel shuffling,PMS)以促进不同特征之间的交互和信息融合,有效增强了网络从图像中提取特征的能力,准确率达到98.86%。但该网络整体网络结构较大,若训练周期较短则会丢失重要的乳腺纹理信息。Li等[18]提出的多尺度和双自适应注意网络(multi-scale and dual-adaptive attention network,MDAA)基于DenseNet,通过并行卷积提取多尺度特征,不同大小的卷积核捕获图像的多层次细节。该设计能够有效整合不同放大倍数下的多尺度特征,强化病理图像的上下文信息关联,但特征整合依赖于固定的卷积核大小,使得模型应对不同尺度特征时缺乏灵活性。Karthik等[19]集成通道-空间注意力ResNet(channel and spatial attention residual network Resnet,CSAResnet)和双重注意力多尺度CNN(dual attention multiscale convolutional neural network,DAMCNN)两种模型的多路径神经架构。CSAResnet基于ResNet-101骨干网络并结合通道与空间注意力机制,能够并行学习图像中的跨通道与跨空间特征;DAMCNN通过结合DenseNet-201与EfficientNet-B0整合多尺度特征提取与注意力机制提炼特征。实验结果表明,集成网络可以提高乳腺病理细节特征的捕获能力,但较单模型复杂度高,对计算机的性能带来极大考验。
Transformer通过自注意力机制建模全局像素的长距离依赖,并利用多头自注意力捕捉不同尺度信息,能够在多尺度特征提取中有效捕捉细胞级的局部病理特征,并精确表征组织结构的全局病变模式。例如,Wang等[20]基于Vision Transformer(ViT)提出了局部-全局Vision Transformer(local-global ViT,LGViT)模型,该模型结合了局部自注意力与全局自注意力,能够有效捕捉乳腺病理图像中远距离区域的复杂关系。Sreelekshmi等[21]基于Swin Transformer,并结合深度可分离卷积,提出了一种具备多尺度特征提取能力的模型。Swin Transformer的分层结构能够逐步捕捉不同尺度的特征,使模型既能精确解析细节,又能有效提取全局信息。
1.2 乳腺病理图像的细胞特征分析
细胞特征分析是一项关键技术,涉及从显微镜图像中提取和量化细胞的形状、大小、纹理和颜色等特征[22]。这一分析过程包括图像采集、预处理、分割、特征提取和数据分析等关键步骤,为药物开发和基础生物学研究提供了重要的量化数据。通过细胞的大小、形状以及核与胞质的关系等特征,采用神经网络进行学习,从而帮助病理医生评估细胞是否发生恶变。总结现阶段深度学习算法在乳腺癌病理图像细胞特征分析的研究成果以及性能指标,如表2所示。例如,韩继能等[22]开发的自动化胶质瘤分级系统能够精准捕捉区域内细胞密度和细胞核异型特征。通过观察细胞核从蓝色到红色的颜色渐变,以及粘连细胞核间红蓝颜色的突变,粘连的细胞核被不同颜色标记,证明该方法能够清晰分辨粘连的细胞核。该系统使病理医生能够迅速获得关于肿瘤高低级别的准确信息,有助于全局细胞密度的统计和局部细胞密度和异型特征的提取。此外,Shihabuddin等[23]采用DenseNet201模型提取细胞核区域的特征,特别是针对整体形态及其形态变化进行捕捉。这些特征在区分细胞分裂的各个阶段(如前期、中期、后期和末期)中起到了关键作用。

目前,有丝分裂细胞检测主要靠人工进行,每个高倍视野(high performance fortran,HPF)中有丝分裂细胞核密度低,导致这一过程不仅耗时间,而且对操作人员有着较高专业要求,因此基于深度学习技术实现有丝分裂自动检测具有深刻影响[24]。针对乳腺病理图像形态结构复杂、染色不均、细胞核粘连等问题,以及病理学家标记有丝分裂细胞时标签的特性,利用深度学习模型在乳腺癌病理图像上自动检测有丝分裂已成为当前趋势。有丝分裂活性指数是决定肿瘤大小、增殖率和侵袭性的关键因素,Sohail等[25]提出了基于R-CNN的多相有丝分裂检测模型MP-MitDet,该模型应用于标记的快速细化方法和有丝分裂检测,表现出良好的性能,测试精确度为71%,召回率为76%,F1数值为75%,精确召回曲线下面积(area under the precision-recall curve,AUC-PR)为78%,但有丝分裂活性指数在判断肿瘤分级时可能具有误导性,算法需要进一步针对此任务加以改进。Mahmood等[26]提出一种基于快速区域卷积神经网络(Faster-RCNN)和深度CNN的多阶段有丝分裂细胞检测技术,由Faster-RCNN执行初始检测,通过ResNet50和DenseNet201混合结构进行特征融合,在ICPR2012数据集上取得87.6%的精确度、84.1%的召回率和85.8%的F1数值。组织病理学图像可能会出现提取有丝分裂细胞和非有丝分裂细胞数量不平衡的问题,Sigirci等[27]利用随机欠采样增强(random under-sampling boost,RUSBoost)方法来克服这个问题,开发了一款基于客户端-服务器模式的DigiPath应用软件作为辅助决策系统,临床过程中精确度达96.78%,召回率与F1数值分别达79.42与86.97%。
1.3 乳腺病理图像的分类与分型
细胞的大小和形状变异可以指示不同类型的病理变化,目前乳腺癌病理诊断类型包括非浸润性癌和浸润性癌。非浸润性癌主要是导管内癌、小叶原位癌,该类型均为未突破相应组织的基底膜,预后较好且不具备转移能力;而浸润性癌主要是浸润性导管癌、浸润性小叶癌、硬癌、髓样癌、腺癌等,此类型分化程度较低,同时预后相对较差,并易受疾病分期等因素的影响[28]。随着CNN在图像分类任务上的巨大成功,为乳腺癌病理图像的分类与分型带来新的尝试,促进了深度学习在乳腺病理图像领域的发展[29]。总结现阶段深度学习算法在乳腺癌病理图像分类与分型中的研究成果以及性能指标,如表3所示。多分类模型存在分类精度低和感受野固定的局限性,导致乳腺癌多分类研究相对较少,Umer等[30]提出6B-Net模型串行ResNet-50,它具有六个并行分支,每个分支提取乳腺癌各类型的特征,利用分类器进行八分类,最终准确率高达90.10%。He等[31]提出乳腺癌组织病理学图像分类Deconv-Transformer(DecT)模型,将组织病理学图像颜色反卷积与深度学习模型相结合,Transformer架构较卷积层能更好地匹配颜色反卷积,同时这种串行结构混合模型能够改善乳腺病理图像颜色差异较大的情况,提高了模型泛化能力,在BreakHis数据集上的平均准确度为93.02%。但是,该混合结构模型也存在一些隐患,如深层次网络容易致使模型提取病理特征的时间长且复杂程度较高。

随着数字成像技术的快速发展,全切片图像处理(whole slide imaging,WSI)已经成为现代病理学不可或缺的一部分。WSI允许病理医生通过数字化的方式查看和分析整个病理切片,这不仅显著提升了诊断的效率,还增强了图像的可访问性和分析的精度。例如,Jiang等[32]提出了一种空间感知快速并行卷积网络(spatially-aware swift parallel convolution network,SPA-SPCNet),适用于处理WSI中存在的高度异质性和复杂性,旨在捕捉乳腺癌组织结构中的独特空间分布特征,提升模型的空间感知能力。该网络通过有效融合局部细节与全局信息,实现了对病理图像中关键病变区域的精准识别。Mi等[33]设计了一种基于InceptionV3和XGBoost的乳腺病理图像多分类结构,专门针对BACH数据集中的WSI。该模型成功区分了正常组织、良性病变、导管原位癌和乳腺浸润性癌,实验结果表明其良好的准确性可与人工检测相媲美。
在全切片图像的基础上,图像块处理技术(patch)提供了一种更细致和针对性的分析方式,病理医生能够集中分析包含关键诊断信息的图像部分。这种方法不仅优化了计算资源的使用,还提高了处理速度和诊断精度,尤其是在应用深度学习模型进行病变分类与分型时显得尤为重要。例如,Huang等[34]提出了一种基于多视图patch嵌入的乳腺病理图像分类方法。该方法通过构建不同尺度的patch,并转化为嵌入向量,实现多尺度特征的提取。这些patch嵌入通过跨尺度融合模块整合,优化了特征间的互补性与上下文相关性,显著增强了模型的分类能力。Kausar等[35]用Haar小波变换将输入的高分辨率组织病理学图像分解成小尺寸图像,通过应用染色一体化技术将原始图像中的染色颜色标准化,对乳腺癌组织病理学图像进行准确分型。
1.4 乳腺病理图像的多模态数据融合
计算机辅助诊断系统通常利用单模态数据,而单模态特征中存在噪声会导致分类性能下降,同时很难反映个体的特异性[36],与单模态数据相比,多模态数据则可以有效提高模型精度。组学、病理图像等数据均与乳腺癌患者的预后息息相关,多模态数据融合能够得到乳腺癌多方面或多层次的信息,能更准确地评估疾病的全局状况,有助于乳腺癌良恶性分类[37]。例如,Mobadersany等[38]融合组学信息和病理图像信息进行癌症存活预测,其结果明显优于单独使用任何单模态数据的方法。多模态技术对识别不同肿瘤类型也具有优势,例如Yao等[39]证明了深度相关生存模型(DeepCorrSurv)在乳腺癌多分类的任务中效果显著。Liu等[40]提出一种基于多模态数据的混合神经网络模型来准确预测乳腺癌亚型,该方法融合基因表达数据、拷贝数变异(copy number variation,CNV)数据和病理图像数据的高维抽象特征,充分考虑各模态数据异质性,在测试集中准确率和AUC分别达到88.07%和0.933 1。
电子病历能为多模态数据给予支持,它提取的临床信息是低维的,通常基于医生的专业知识和长期经验总结而成,有助于为诊断提供更丰富的指导,Yan等[41]利用结构化电子病历(electronic health records,EHR)数据来提高病理图像分类准确性,将原始病理图像的高维抽象特征与EMR相结合,经过多个卷积层来提取更丰富的多层次特征,以保留局部细胞纹理组织结构信息。
多模态数据融合有利于预测个体预后,以辅助临床实现精准治疗,例如Yang等[42]首次将H&E染色组织病理学图像用于预测乳腺癌的预后,开发出基于病理图像和临床信息的预测框架,以评估HER2阳性乳腺癌患者的复发和转移风险。但是,尽管多模态数据能提供更全面的疾病信息,病理分析在临床诊断中仍被视为“金标准”。整合额外信息时,其可信度与单一病理分析相比仍有争议。理论上,多模态数据融合可提高诊断精度,但实际效果依赖于数据质量、特征提取的有效性及模态间的信息互补性。若数据来源异质或含较多噪声,信息融合的可靠性则不如独立的病理图像分析。
2 总结与展望
现阶段,乳腺癌诊疗技术正在不断进步,深度学习在诊断乳腺癌上具有优势且更贴近临床,同时有助于乳腺癌患者的预后评估[43]。随着发病率的逐年增加,乳腺癌会存在不同临床表现、组织形态学、生物学行为和基因变异的一组谱系病变,致使专业型乳腺医师更加紧缺,因此不借助人力的深度学习辅助诊断技术尤为重要[44]。乳腺病理图像虽能为诊断提供帮助,但制作流程复杂,导致数据不足,存在一定限制[45]。组织病理图像的多层次信息则有难以全方位显示的问题,会增加过拟合的风险。为解决上述问题,采用跨模态数据集扩充方法,如有监督的像素到像素GAN(pixel-to-pixel generative adversarial network,Pix2PixGAN)和无监督的循环GAN(cycle generative adversarial network,CycleGAN),能合成清晰度较高的多样性伪样本,缓解医学数据量紧缺的情况,并为分类、分割以及目标检测任务提供了新的思路[46]。此外,深度学习模型可解释性差。深度神经网络模型通常因为黑盒特性,导致病灶提取、训练过程以及诊断决策都存在很大的未知性,在引进医院临床诊断前需要较长的试用期,否则缺少公信力。为解决该问题,通过梯度加权类激活映射(gradient-weighted class activation mapping,Grad-CAM)的可视化技术制作热力图,此图会指出病理图像分类时的乳腺癌病灶特征的重点分布情况,从而使得神经网络模型的决策过程更具可解释性,有助于可视化分析[47]。
未来的发展将聚焦于WSI、patch和细胞分析三个层级。在全切片图像处理方面,应优先开发更大规模的权威数据集,以支持模型训练和验证,同时采用无监督学习[48]等训练策略,减少对大规模标注数据的依赖,从而有效应对数据需求挑战。此外,未来研究还应重点关注多模态数据融合[49],整合影像、基因组及临床信息,以提升WSI诊断的整体准确性与临床适用性。在patch层面,小样本学习[50]和自监督学习[51]等新方法为图像分析开辟了新途径,有助于从少量标注数据中提取关键特征,增强模型在多种乳腺癌亚型上的泛化能力。同时,为了更有效地进行不同分辨率和尺度下的特征提取,应探索更高效的多尺度深度学习网络结构,充分利用图像局部与全局信息。在细胞分析层面,未来需增强模型可解释性与透明度,以提升临床应用中的信任感。通过Grad-CAM等可视化技术进行模型解释,生成病灶区域的热力图,展示模型决策依据,有助于病理学家更清晰地理解深度学习模型的工作机制。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突。
作者贡献声明:姜良负责资料收集、文章撰写以及修改;张程、曹慧、姜百浩对文章框架与标题提供了指导性的建议以及进行了论文的审阅。
0 引言
乳腺癌的发病率位于各类肿瘤前列,严重威胁着女性的生命健康。2020年全球癌症统计报告显示,乳腺癌新发病例数为2 261 419例,其发病率在绝大多数国家中排名第一,并每年以0.5%的速率上升[1]。乳腺癌早期症状多以乳房肿块、皮肤异常、乳头溢液等为主,这些症状较难引起患者的注意,容易错过最佳治疗的时机。随着癌细胞逐渐成长,肿瘤开始侵入周围的乳腺组织,并扩散到附近的淋巴结或其他器官[2]。由于乳腺X线片法等非侵入性方法不能够有效揭示乳腺癌的肿瘤间和肿瘤内异质性,因此乳腺病理学检查成为诊断乳腺癌的“金标准”[3]。乳腺癌的病理表现形式复杂多样,在临床特征、组织形态学和基因改变方面都存在异质性,所以确定不同亚型患者的特异靶点对于治疗方案选择和预后判断至关重要[4]。
2019年发布的《第五版WHO乳腺肿瘤分类》为乳腺癌的诊断、分子分型和靶向治疗提供了明确的方案[5],指出临床和病理形态学因素已不能充分反映乳腺癌的生物学行为,需要借助分子病理检测技术[6]。然而,这种检测技术不仅无法有效区分形态学特征重叠的肿瘤,而且无法实现根据特殊的基因变异位点对特殊类型乳腺癌分型。针对这些问题,人工智能技术逐渐为病理图像诊断带来新的解决方案,在数字病理图像分析领域先后取得多项研究进展[7]。
传统的机器学习方法需要依赖人工标注大量的图像样本来训练模型,在处理图像时存在一定局限性。与之不同的是,深度学习技术通过使用不同的神经网络结构能够自动从大量的图像数据中学习高级特征,从而可以更高效地处理各类医学图像数据,并实现对复杂结构的深入分析[8]。现阶段,许多学者总结了基于深度学习的乳腺病理图像分类研究,其中包括乳腺癌良恶性分类方法,如Krithiga等[9]重点介绍各种先进模型算法、图像预处理技术以及评估指标,强调了图像识别技术较分子检测技术的优越性。Rashmi等[10]总结出乳腺病理图像在计算机辅助诊断系统开发的主要障碍,认为集中于放大倍数(例如40倍、100倍、200倍和400倍)的病理图像进行研究,将有助于分析乳腺癌的不同亚型。
本文基于上述研究,首先介绍近年来乳腺病理图像的特征提取方法,主要从多尺度特征融合角度进行归纳总结;在此基础上,详细阐述在乳腺病理图像的细胞特征分析以及分类分型方面的诊断方法;其次表述多模态数据融合在乳腺良恶性肿瘤分类的研究进展;最后从病理图像数据、模型可解释性等方面归纳目前存在的问题,同时展望未来研究方向,为乳腺病理图像诊断领域的研究学者提供新的借鉴思路。
1 基于深度学习的乳腺病理图像诊断方法研究
1.1 乳腺病理图像的多尺度特征提取
病理图像存在染质稀疏、背景杂斑干扰、表观多样的缺陷,导致深度学习模型对复杂特征的提取效果较差,而目前多尺度特征融合能够捕获不同尺度下的特征信息,对于密集预测任务而言是必不可少的[11]。多尺度特征融合是通过采用相加、最大值与拼接的方法,对不同尺度下得到的特征通道权重进行融合,这种方法为乳腺病理图像分类任务提供更精确、更具鲁棒性的解决方案[12]。
目前,乳腺病理图像存在病理区域尺寸分布分散、细节特征不明显以及同类组织影像间的视觉差异较大等问题,越来越多专家利用多尺度特征融合的卷积神经网络(convolutional neural network,CNN)、Transformer等深度学习模型强大的特征捕获能力来解决上述问题以更好地满足临床需要[13]。表1列举了常见深度学习模型。

CNN通过层叠的卷积操作,逐步提取图像的局部细节与高层次语义信息,能够有效捕捉不同尺度的特征,从细胞形态到组织结构均能进行良好的建模。例如,Sheikh等[14]基于CNN开发了一种多尺度输入、多特征提取的网络模型(MSI-MFNet),通过将密集连接网络中多分辨率的分层特征图进行融合,以学习不同尺度的乳腺病理特征,有助于提取乳腺病变区域的多样化特征。Amin等[15]提出了一种基于特征聚合的CNN,该模型通过将网络架构进行深层次设计,以精细地融合分层特征,从而学习到乳腺病理多尺度纹理特征,该方法在保证分类精度的同时,使模型更具轻量化。Alqahtani等[16]提出了多尺度压缩与激励ResNet(multiscale squeeze-and-excitation ResNet,msSE-ResNet),该模型以ResNet为基础模型,使用不同的最大池化层来收集多尺度特征,将各尺度处学习到的特征信道权重进行融合,使得测试集上准确率达到88.87%,确保分类模型在不同倍数病理图像上具有鲁棒性。Xu等[17]提出了基于CNN的多维特征融合网络(MDFF-Net)进行特征提取,该模型将一维特征与二维特征融合,并且设计了并行多尺度信道洗牌模块(parallel multi-scale channel shuffling,PMS)以促进不同特征之间的交互和信息融合,有效增强了网络从图像中提取特征的能力,准确率达到98.86%。但该网络整体网络结构较大,若训练周期较短则会丢失重要的乳腺纹理信息。Li等[18]提出的多尺度和双自适应注意网络(multi-scale and dual-adaptive attention network,MDAA)基于DenseNet,通过并行卷积提取多尺度特征,不同大小的卷积核捕获图像的多层次细节。该设计能够有效整合不同放大倍数下的多尺度特征,强化病理图像的上下文信息关联,但特征整合依赖于固定的卷积核大小,使得模型应对不同尺度特征时缺乏灵活性。Karthik等[19]集成通道-空间注意力ResNet(channel and spatial attention residual network Resnet,CSAResnet)和双重注意力多尺度CNN(dual attention multiscale convolutional neural network,DAMCNN)两种模型的多路径神经架构。CSAResnet基于ResNet-101骨干网络并结合通道与空间注意力机制,能够并行学习图像中的跨通道与跨空间特征;DAMCNN通过结合DenseNet-201与EfficientNet-B0整合多尺度特征提取与注意力机制提炼特征。实验结果表明,集成网络可以提高乳腺病理细节特征的捕获能力,但较单模型复杂度高,对计算机的性能带来极大考验。
Transformer通过自注意力机制建模全局像素的长距离依赖,并利用多头自注意力捕捉不同尺度信息,能够在多尺度特征提取中有效捕捉细胞级的局部病理特征,并精确表征组织结构的全局病变模式。例如,Wang等[20]基于Vision Transformer(ViT)提出了局部-全局Vision Transformer(local-global ViT,LGViT)模型,该模型结合了局部自注意力与全局自注意力,能够有效捕捉乳腺病理图像中远距离区域的复杂关系。Sreelekshmi等[21]基于Swin Transformer,并结合深度可分离卷积,提出了一种具备多尺度特征提取能力的模型。Swin Transformer的分层结构能够逐步捕捉不同尺度的特征,使模型既能精确解析细节,又能有效提取全局信息。
1.2 乳腺病理图像的细胞特征分析
细胞特征分析是一项关键技术,涉及从显微镜图像中提取和量化细胞的形状、大小、纹理和颜色等特征[22]。这一分析过程包括图像采集、预处理、分割、特征提取和数据分析等关键步骤,为药物开发和基础生物学研究提供了重要的量化数据。通过细胞的大小、形状以及核与胞质的关系等特征,采用神经网络进行学习,从而帮助病理医生评估细胞是否发生恶变。总结现阶段深度学习算法在乳腺癌病理图像细胞特征分析的研究成果以及性能指标,如表2所示。例如,韩继能等[22]开发的自动化胶质瘤分级系统能够精准捕捉区域内细胞密度和细胞核异型特征。通过观察细胞核从蓝色到红色的颜色渐变,以及粘连细胞核间红蓝颜色的突变,粘连的细胞核被不同颜色标记,证明该方法能够清晰分辨粘连的细胞核。该系统使病理医生能够迅速获得关于肿瘤高低级别的准确信息,有助于全局细胞密度的统计和局部细胞密度和异型特征的提取。此外,Shihabuddin等[23]采用DenseNet201模型提取细胞核区域的特征,特别是针对整体形态及其形态变化进行捕捉。这些特征在区分细胞分裂的各个阶段(如前期、中期、后期和末期)中起到了关键作用。

目前,有丝分裂细胞检测主要靠人工进行,每个高倍视野(high performance fortran,HPF)中有丝分裂细胞核密度低,导致这一过程不仅耗时间,而且对操作人员有着较高专业要求,因此基于深度学习技术实现有丝分裂自动检测具有深刻影响[24]。针对乳腺病理图像形态结构复杂、染色不均、细胞核粘连等问题,以及病理学家标记有丝分裂细胞时标签的特性,利用深度学习模型在乳腺癌病理图像上自动检测有丝分裂已成为当前趋势。有丝分裂活性指数是决定肿瘤大小、增殖率和侵袭性的关键因素,Sohail等[25]提出了基于R-CNN的多相有丝分裂检测模型MP-MitDet,该模型应用于标记的快速细化方法和有丝分裂检测,表现出良好的性能,测试精确度为71%,召回率为76%,F1数值为75%,精确召回曲线下面积(area under the precision-recall curve,AUC-PR)为78%,但有丝分裂活性指数在判断肿瘤分级时可能具有误导性,算法需要进一步针对此任务加以改进。Mahmood等[26]提出一种基于快速区域卷积神经网络(Faster-RCNN)和深度CNN的多阶段有丝分裂细胞检测技术,由Faster-RCNN执行初始检测,通过ResNet50和DenseNet201混合结构进行特征融合,在ICPR2012数据集上取得87.6%的精确度、84.1%的召回率和85.8%的F1数值。组织病理学图像可能会出现提取有丝分裂细胞和非有丝分裂细胞数量不平衡的问题,Sigirci等[27]利用随机欠采样增强(random under-sampling boost,RUSBoost)方法来克服这个问题,开发了一款基于客户端-服务器模式的DigiPath应用软件作为辅助决策系统,临床过程中精确度达96.78%,召回率与F1数值分别达79.42与86.97%。
1.3 乳腺病理图像的分类与分型
细胞的大小和形状变异可以指示不同类型的病理变化,目前乳腺癌病理诊断类型包括非浸润性癌和浸润性癌。非浸润性癌主要是导管内癌、小叶原位癌,该类型均为未突破相应组织的基底膜,预后较好且不具备转移能力;而浸润性癌主要是浸润性导管癌、浸润性小叶癌、硬癌、髓样癌、腺癌等,此类型分化程度较低,同时预后相对较差,并易受疾病分期等因素的影响[28]。随着CNN在图像分类任务上的巨大成功,为乳腺癌病理图像的分类与分型带来新的尝试,促进了深度学习在乳腺病理图像领域的发展[29]。总结现阶段深度学习算法在乳腺癌病理图像分类与分型中的研究成果以及性能指标,如表3所示。多分类模型存在分类精度低和感受野固定的局限性,导致乳腺癌多分类研究相对较少,Umer等[30]提出6B-Net模型串行ResNet-50,它具有六个并行分支,每个分支提取乳腺癌各类型的特征,利用分类器进行八分类,最终准确率高达90.10%。He等[31]提出乳腺癌组织病理学图像分类Deconv-Transformer(DecT)模型,将组织病理学图像颜色反卷积与深度学习模型相结合,Transformer架构较卷积层能更好地匹配颜色反卷积,同时这种串行结构混合模型能够改善乳腺病理图像颜色差异较大的情况,提高了模型泛化能力,在BreakHis数据集上的平均准确度为93.02%。但是,该混合结构模型也存在一些隐患,如深层次网络容易致使模型提取病理特征的时间长且复杂程度较高。

随着数字成像技术的快速发展,全切片图像处理(whole slide imaging,WSI)已经成为现代病理学不可或缺的一部分。WSI允许病理医生通过数字化的方式查看和分析整个病理切片,这不仅显著提升了诊断的效率,还增强了图像的可访问性和分析的精度。例如,Jiang等[32]提出了一种空间感知快速并行卷积网络(spatially-aware swift parallel convolution network,SPA-SPCNet),适用于处理WSI中存在的高度异质性和复杂性,旨在捕捉乳腺癌组织结构中的独特空间分布特征,提升模型的空间感知能力。该网络通过有效融合局部细节与全局信息,实现了对病理图像中关键病变区域的精准识别。Mi等[33]设计了一种基于InceptionV3和XGBoost的乳腺病理图像多分类结构,专门针对BACH数据集中的WSI。该模型成功区分了正常组织、良性病变、导管原位癌和乳腺浸润性癌,实验结果表明其良好的准确性可与人工检测相媲美。
在全切片图像的基础上,图像块处理技术(patch)提供了一种更细致和针对性的分析方式,病理医生能够集中分析包含关键诊断信息的图像部分。这种方法不仅优化了计算资源的使用,还提高了处理速度和诊断精度,尤其是在应用深度学习模型进行病变分类与分型时显得尤为重要。例如,Huang等[34]提出了一种基于多视图patch嵌入的乳腺病理图像分类方法。该方法通过构建不同尺度的patch,并转化为嵌入向量,实现多尺度特征的提取。这些patch嵌入通过跨尺度融合模块整合,优化了特征间的互补性与上下文相关性,显著增强了模型的分类能力。Kausar等[35]用Haar小波变换将输入的高分辨率组织病理学图像分解成小尺寸图像,通过应用染色一体化技术将原始图像中的染色颜色标准化,对乳腺癌组织病理学图像进行准确分型。
1.4 乳腺病理图像的多模态数据融合
计算机辅助诊断系统通常利用单模态数据,而单模态特征中存在噪声会导致分类性能下降,同时很难反映个体的特异性[36],与单模态数据相比,多模态数据则可以有效提高模型精度。组学、病理图像等数据均与乳腺癌患者的预后息息相关,多模态数据融合能够得到乳腺癌多方面或多层次的信息,能更准确地评估疾病的全局状况,有助于乳腺癌良恶性分类[37]。例如,Mobadersany等[38]融合组学信息和病理图像信息进行癌症存活预测,其结果明显优于单独使用任何单模态数据的方法。多模态技术对识别不同肿瘤类型也具有优势,例如Yao等[39]证明了深度相关生存模型(DeepCorrSurv)在乳腺癌多分类的任务中效果显著。Liu等[40]提出一种基于多模态数据的混合神经网络模型来准确预测乳腺癌亚型,该方法融合基因表达数据、拷贝数变异(copy number variation,CNV)数据和病理图像数据的高维抽象特征,充分考虑各模态数据异质性,在测试集中准确率和AUC分别达到88.07%和0.933 1。
电子病历能为多模态数据给予支持,它提取的临床信息是低维的,通常基于医生的专业知识和长期经验总结而成,有助于为诊断提供更丰富的指导,Yan等[41]利用结构化电子病历(electronic health records,EHR)数据来提高病理图像分类准确性,将原始病理图像的高维抽象特征与EMR相结合,经过多个卷积层来提取更丰富的多层次特征,以保留局部细胞纹理组织结构信息。
多模态数据融合有利于预测个体预后,以辅助临床实现精准治疗,例如Yang等[42]首次将H&E染色组织病理学图像用于预测乳腺癌的预后,开发出基于病理图像和临床信息的预测框架,以评估HER2阳性乳腺癌患者的复发和转移风险。但是,尽管多模态数据能提供更全面的疾病信息,病理分析在临床诊断中仍被视为“金标准”。整合额外信息时,其可信度与单一病理分析相比仍有争议。理论上,多模态数据融合可提高诊断精度,但实际效果依赖于数据质量、特征提取的有效性及模态间的信息互补性。若数据来源异质或含较多噪声,信息融合的可靠性则不如独立的病理图像分析。
2 总结与展望
现阶段,乳腺癌诊疗技术正在不断进步,深度学习在诊断乳腺癌上具有优势且更贴近临床,同时有助于乳腺癌患者的预后评估[43]。随着发病率的逐年增加,乳腺癌会存在不同临床表现、组织形态学、生物学行为和基因变异的一组谱系病变,致使专业型乳腺医师更加紧缺,因此不借助人力的深度学习辅助诊断技术尤为重要[44]。乳腺病理图像虽能为诊断提供帮助,但制作流程复杂,导致数据不足,存在一定限制[45]。组织病理图像的多层次信息则有难以全方位显示的问题,会增加过拟合的风险。为解决上述问题,采用跨模态数据集扩充方法,如有监督的像素到像素GAN(pixel-to-pixel generative adversarial network,Pix2PixGAN)和无监督的循环GAN(cycle generative adversarial network,CycleGAN),能合成清晰度较高的多样性伪样本,缓解医学数据量紧缺的情况,并为分类、分割以及目标检测任务提供了新的思路[46]。此外,深度学习模型可解释性差。深度神经网络模型通常因为黑盒特性,导致病灶提取、训练过程以及诊断决策都存在很大的未知性,在引进医院临床诊断前需要较长的试用期,否则缺少公信力。为解决该问题,通过梯度加权类激活映射(gradient-weighted class activation mapping,Grad-CAM)的可视化技术制作热力图,此图会指出病理图像分类时的乳腺癌病灶特征的重点分布情况,从而使得神经网络模型的决策过程更具可解释性,有助于可视化分析[47]。
未来的发展将聚焦于WSI、patch和细胞分析三个层级。在全切片图像处理方面,应优先开发更大规模的权威数据集,以支持模型训练和验证,同时采用无监督学习[48]等训练策略,减少对大规模标注数据的依赖,从而有效应对数据需求挑战。此外,未来研究还应重点关注多模态数据融合[49],整合影像、基因组及临床信息,以提升WSI诊断的整体准确性与临床适用性。在patch层面,小样本学习[50]和自监督学习[51]等新方法为图像分析开辟了新途径,有助于从少量标注数据中提取关键特征,增强模型在多种乳腺癌亚型上的泛化能力。同时,为了更有效地进行不同分辨率和尺度下的特征提取,应探索更高效的多尺度深度学习网络结构,充分利用图像局部与全局信息。在细胞分析层面,未来需增强模型可解释性与透明度,以提升临床应用中的信任感。通过Grad-CAM等可视化技术进行模型解释,生成病灶区域的热力图,展示模型决策依据,有助于病理学家更清晰地理解深度学习模型的工作机制。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突。
作者贡献声明:姜良负责资料收集、文章撰写以及修改;张程、曹慧、姜百浩对文章框架与标题提供了指导性的建议以及进行了论文的审阅。