目前基于深度学习的多模态学习发展迅速,在图文转换、图文生成等人工智能生成内容领域得到广泛应用。电子病历是医务人员在医疗活动过程中使用信息系统生成的数字、图表和文本等数字化信息。基于深度学习的电子病历多模态融合能辅助医护人员综合分析诊疗过程中产生的医学多模态数据,从而对患者进行精准诊断和及时干预。本文首先介绍了基于深度学习的多模态数据融合方法以及发展趋势;其次,对结构化电子病历数据与影像、文本等其他模态医学数据的融合进行了对比归纳,重点介绍了研究涉及的临床应用场景、样本量、融合方法等;通过分析,总结了针对不同模态医学数据融合的深度学习方法:一是根据数据模态选择合适的预训练模型进行特征表征后融合,二是基于注意力机制进行融合;最后,讨论了医学多模态融合中的难点及发展方向,包括建模方法、模型评估应用等。通过本文综述,期望为建立能综合利用各类模态医学数据的算法模型提供参考信息。
引用本文: 范勇, 张政波, 王晶. 基于深度学习的电子病历多模态数据融合研究进展. 生物医学工程学杂志, 2024, 41(5): 1062-1071. doi: 10.7507/1001-5515.202310011 复制
0 引言
现代医学实践很大程度上依赖于医护人员对多个来源数据和信息的综合利用。如图1所示,医护人员利用的数据,包括结构化和非结构化两类。其中,结构化电子健康记录(electronic health record,EHR)数据有人口统计学、生理参数、生化指标、用药、操作、诊断等,非结构化数据有X光片、电子计算机断层扫描(computed tomography,CT)、磁共振成像(magnetic resonance imaging,MRI)等影像数据和医学文本、时序生理信号以及基因组学等其他数据,这些数据在诊断治疗中都起到重要的作用。过去,电子病历、影像和生理信号等医学数据的分析利用,例如电子病历二次分析、医学图像分析、生理信号处理等,分别属于不同的研究领域;而经验丰富的临床医生凭借专业知识储备能综合分析多种类型的医学数据以辅助临床诊疗。但是医护人员处理大量复杂数据的精力有限,面对日益快速增长的各类海量医学数据,如何充分利用各类数据帮助医护人员及时察觉并应对患者病情成为亟需解决的问题。为了能全面综合利用各类医学数据辅助医护人员决策,基于数据驱动的医学研究重点正从单模态转向多模态数据融合分析利用。

多模态融合属于多模态学习内容之一,多模态学习的目的是建立能够处理和关联多种模态信息的模型,主要包括:多模态表示学习,模态间映射、对齐、融合以及协同学习,其中多模态融合是联合使用两种或多种模态的数据进行预测分析[1]。多模态融合的优点在于:① 来自不同模态的数据具有不同的预测能力,利用多模态数据间的互补性提高模型性能;② 不仅能利用多模态数据各自的信息,还能捕捉多模态数据间的交互信息,适合于复杂系统建模;③ 降低单一模态中低质量和错误数据对构建模型的影响,利用多模态信息来减少异常、缺失数据的影响,做出更可靠、更鲁棒的预测。
多模态融合方法过去通常以支持向量机(support vector machines,SVM)、随机森林(random forest,RF)等传统的机器学习算法为主,随着计算能力的提升和数据集的增长,深度学习相较于传统机器学习方法的优势愈发明显,被广泛应用于处理和理解复杂数据,在图像分类、语音识别和自然语言处理等领域都引发了革命性的进展。深度学习能最大程度地表征原始数据,而不需要人工设计特征,在可利用数据越来越多的情况下,能捕获到人工尚未发现的特征。过去,深度学习的应用通常只涉及到单一模态的数据输入,但现实世界中的许多问题都涉及到多个模态的数据,因此深度学习的研究和应用正逐步扩展到多模态数据的领域。基于深度学习的多模态融合技术已经成为人工智能(artificial intelligence,AI)领域重要发展方向之一,逐渐替代了多模态融合领域中的传统机器学习技术,已在人工智能领域的科研和工业界引起广泛关注并取得显著进展,例如用于视听语音识别[2]、多模态情感识别[3]和多模态文档目标检测[4]等。
近年来,深度学习技术广泛应用于医疗领域,包括医学影像[5]、电子病历和生理信号[6]数据分析等领域,但相关研究大多是利用单模态的医学数据,而随着多模态深度学习技术在人工智能领域的发展,基于深度学习的多模态医学数据融合学习逐渐成为医学人工智能研究领域的一个重要发展趋势。目前,在医学影像和电子病历融合[7]、结构化电子病历和医学文本[8]等方向已开展的一些研究表明,基于深度学习的多模态医学数据融合学习通常优于仅使用单模态医学数据进行的预测,多模态融合在医学人工智能研究领域具有巨大潜力。本文通过归纳近年来医疗领域基于深度学习多模态融合的发展现状,总结多模态融合各类方法原理、特点和发展趋势,并对比不同多模态融合方法应用于医疗领域的优势和局限,期望从临床应用场景、数据类型、样本量、模型架构、模型性能等方面来比较分析各类医学多模态融合研究,以探讨医学多模态融合目前的挑战及未来发展方向。
1 多模态数据融合方法
目前,基于深度学习的多模态融合方法通常分为三大类:分别是早期融合(特征融合)、后期融合(决策融合)和混合融合[9],如图2所示。早期融合,是将各种模态特征直接拼接后输入到某种深度学习模型中进行训练,较为直观简单,且能学习跨模态特征之间的关系;其缺点是在医学数据模态差异性较大的情况下,多模态数据需要进行大量的数据预处理、特征提取,才能得到一致的特征表示,比如医学文本和影像。后期融合,是将各模态数据分别基于不同深度学习方法建模后,将各自决策结果通过统计或者机器学习的方法聚合进行预测。该类方法的优点在于能够针对不同模态数据分别训练适应不同模态特性的模型,但缺点是最终的模型较难获得关于临床特征层面的信息,且选择合适的决策结果聚合方法比较费时费力。混合融合,是将不同模态的原始输入通过多层神经网络转化为不同的表征,将不同模态不同层的表征连接成为隐藏层输入到神经网络中用于预测,其优点在于能比较灵活地选择不同网络深度用于不同模态数据表征,如有的模态能直接用浅层特征,有的模态则需要深层特征;但缺点是网络结构调整与选择却成为难点。在多模态融合中,多模态特征连接或聚合的方法通常包括:直接拼接、逐元素操作、池化操作和门控机制。直接拼接,是将各模态提取的特征向量进行堆叠或并列拼接,形成高维度的统一向量;逐元素操作,是对两个或多个模态特征在对应位置上的数值进行聚合,如相乘或点积等运算;池化操作,是指包括在多模态特征上取最大值的最大池化和取平均值的平均池化等操作;而门控机制,是通过门控结构来控制不同模态的信息流。

传统的深度学习模型,如全连接网络、卷积神经网络(convolutional neural networks,CNN)以及循环神经网络,已经被广泛应用于医学影像诊断、生理信号分析等领域。近年来,深度学习中变换器(Transformer)模型在自然语言处理以及计算机视觉领域表现出色,逐渐取代了传统深度学习模型[10-11],其多头自注意力机制不仅能学习输入数据与标签之间的关系,而且能学习数据自身的关系。针对多模态数据融合问题,基于Transformer的基础结构结合上述三种方法发展新模型成为一种重要的解决思路。该思路既可以采取特征融合的方法将多模态特征连接后共同输入到Transformer模型中,也能采取决策融合方法并基于Transformer结构,分别构建单模态数据模型后进行决策聚合。
目前,深度学习模型的建立从过去直接在大规模数据集中训练和验证的方式,逐渐向预训练—微调的范式转移[12-13]。如图3所示,训练深度学习模型时首先在海量外部数据中进行无监督训练或其他任务训练,形成预训练模型,然后在领域相关数据中进行网络参数和结构的微调,最后在任务数据中评估微调后模型的性能。基于预训练微调两阶段建模方法在自然语言处理通用领域发展迅速,目前也逐渐应用到医学文本以及多模态医学数据的分析中。总的来说,当前基于深度学习的医学多模态融合的重要趋势之一是使用Transformer模型基础结构结合三种融合方法并采用预训练—微调两阶段的训练方法建立模型。

2 电子病历多模态融合在诊疗中的应用研究
不同模态医学数据融合,其重点包括:电子病历与医学影像、医学文本、生理信号数据融合以及两种以上的模态数据融合。本文将从采用的模型、建模方法、融合类型等方面进行介绍,从中总结对主要医学数据模态(结构化表格、图像、文本、时间序列)融合的思路方法。如表1所示,列出了医学多模态融合典型案例,并由此展现了通过多模态数据融合来提高疾病诊断的准确度,以及提升药物推荐、死亡风险评估、再入院预测等临床决策能力。

2.1 电子病历与医学影像数据融合
患者就诊检查后会产生大量病理组织切片、超声、内镜、胸片等影像数据,便于医生进行病情诊断;而医学影像研究虽然通过与计算机视觉领域人工智能技术的交叉融合在图像识别、病变检出和良恶性判断等方面取得一定进展[14],但是在放射科、病理科和皮肤科等各类影像资料判读解释中缺少对患者基本信息、生化检查结果等临床数据的利用,容易造成诊断效果降低,加入临床数据能让医生在合适的临床背景下做出最佳判断,因此电子病历与医学影像数据融合学习成为医学多模态融合中最受关注的研究方向之一。例如,Qiu等[15]开发和建立深度学习融合模型旨在从不同痴呆病因和不同认知功能水平的多个队列中准确区分正常认知、轻度认知障碍、阿尔兹海默症和非阿尔茨海默型痴呆人群。该研究使用了2个中心5 488名受试者的MRI影像数据和人口统计学、病史、功能评估和神经心理学测试结果等电子病历数据,首先基于MRI数据构建CNN模型得到多个任务的决策分数,然后将这些分数作为特征与电子病历特征连接后输入类别型特征梯度提升树(categorical boosting,CatBoost)[16]中建立融合模型,该过程属于混合融合。研究发现,融合模型效果在多个队列各类任务中明显好于仅使用影像数据模型,虽然非影像数据模型效果接近融合模型的性能,但是纳入影像数据对从临床角度验证建模结果至关重要。Barros等[17]利用乳房X光检查影像数据和电子病历数据开发人工智能模型,用于识别乳腺病变亚型。该研究使用了来自英国和美国9 234例女性患者的26 569张乳腺X光图像进行仅图像模型的预训练,然后在美国和以色列两个中心的4 568例数据基础上进行训练和验证,其中影像数据用于预训练多分类CNN模型的微调进行乳腺病变分类,电子病历数据则使用极端梯度提升树(XGboost)[18]模型训练进行乳腺病变分类,并从中选择贡献度高的特征,例如年龄、乳腺密度、症状等,最后从CNN模型中抽取图像特征与选取的临床数据特征连接后输入极端梯度提升树模型中构建融合模型,该过程属于经过模型表征后的深度特征融合。在区分各类乳腺病变亚型时,融合模型的效果比仅用临床数据或仅用影像数据要好。在新型冠状病毒肺炎(corona virus disease 2019,COVID-19)快速诊断中,Mei等[19]提出将胸部CT结果与临床症状、暴露史和实验室检查结合利用的多模态融合算法,先利用肺结核异常筛选预训练模型从患者CT影像中挑选异常影像数据,然后利用CNN模型提取异常影像中预测COVID-19阳性的特征,将这些影像特征与临床数据特征连接后,输入到全连接网络中进行COVID-19快速诊断,该过程属于混合融合。研究结果显示,在该研究中使用融合模型的效果要优于仅使用影像或仅使用电子病历数据模型。Khader等[20]开发了一种能融合使用胸片和临床数据的深度学习模型,并将其用于诊断重症监护室(intensive care unit,ICU)的25种病理状态。其中,胸片通过视觉Transformer主干网络提取图像特征,临床数据使用注意力机制来提取特征,最后使用Transformer编码器融合胸片和临床数据的深度特征用于预测病理状态。结果表明,在ICU环境下融合影像和非影像临床数据相较于仅使用单一类型数据,诊断准确性方面表现更好。
医学影像与结构化电子病历融合中,如图4所示,对于影像数据采取直接利用CNN、视觉Transformer或使用预训练后的CNN、视觉Transformer的方式,在特定数据和任务中对模型微调后提取医学影像深度表征;而电子病历数据可以直接作为特征使用,也可以使用集成树模型或注意力机制筛选特征后用于融合;两者的特征融合方法采用集成树机器学习模型或Transformer编码器完成输出。

2.2 电子病历与医学文本数据融合
尽管结构化输入形式的医疗信息系统在过去十几年中激增,但医护人员对患者诊疗活动的详细记录包括日常病程记录、护理记录、抢救记录、影像检查报告等仍是非结构化的医学文本。医学文本能够更加细粒度描述患者就诊、医疗过程中的表现和症状等信息,与结构化的电子病历联合分析能提高对患者疾病严重程度预测、再入院预测等的准确程度。
Silva等[21]基于ICU中临床医学文本、诊断代码和用药信息等结构化编码进行患者再入院和诊断预测,其中医学文本信息中出院记录使用一种双向变换器(bidirectional encoder representations from transformers,BERT)模型,即临床BERT(clinical BERT,ClinicalBERT)[22]模型进行表征,诊断和操作等编码则使用自对齐预训练BERT(self aligning pretrained BERT,SapBERT)模型[23]进行表征后输入全连接层,该过程属于经过模型表征后的特征融合,研究结果显示多模态融合方法的性能优于单模态方法,但输入特征过多时,多模态融合可能会适得其反,导致模型性能下降。Liu等[24]提出一种医学多模态预训练语言模型用于药物推荐、30 d再入院预测等,其研究中的结构化医学编码使用基于Transformer结构的图注意力神经网络(graph attention networks,GAT)进行表征,出院记录使用ClinicalBERT进行预训练后在特定任务上微调形成医学文本单模态模型,然后构建一种跨模态注意力模块用于对各模态间关系进行建模,在该模块中设计了文本到编码和编码到编码的两种预训练任务,研究表明经过预训练的模型在各类预测任务中比传统机器学习方法、没有预训练的神经网络和单模态模型表现更好。Lyu等[25]提出一种多模态Transformer模型融合医学文本与结构化电子病历数据用于院内死亡预测,其中医学文本数据用微调后的BERT模型进行表征,临床变量使用线性层进行表征,医学文本和临床变量表征连接后通过多模态编码器再次表征后输入Transformer结构中预测,研究结果表明该方法在急危重症院内死亡预测中比仅使用单模态数据表现要好。
医学文本与结构化电子病历融合中,如图5所示,医学文本通常使用BERT及其衍生模型进行表征,而结构化电子病历数据多为药物编码、诊断编码等医学编码数据,没有使用患者的生命体征以及实验室检查结果等信息;该结构化电子病历通常使用基于Transformer结构的神经网络模型或图结构网络进行特征表征。最终,两者的信息融合使用全连接网络或者基于注意力机制的方法。

2.3 电子病历与生理信号数据融合
对于长时间连续监测的生理信号,如心电、血压、呼吸、脉搏、体温等,临床上往往使用实时监测或其聚合统计后的指标,对其中趋势等高阶信息利用较少,没有充分挖掘和利用其中的信息。长程连续时序生理信号能捕捉到异常危险信号,也能记录生理参数变化发展情况,其中包含的信息能补充危重症患者病程剧烈变化期间无法获取的关键临床数据,从而反映患者身体情况发生改变的过程。将时序生理信号结合结构化电子病历数据进行融合预测性分析,对患者预后、恶化事件等进行早期预测,有助于辅助临床决策和进行预防性干预。因此,需要注意区分生理参数时间序列和生理信号,而通常情况下生理参数时间序列指从原始生理信号中提取的重要特征序列,例如从心电原始信号中提取出心率时间序列。由于医学多模态融合中直接使用生理信号的研究较少,本节内容介绍的部分研究采用的是生理参数时间序列。
Xu等[26]提出具有引导多通道注意力机制的模型,并整合了连续监测数据和离散临床数据,用于ICU中生理失代偿以及住院时长的预测研究。该研究中CNN模型用于表征多种生理参数时间序列以及原始心电信号数据,在临床数据的引导下将这些表征输入长短时记忆网络(long short term memory,LSTM)用于建模预测。该模型侧重于多种生理参数时间序列以及原始心电信号数据的使用,其中临床数据起到一种引导作用即提示模型该重点关注的生理信号区域。Feng等[27]提出双核记忆网络整合临床数据和波形数据来预测ICU患者预后,该方法中在固定窗口内对常见的中等密度临床变量采用了传统取最大、最小、平均值的统计聚合方式,因而丢失了可能存在的高阶信息以及特征时间信息。由此可见,早期这些方法研究了特征信息与结局变量之间的关系,而没有考虑特征本身内在的关系。Kim等[28]使用患者入ICU后24 h内的实验室检查结果、液体出入量等结构化电子病历和心率、血压和呼吸等时序生理参数,预测心脏骤停患者是否死亡及其神经系统结局。该研究中首先利用140 200名非心脏骤停患者心率、血压、呼吸、血氧等时序生理参数数据进行CNN模型预训练,然后在目标生理参数数据进一步微调得到预测结局的概率,而结构化电子病历数据使用全连接网络得到预测结局的概率,将两个结局概率输入到全连接网络得到最终预测结果,结果表明多模态数据模型优于单模态模型。该领域多模态融合分析中,生理信号的使用通常依赖于传统信号处理技术进行特征提取,逐渐出现了基于深度学习的生理信号自监督训练以及使用预训练范式表征生理信号的研究[29-30]。多数研究直接从生理参数序列入手,如图6所示,时序生理参数使用CNN、LSTM等模型提取特征,结构化信息则可直接使用,或以全连接网络表征后使用,两者通过全连接网络或集成树模型进行融合。相较于时序生理参数数据,从原始生理信号中获取关键重要信息难度更大,需要更多的预处理工作以及复杂特征表征方法,但是在其大量数据中可能隐藏了生理参数序列中忽略的信息。

2.4 多模态医学数据融合
在结构化电子病历分别与各类非结构化数据(包括影像、文本和生理信号等)的多模态融合过程中,理想的实施策略是在融合学习时,纳入特定医疗场景下所有相关模态的数据,以实现更加全面准确的诊断和治疗。本文主要介绍多类别(超过两类)医学数据融合学习的进展。例如,Soenksen等[31]提出医疗领域的综合多模态人工智能框架,能够适应多种医学数据输入,包括表格、影像、时间序列和文本等,每种模态数据都通过独立的嵌入算法进行表征。表格数据使用简单的转化或分类编码,时序数据通过提取统计指标进行表征,文本数据使用预训练的Transformer模型进行表征,图像数据使用预训练的CNN进行表征,所有的嵌入表征连接在一起形成融合表征输入到极端梯度提升树模型。该框架模型经过训练,在胸部病理诊断、住院时长和48 h死亡风险预测任务中,性能相较于单模态模型平均提升了9%~28%。Golovanevsky等[32]提出一种基于影像、基因和临床数据的多模态阿尔兹海默症诊断框架,基因和临床数据输入到3层全连接网络后接入多头自注意力层,影像数据输入到3层的CNN后接入多头自注意力层,将三者的隐含层两两输入到跨模态注意力层进行模态间相互关系的学习,最后将3个跨模态表征连接后输入到全连接层,用于诊断轻度认知障碍、阿尔兹海默症和健康人群。该项研究结果表明,该框架模型的表现优于现有针对阿尔兹海默症多模态学习诊断的方法[33]。
当前,超过两类数据类型的多模态融合思路如图7所示,主要有:① 左侧,展示了各模态数据进行特征深度表征后融合,即使用适合各类数据的深度学习模型或其他嵌入算法来进行数据深度表征学习后,将这些经过表征学习后的深度特征连接起来输入到下游机器学习模型或全连接网络中进行融合;② 为更好地捕捉多种模态间的相互作用关系,右侧展示了另一种常见思路:基于注意力机制的信息融合,在多模态数据间使用自注意力机制和跨模态注意力机制模块,将经过跨模态作用的隐含特征连接融合输入到下游机器学习模型中。

3 挑战和展望
医学多模态数据融合分析是医学人工智能的重要研究方向之一。通过研究结构化电子病历与其他模态数据的融合方法,综合利用多模态医学数据,能从整体上更全面地理解患者病情从而及时采取正确的治疗措施。同质化的医学数据,如:① X光、CT、MRI等各类影像数据;② 心电、肌电、脑电、血压波等各类生理信号数据;③ 基因组、转录组、蛋白质组、代谢组等多组学数据;这种同类别下不同数据融合学习也常被称为多模态数据融合研究[34],但相比较而言异质化医学数据的融合更具挑战。本文重点关注异质化多模态医学数据,归纳分析了医学数据多模态融合领域相关文献,结果表明基于深度学习的医学多模态融合在疾病诊断和不良事件预测预警等临床应用领域具有巨大潜力。目前,Transformer架构在多模态数据融合学习方法中的应用日益广泛,然而该领域的发展仍面临诸多挑战,包括多模态医学数据的建模、多模态融合算法的临床应用以及跨学科合作等方面均需进一步展开深入研究。
3.1 多模态医学数据建模
(1)多模态医学数据预处理。由于不同模态的缺失模式程度、异常值情况等都不一样,需要数据分析人员掌握多种模态数据的预处理方法。对于文本数据要进行分词、词嵌入等,对于图像数据需要进行图像剪裁、图像增强等,对于生理信号数据需要进行信号滤波、异常值处理等,数据分析人员需要掌握更多知识与技能。
(2)多模态融合模型选择。多模态融合模型种类繁多,选择什么数据融合、在什么阶段融合、如何融合是研究中的难点问题,大多数研究是基于原始数据的深度特征来进行融合分析,高效地表征学习各模态数据是关键难点之一。目前,通常采用Transformer模型及其衍生模型进行特征表征,是否有更加适合表征多模态数据的模型架构尚需进一步探索。此外,构建能够自动选择最优融合方法的模型已成为研究热点。同时,识别仅采用单模态数据即可满足临床应用需求的情况也是构建模型时需要考虑的问题。此外,随着大模型的不断发展,如何利用大模型进行医学多模态融合的研究备受关注。
(3)多模态数据时间尺度信息处理。多模态数据大多是异步的,不同时刻的信息可能存在因果和延迟关系,如何关联以及判断其对预后的影响的研究具有一定挑战性,需要探索构建能反映不同模态数据在时间上的互补性和因果关系的模型。总的来说,多模态医学数据建模过程中数据预处理复杂,模型构建方法尚需探索。
3.2 多模态融合算法临床应用与评估
当前,多模态融合研究大多是基于回顾性数据进行模型训练与验证,医学多模态融合算法模型最终落脚点是临床应用,进行临床应用前需要进行真实世界临床试验测试与验证,从实验设计、数据处理、建立模型、模型测试、可重复性和安全性等各个方面进行全流程评估[35-36],关于医学多模态融合模型在我国临床应用存在以下难点:
(1)多模态融合算法模型的可重复性欠佳,包括泛化性能、可信度等欠佳。目前,一些医学人工智能研究是基于非公开数据集展开的,模型效果的可重复性有待验证。同时,生物医学领域缺少一些公认的基准任务以及基线模型,研究效果如何无法很好地比较。
(2)多模态融合算法模型的可解释性以及公平性尚未建立具体标准,已成为医学人工智能领域重点讨论问题之一[37]。随着模态增加,模型的复杂性增加,多模态模型更难以进行解释,模型公平性也增加了不确定性,这会导致模型可解释性降低,可能存在偏差。
(3)我国医学人工智能算法临床应用与评估,需要进一步建立、完善国家标准和指南,并应随着人工智能技术发展不断更新。
3.3 多学科交叉合作
在多模态医学数据融合建模和应用过程中,由于涉及到更广泛的医学数据和更多医学知识,工程人员与各类临床人员的紧密合作至关重要,这就需要临床人员参与到医学人工智能算法开发的整个过程中,包括在实验设计初期评估其合理性,在数据预处理中讨论数据缺失和异常的原因及临床含义,并评估插值和异常值处理方法是否合适等;在建模过程中,需要临床人员利用临床知识进行数据标注。此外,模型建立与验证阶段可能会出现一些反医学常识的错误,需要临床专家参与解读和调试模型。目前,大多数研究注重多模态融合方法的研究应用,而临床适用性、实用性和合理性等需要进一步与临床人员合作探讨。综上,构建医学多模态融合模型是一个复杂且不断迭代的过程,模型的验证与落地应用更是如此,需要数据科学家和各类医学专家共同参与到医学多模态融合人工智能研究与应用全过程,从而使得多模态融合模型能真正落地临床应用,以便更好地服务医生和患者。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突。
作者贡献声明:范勇负责文献收集、整理和撰写文章;王晶、张政波负责文章审校、对论文提出修改意见。
0 引言
现代医学实践很大程度上依赖于医护人员对多个来源数据和信息的综合利用。如图1所示,医护人员利用的数据,包括结构化和非结构化两类。其中,结构化电子健康记录(electronic health record,EHR)数据有人口统计学、生理参数、生化指标、用药、操作、诊断等,非结构化数据有X光片、电子计算机断层扫描(computed tomography,CT)、磁共振成像(magnetic resonance imaging,MRI)等影像数据和医学文本、时序生理信号以及基因组学等其他数据,这些数据在诊断治疗中都起到重要的作用。过去,电子病历、影像和生理信号等医学数据的分析利用,例如电子病历二次分析、医学图像分析、生理信号处理等,分别属于不同的研究领域;而经验丰富的临床医生凭借专业知识储备能综合分析多种类型的医学数据以辅助临床诊疗。但是医护人员处理大量复杂数据的精力有限,面对日益快速增长的各类海量医学数据,如何充分利用各类数据帮助医护人员及时察觉并应对患者病情成为亟需解决的问题。为了能全面综合利用各类医学数据辅助医护人员决策,基于数据驱动的医学研究重点正从单模态转向多模态数据融合分析利用。

多模态融合属于多模态学习内容之一,多模态学习的目的是建立能够处理和关联多种模态信息的模型,主要包括:多模态表示学习,模态间映射、对齐、融合以及协同学习,其中多模态融合是联合使用两种或多种模态的数据进行预测分析[1]。多模态融合的优点在于:① 来自不同模态的数据具有不同的预测能力,利用多模态数据间的互补性提高模型性能;② 不仅能利用多模态数据各自的信息,还能捕捉多模态数据间的交互信息,适合于复杂系统建模;③ 降低单一模态中低质量和错误数据对构建模型的影响,利用多模态信息来减少异常、缺失数据的影响,做出更可靠、更鲁棒的预测。
多模态融合方法过去通常以支持向量机(support vector machines,SVM)、随机森林(random forest,RF)等传统的机器学习算法为主,随着计算能力的提升和数据集的增长,深度学习相较于传统机器学习方法的优势愈发明显,被广泛应用于处理和理解复杂数据,在图像分类、语音识别和自然语言处理等领域都引发了革命性的进展。深度学习能最大程度地表征原始数据,而不需要人工设计特征,在可利用数据越来越多的情况下,能捕获到人工尚未发现的特征。过去,深度学习的应用通常只涉及到单一模态的数据输入,但现实世界中的许多问题都涉及到多个模态的数据,因此深度学习的研究和应用正逐步扩展到多模态数据的领域。基于深度学习的多模态融合技术已经成为人工智能(artificial intelligence,AI)领域重要发展方向之一,逐渐替代了多模态融合领域中的传统机器学习技术,已在人工智能领域的科研和工业界引起广泛关注并取得显著进展,例如用于视听语音识别[2]、多模态情感识别[3]和多模态文档目标检测[4]等。
近年来,深度学习技术广泛应用于医疗领域,包括医学影像[5]、电子病历和生理信号[6]数据分析等领域,但相关研究大多是利用单模态的医学数据,而随着多模态深度学习技术在人工智能领域的发展,基于深度学习的多模态医学数据融合学习逐渐成为医学人工智能研究领域的一个重要发展趋势。目前,在医学影像和电子病历融合[7]、结构化电子病历和医学文本[8]等方向已开展的一些研究表明,基于深度学习的多模态医学数据融合学习通常优于仅使用单模态医学数据进行的预测,多模态融合在医学人工智能研究领域具有巨大潜力。本文通过归纳近年来医疗领域基于深度学习多模态融合的发展现状,总结多模态融合各类方法原理、特点和发展趋势,并对比不同多模态融合方法应用于医疗领域的优势和局限,期望从临床应用场景、数据类型、样本量、模型架构、模型性能等方面来比较分析各类医学多模态融合研究,以探讨医学多模态融合目前的挑战及未来发展方向。
1 多模态数据融合方法
目前,基于深度学习的多模态融合方法通常分为三大类:分别是早期融合(特征融合)、后期融合(决策融合)和混合融合[9],如图2所示。早期融合,是将各种模态特征直接拼接后输入到某种深度学习模型中进行训练,较为直观简单,且能学习跨模态特征之间的关系;其缺点是在医学数据模态差异性较大的情况下,多模态数据需要进行大量的数据预处理、特征提取,才能得到一致的特征表示,比如医学文本和影像。后期融合,是将各模态数据分别基于不同深度学习方法建模后,将各自决策结果通过统计或者机器学习的方法聚合进行预测。该类方法的优点在于能够针对不同模态数据分别训练适应不同模态特性的模型,但缺点是最终的模型较难获得关于临床特征层面的信息,且选择合适的决策结果聚合方法比较费时费力。混合融合,是将不同模态的原始输入通过多层神经网络转化为不同的表征,将不同模态不同层的表征连接成为隐藏层输入到神经网络中用于预测,其优点在于能比较灵活地选择不同网络深度用于不同模态数据表征,如有的模态能直接用浅层特征,有的模态则需要深层特征;但缺点是网络结构调整与选择却成为难点。在多模态融合中,多模态特征连接或聚合的方法通常包括:直接拼接、逐元素操作、池化操作和门控机制。直接拼接,是将各模态提取的特征向量进行堆叠或并列拼接,形成高维度的统一向量;逐元素操作,是对两个或多个模态特征在对应位置上的数值进行聚合,如相乘或点积等运算;池化操作,是指包括在多模态特征上取最大值的最大池化和取平均值的平均池化等操作;而门控机制,是通过门控结构来控制不同模态的信息流。

传统的深度学习模型,如全连接网络、卷积神经网络(convolutional neural networks,CNN)以及循环神经网络,已经被广泛应用于医学影像诊断、生理信号分析等领域。近年来,深度学习中变换器(Transformer)模型在自然语言处理以及计算机视觉领域表现出色,逐渐取代了传统深度学习模型[10-11],其多头自注意力机制不仅能学习输入数据与标签之间的关系,而且能学习数据自身的关系。针对多模态数据融合问题,基于Transformer的基础结构结合上述三种方法发展新模型成为一种重要的解决思路。该思路既可以采取特征融合的方法将多模态特征连接后共同输入到Transformer模型中,也能采取决策融合方法并基于Transformer结构,分别构建单模态数据模型后进行决策聚合。
目前,深度学习模型的建立从过去直接在大规模数据集中训练和验证的方式,逐渐向预训练—微调的范式转移[12-13]。如图3所示,训练深度学习模型时首先在海量外部数据中进行无监督训练或其他任务训练,形成预训练模型,然后在领域相关数据中进行网络参数和结构的微调,最后在任务数据中评估微调后模型的性能。基于预训练微调两阶段建模方法在自然语言处理通用领域发展迅速,目前也逐渐应用到医学文本以及多模态医学数据的分析中。总的来说,当前基于深度学习的医学多模态融合的重要趋势之一是使用Transformer模型基础结构结合三种融合方法并采用预训练—微调两阶段的训练方法建立模型。

2 电子病历多模态融合在诊疗中的应用研究
不同模态医学数据融合,其重点包括:电子病历与医学影像、医学文本、生理信号数据融合以及两种以上的模态数据融合。本文将从采用的模型、建模方法、融合类型等方面进行介绍,从中总结对主要医学数据模态(结构化表格、图像、文本、时间序列)融合的思路方法。如表1所示,列出了医学多模态融合典型案例,并由此展现了通过多模态数据融合来提高疾病诊断的准确度,以及提升药物推荐、死亡风险评估、再入院预测等临床决策能力。

2.1 电子病历与医学影像数据融合
患者就诊检查后会产生大量病理组织切片、超声、内镜、胸片等影像数据,便于医生进行病情诊断;而医学影像研究虽然通过与计算机视觉领域人工智能技术的交叉融合在图像识别、病变检出和良恶性判断等方面取得一定进展[14],但是在放射科、病理科和皮肤科等各类影像资料判读解释中缺少对患者基本信息、生化检查结果等临床数据的利用,容易造成诊断效果降低,加入临床数据能让医生在合适的临床背景下做出最佳判断,因此电子病历与医学影像数据融合学习成为医学多模态融合中最受关注的研究方向之一。例如,Qiu等[15]开发和建立深度学习融合模型旨在从不同痴呆病因和不同认知功能水平的多个队列中准确区分正常认知、轻度认知障碍、阿尔兹海默症和非阿尔茨海默型痴呆人群。该研究使用了2个中心5 488名受试者的MRI影像数据和人口统计学、病史、功能评估和神经心理学测试结果等电子病历数据,首先基于MRI数据构建CNN模型得到多个任务的决策分数,然后将这些分数作为特征与电子病历特征连接后输入类别型特征梯度提升树(categorical boosting,CatBoost)[16]中建立融合模型,该过程属于混合融合。研究发现,融合模型效果在多个队列各类任务中明显好于仅使用影像数据模型,虽然非影像数据模型效果接近融合模型的性能,但是纳入影像数据对从临床角度验证建模结果至关重要。Barros等[17]利用乳房X光检查影像数据和电子病历数据开发人工智能模型,用于识别乳腺病变亚型。该研究使用了来自英国和美国9 234例女性患者的26 569张乳腺X光图像进行仅图像模型的预训练,然后在美国和以色列两个中心的4 568例数据基础上进行训练和验证,其中影像数据用于预训练多分类CNN模型的微调进行乳腺病变分类,电子病历数据则使用极端梯度提升树(XGboost)[18]模型训练进行乳腺病变分类,并从中选择贡献度高的特征,例如年龄、乳腺密度、症状等,最后从CNN模型中抽取图像特征与选取的临床数据特征连接后输入极端梯度提升树模型中构建融合模型,该过程属于经过模型表征后的深度特征融合。在区分各类乳腺病变亚型时,融合模型的效果比仅用临床数据或仅用影像数据要好。在新型冠状病毒肺炎(corona virus disease 2019,COVID-19)快速诊断中,Mei等[19]提出将胸部CT结果与临床症状、暴露史和实验室检查结合利用的多模态融合算法,先利用肺结核异常筛选预训练模型从患者CT影像中挑选异常影像数据,然后利用CNN模型提取异常影像中预测COVID-19阳性的特征,将这些影像特征与临床数据特征连接后,输入到全连接网络中进行COVID-19快速诊断,该过程属于混合融合。研究结果显示,在该研究中使用融合模型的效果要优于仅使用影像或仅使用电子病历数据模型。Khader等[20]开发了一种能融合使用胸片和临床数据的深度学习模型,并将其用于诊断重症监护室(intensive care unit,ICU)的25种病理状态。其中,胸片通过视觉Transformer主干网络提取图像特征,临床数据使用注意力机制来提取特征,最后使用Transformer编码器融合胸片和临床数据的深度特征用于预测病理状态。结果表明,在ICU环境下融合影像和非影像临床数据相较于仅使用单一类型数据,诊断准确性方面表现更好。
医学影像与结构化电子病历融合中,如图4所示,对于影像数据采取直接利用CNN、视觉Transformer或使用预训练后的CNN、视觉Transformer的方式,在特定数据和任务中对模型微调后提取医学影像深度表征;而电子病历数据可以直接作为特征使用,也可以使用集成树模型或注意力机制筛选特征后用于融合;两者的特征融合方法采用集成树机器学习模型或Transformer编码器完成输出。

2.2 电子病历与医学文本数据融合
尽管结构化输入形式的医疗信息系统在过去十几年中激增,但医护人员对患者诊疗活动的详细记录包括日常病程记录、护理记录、抢救记录、影像检查报告等仍是非结构化的医学文本。医学文本能够更加细粒度描述患者就诊、医疗过程中的表现和症状等信息,与结构化的电子病历联合分析能提高对患者疾病严重程度预测、再入院预测等的准确程度。
Silva等[21]基于ICU中临床医学文本、诊断代码和用药信息等结构化编码进行患者再入院和诊断预测,其中医学文本信息中出院记录使用一种双向变换器(bidirectional encoder representations from transformers,BERT)模型,即临床BERT(clinical BERT,ClinicalBERT)[22]模型进行表征,诊断和操作等编码则使用自对齐预训练BERT(self aligning pretrained BERT,SapBERT)模型[23]进行表征后输入全连接层,该过程属于经过模型表征后的特征融合,研究结果显示多模态融合方法的性能优于单模态方法,但输入特征过多时,多模态融合可能会适得其反,导致模型性能下降。Liu等[24]提出一种医学多模态预训练语言模型用于药物推荐、30 d再入院预测等,其研究中的结构化医学编码使用基于Transformer结构的图注意力神经网络(graph attention networks,GAT)进行表征,出院记录使用ClinicalBERT进行预训练后在特定任务上微调形成医学文本单模态模型,然后构建一种跨模态注意力模块用于对各模态间关系进行建模,在该模块中设计了文本到编码和编码到编码的两种预训练任务,研究表明经过预训练的模型在各类预测任务中比传统机器学习方法、没有预训练的神经网络和单模态模型表现更好。Lyu等[25]提出一种多模态Transformer模型融合医学文本与结构化电子病历数据用于院内死亡预测,其中医学文本数据用微调后的BERT模型进行表征,临床变量使用线性层进行表征,医学文本和临床变量表征连接后通过多模态编码器再次表征后输入Transformer结构中预测,研究结果表明该方法在急危重症院内死亡预测中比仅使用单模态数据表现要好。
医学文本与结构化电子病历融合中,如图5所示,医学文本通常使用BERT及其衍生模型进行表征,而结构化电子病历数据多为药物编码、诊断编码等医学编码数据,没有使用患者的生命体征以及实验室检查结果等信息;该结构化电子病历通常使用基于Transformer结构的神经网络模型或图结构网络进行特征表征。最终,两者的信息融合使用全连接网络或者基于注意力机制的方法。

2.3 电子病历与生理信号数据融合
对于长时间连续监测的生理信号,如心电、血压、呼吸、脉搏、体温等,临床上往往使用实时监测或其聚合统计后的指标,对其中趋势等高阶信息利用较少,没有充分挖掘和利用其中的信息。长程连续时序生理信号能捕捉到异常危险信号,也能记录生理参数变化发展情况,其中包含的信息能补充危重症患者病程剧烈变化期间无法获取的关键临床数据,从而反映患者身体情况发生改变的过程。将时序生理信号结合结构化电子病历数据进行融合预测性分析,对患者预后、恶化事件等进行早期预测,有助于辅助临床决策和进行预防性干预。因此,需要注意区分生理参数时间序列和生理信号,而通常情况下生理参数时间序列指从原始生理信号中提取的重要特征序列,例如从心电原始信号中提取出心率时间序列。由于医学多模态融合中直接使用生理信号的研究较少,本节内容介绍的部分研究采用的是生理参数时间序列。
Xu等[26]提出具有引导多通道注意力机制的模型,并整合了连续监测数据和离散临床数据,用于ICU中生理失代偿以及住院时长的预测研究。该研究中CNN模型用于表征多种生理参数时间序列以及原始心电信号数据,在临床数据的引导下将这些表征输入长短时记忆网络(long short term memory,LSTM)用于建模预测。该模型侧重于多种生理参数时间序列以及原始心电信号数据的使用,其中临床数据起到一种引导作用即提示模型该重点关注的生理信号区域。Feng等[27]提出双核记忆网络整合临床数据和波形数据来预测ICU患者预后,该方法中在固定窗口内对常见的中等密度临床变量采用了传统取最大、最小、平均值的统计聚合方式,因而丢失了可能存在的高阶信息以及特征时间信息。由此可见,早期这些方法研究了特征信息与结局变量之间的关系,而没有考虑特征本身内在的关系。Kim等[28]使用患者入ICU后24 h内的实验室检查结果、液体出入量等结构化电子病历和心率、血压和呼吸等时序生理参数,预测心脏骤停患者是否死亡及其神经系统结局。该研究中首先利用140 200名非心脏骤停患者心率、血压、呼吸、血氧等时序生理参数数据进行CNN模型预训练,然后在目标生理参数数据进一步微调得到预测结局的概率,而结构化电子病历数据使用全连接网络得到预测结局的概率,将两个结局概率输入到全连接网络得到最终预测结果,结果表明多模态数据模型优于单模态模型。该领域多模态融合分析中,生理信号的使用通常依赖于传统信号处理技术进行特征提取,逐渐出现了基于深度学习的生理信号自监督训练以及使用预训练范式表征生理信号的研究[29-30]。多数研究直接从生理参数序列入手,如图6所示,时序生理参数使用CNN、LSTM等模型提取特征,结构化信息则可直接使用,或以全连接网络表征后使用,两者通过全连接网络或集成树模型进行融合。相较于时序生理参数数据,从原始生理信号中获取关键重要信息难度更大,需要更多的预处理工作以及复杂特征表征方法,但是在其大量数据中可能隐藏了生理参数序列中忽略的信息。

2.4 多模态医学数据融合
在结构化电子病历分别与各类非结构化数据(包括影像、文本和生理信号等)的多模态融合过程中,理想的实施策略是在融合学习时,纳入特定医疗场景下所有相关模态的数据,以实现更加全面准确的诊断和治疗。本文主要介绍多类别(超过两类)医学数据融合学习的进展。例如,Soenksen等[31]提出医疗领域的综合多模态人工智能框架,能够适应多种医学数据输入,包括表格、影像、时间序列和文本等,每种模态数据都通过独立的嵌入算法进行表征。表格数据使用简单的转化或分类编码,时序数据通过提取统计指标进行表征,文本数据使用预训练的Transformer模型进行表征,图像数据使用预训练的CNN进行表征,所有的嵌入表征连接在一起形成融合表征输入到极端梯度提升树模型。该框架模型经过训练,在胸部病理诊断、住院时长和48 h死亡风险预测任务中,性能相较于单模态模型平均提升了9%~28%。Golovanevsky等[32]提出一种基于影像、基因和临床数据的多模态阿尔兹海默症诊断框架,基因和临床数据输入到3层全连接网络后接入多头自注意力层,影像数据输入到3层的CNN后接入多头自注意力层,将三者的隐含层两两输入到跨模态注意力层进行模态间相互关系的学习,最后将3个跨模态表征连接后输入到全连接层,用于诊断轻度认知障碍、阿尔兹海默症和健康人群。该项研究结果表明,该框架模型的表现优于现有针对阿尔兹海默症多模态学习诊断的方法[33]。
当前,超过两类数据类型的多模态融合思路如图7所示,主要有:① 左侧,展示了各模态数据进行特征深度表征后融合,即使用适合各类数据的深度学习模型或其他嵌入算法来进行数据深度表征学习后,将这些经过表征学习后的深度特征连接起来输入到下游机器学习模型或全连接网络中进行融合;② 为更好地捕捉多种模态间的相互作用关系,右侧展示了另一种常见思路:基于注意力机制的信息融合,在多模态数据间使用自注意力机制和跨模态注意力机制模块,将经过跨模态作用的隐含特征连接融合输入到下游机器学习模型中。

3 挑战和展望
医学多模态数据融合分析是医学人工智能的重要研究方向之一。通过研究结构化电子病历与其他模态数据的融合方法,综合利用多模态医学数据,能从整体上更全面地理解患者病情从而及时采取正确的治疗措施。同质化的医学数据,如:① X光、CT、MRI等各类影像数据;② 心电、肌电、脑电、血压波等各类生理信号数据;③ 基因组、转录组、蛋白质组、代谢组等多组学数据;这种同类别下不同数据融合学习也常被称为多模态数据融合研究[34],但相比较而言异质化医学数据的融合更具挑战。本文重点关注异质化多模态医学数据,归纳分析了医学数据多模态融合领域相关文献,结果表明基于深度学习的医学多模态融合在疾病诊断和不良事件预测预警等临床应用领域具有巨大潜力。目前,Transformer架构在多模态数据融合学习方法中的应用日益广泛,然而该领域的发展仍面临诸多挑战,包括多模态医学数据的建模、多模态融合算法的临床应用以及跨学科合作等方面均需进一步展开深入研究。
3.1 多模态医学数据建模
(1)多模态医学数据预处理。由于不同模态的缺失模式程度、异常值情况等都不一样,需要数据分析人员掌握多种模态数据的预处理方法。对于文本数据要进行分词、词嵌入等,对于图像数据需要进行图像剪裁、图像增强等,对于生理信号数据需要进行信号滤波、异常值处理等,数据分析人员需要掌握更多知识与技能。
(2)多模态融合模型选择。多模态融合模型种类繁多,选择什么数据融合、在什么阶段融合、如何融合是研究中的难点问题,大多数研究是基于原始数据的深度特征来进行融合分析,高效地表征学习各模态数据是关键难点之一。目前,通常采用Transformer模型及其衍生模型进行特征表征,是否有更加适合表征多模态数据的模型架构尚需进一步探索。此外,构建能够自动选择最优融合方法的模型已成为研究热点。同时,识别仅采用单模态数据即可满足临床应用需求的情况也是构建模型时需要考虑的问题。此外,随着大模型的不断发展,如何利用大模型进行医学多模态融合的研究备受关注。
(3)多模态数据时间尺度信息处理。多模态数据大多是异步的,不同时刻的信息可能存在因果和延迟关系,如何关联以及判断其对预后的影响的研究具有一定挑战性,需要探索构建能反映不同模态数据在时间上的互补性和因果关系的模型。总的来说,多模态医学数据建模过程中数据预处理复杂,模型构建方法尚需探索。
3.2 多模态融合算法临床应用与评估
当前,多模态融合研究大多是基于回顾性数据进行模型训练与验证,医学多模态融合算法模型最终落脚点是临床应用,进行临床应用前需要进行真实世界临床试验测试与验证,从实验设计、数据处理、建立模型、模型测试、可重复性和安全性等各个方面进行全流程评估[35-36],关于医学多模态融合模型在我国临床应用存在以下难点:
(1)多模态融合算法模型的可重复性欠佳,包括泛化性能、可信度等欠佳。目前,一些医学人工智能研究是基于非公开数据集展开的,模型效果的可重复性有待验证。同时,生物医学领域缺少一些公认的基准任务以及基线模型,研究效果如何无法很好地比较。
(2)多模态融合算法模型的可解释性以及公平性尚未建立具体标准,已成为医学人工智能领域重点讨论问题之一[37]。随着模态增加,模型的复杂性增加,多模态模型更难以进行解释,模型公平性也增加了不确定性,这会导致模型可解释性降低,可能存在偏差。
(3)我国医学人工智能算法临床应用与评估,需要进一步建立、完善国家标准和指南,并应随着人工智能技术发展不断更新。
3.3 多学科交叉合作
在多模态医学数据融合建模和应用过程中,由于涉及到更广泛的医学数据和更多医学知识,工程人员与各类临床人员的紧密合作至关重要,这就需要临床人员参与到医学人工智能算法开发的整个过程中,包括在实验设计初期评估其合理性,在数据预处理中讨论数据缺失和异常的原因及临床含义,并评估插值和异常值处理方法是否合适等;在建模过程中,需要临床人员利用临床知识进行数据标注。此外,模型建立与验证阶段可能会出现一些反医学常识的错误,需要临床专家参与解读和调试模型。目前,大多数研究注重多模态融合方法的研究应用,而临床适用性、实用性和合理性等需要进一步与临床人员合作探讨。综上,构建医学多模态融合模型是一个复杂且不断迭代的过程,模型的验证与落地应用更是如此,需要数据科学家和各类医学专家共同参与到医学多模态融合人工智能研究与应用全过程,从而使得多模态融合模型能真正落地临床应用,以便更好地服务医生和患者。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突。
作者贡献声明:范勇负责文献收集、整理和撰写文章;王晶、张政波负责文章审校、对论文提出修改意见。