由于临床指标的多样性和复杂性,现有方法难以建立全面可靠的引产结果预测模型。因此,本研究旨在分析引产相关的临床指标,并建立和评估基于小样本数据的预测模型。研究对象为上海市第一妇婴保健院在2023年2月至2024年1月期间进行引产的90例孕产妇,临床指标共记录52项。采用最大信息系数(MIC)对临床指标进行特征选择,以降低特征高维特性引起的过拟合风险。然后,基于MIC选择的特征,将基于小样本的支持向量机(SVM)模型与基于大样本的全连接神经网络(FCNN)模型进行对比分析,并绘制受试者工作特征曲线(ROC)。通过计算MIC分值,特征维数由55维降至15维,SVM模型的曲线下面积(AUC)从特征选择前的0.872提高至0.923。模型对比结果显示,SVM的预测性能优于FCNN。研究表明,采用SVM进行引产结果预测效果良好,MIC特征选择有效地提高了模型的泛化能力。这一研究为引产结果的预测提供了可靠方法,具有潜在的临床应用前景。
引用本文: 秦雅莉, 姚莉萍, 袁玲, 陈胜. 基于小样本临床指标数据的引产预测模型构建. 生物医学工程学杂志, 2024, 41(5): 1012-1018. doi: 10.7507/1001-5515.202403033 复制
0 引言
引产(induction of labor,IOL)是指在自发分娩之前,通过人工方式启动子宫收缩,以完成阴道分娩[1]。目前,国际研究显示全球的引产率一直在上升,平均引产率为所有妊娠的20%~25%[2]。在美国,2020年的引产率(31.4%)是1990年(9.5%)的3倍以上[3]。有研究表明,妊娠晚期引产可以减少足月妊娠和足月后相关并发症的发生,并保护胎儿免受不良妊娠的影响[4];在37周或37周后,死胎和新生儿死亡的风险与胎龄呈线性关系,实施引产政策可显著降低围产期死亡率[5]。此外,随着妊娠期并发症的患病率越来越高,引产将变得更加普遍[6]。
近年来,随着医学大数据的丰富以及对这些数据进行更高效和准确分析的需求,机器学习在医学领域得到广泛应用,可以帮助提高许多疾病诊断系统的可靠性、可预测性和准确性[7]。其中,采用机器学习方法来构建关于引产结果的预测模型成为了热点[8]。但现有研究主要针对特定的人群或单一引产指征来构建预测模型,如Perelman等[9]研究了妊娠期高血压疾病在足月引产期间的进展。关于预测因子的筛选和临床特征统计分析,现有研究多采用单因素和多因素回归分析等方法,如Hu等[10]采用单因素和多因素分析方法筛选具有统计学意义的临床自变量,并构建引产预测模型。预测模型多采用logistic regression、random forest等模型进行搭建。如Huang等[11]以患有妊娠晚期高血压的孕产妇为研究对象,建立基于random forest预测引产结果的模型。
尽管统计分析和机器学习在预测引产结果方面具有一定研究价值,但也存在一些局限性,如样本量不足、临床特征有限以及模型解释能力不足等。此外,深度学习在处理复杂数据和模式识别方面具有独特优势,但在医学领域的应用仍面临对数据需求量大和模型解释性不足的挑战。目前尚未找到使用深度学习预测引产结果的相关文献。因此,本研究旨在克服现有研究的局限性,提高引产结果预测模型的准确性和临床应用性。研究中不仅扩大了临床特征记录范围,而且使用最大信息系数(maximal information coefficient,MIC)和统计分析进行特征筛选,以充分考虑预测因子的全面性并降低特征高维性所导致的过拟合风险。同时,本研究提出将传统机器学习中的支持向量机(support vector machine,SVM)与深度学习中的全连接神经网络(fully connected neural network,FCNN)进行对比分析,以确定适合小样本数据的最佳模型。
1 资料
1.1 数据与资料来源
本文的研究对象为2023年2月份至2024年1月份在上海市第一妇婴保健院进行引产的孕产妇,纳入标准为符合引产指征的孕妇,具体引产指征包括:① 孕周≥41周;② 妊娠期糖尿病(gestational diabetes mellitus,GDM);③ 妊娠期高血压(hypertensive disorder of pregnancy,HDP);④ 子痫前期;⑤ 胎儿生长受限(fetal growth restriction,FGR);⑥ 羊水少;⑦ 巨大胎儿;⑧ 胎儿窘迫;⑨ 自身免疫疾病(autoimmune disease,AID);⑩ 蛋白尿;⑪ 年龄≥40岁;⑫ 肝损伤;⑬ 妊娠期肝内胆汁淤积症(intrahepatic cholestasis of pregnancy,ICP);⑭ 血小板少;⑮ 抗磷脂综合征(antiphospholipid syndrome,APS)。
本研究的排除标准为引产过程中进行中转手术以及临床数据记录不完整的孕产妇。中转手术即产妇由引产转为剖宫产,进行中转手术的具体原因包括:① 产前发热;② 产程阻滞;③ 羊水污染; ④ 病情恶化;⑤ 血性羊水。
本研究符合纳入标准的孕产妇共计121例。其中12例孕妇进行了中转手术,19例因临床数据不完整而不纳入研究。最终参与本研究的样本人数为90例,包括引产失败组42例,引产成功组48例。
本研究利用G*Power 3.1.9.7进行先验分析估计样本容量。保证得到引产失败组和引产成功组的均值效应量为0.6的前提下(具体效应量计算公式和取值依据参见附件1),设定且检验效应
时,进行双尾检验,最终计算得到的总样本容量为90(具体图片参见附件2)。
为了分析影响引产结果的临床因素,本研究记录了引产结果(成功和失败)和研究对象的52项医学指标,包括:① 6项孕产妇基本信息:年龄、孕前BMI、引产孕周、分娩孕周、孕次、产次;② 10种妊娠并发症:GDM、HDP、轻度子痫前期(mild preeclampsia,MPE)、重度子痫前期(severe preeclampsia,SPE)、ICP、APS、AID、胎盘早剥(placental abruption,PA)、FGR、血小板少;其中AID具体包括4种疾病:未分化结缔组织病(undifferentiated connective tissue disease,UCTD)、联合免疫缺陷(combined immunodeficiency,CID)、静脉血栓栓塞症(venous thrombosis embolism,VTE)、干燥综合征(Sjogren’s syndrome,SS);③ 8项医疗操作及治疗指标:人工破膜(artificial rupture of membrane,ARM)、cook球囊放置、催产素、早孕人流次数、12至27+6周引产次数、宫颈手术史、宫腔镜手术次数、胎膜早破(premature rupture of membrane,PROM);④ cook球囊放置前、后的6项宫颈超声弹性指标(如图1所示,球囊放置前、后各6项,共12项):宫颈长度(cervical length,CL)、弹性对比指数(elasticity contrast index,ECI)、硬度比值(hardness ratio,HR)、宫颈内口应变值(cervical internal os strain value,IOS)、宫颈外口应变值(cervical external os strain value,EOS)、宫颈内外口应变比值(IOS/EOS ratio);⑤ cook球囊放置前、后的Bishop评分(球囊放置前、后各1项,共2项);同时,Bishop评分中也包含5项具体的评分指标(球囊放置前、后各5项,共10项):宫颈容受、宫颈质地、先露高低、宫颈位置、宫口。

本研究定义引产成功的标准为9小时内主动分娩或24小时内分娩[12],主动分娩定义为宫颈扩张至少6 cm[13]。引产失败定义为进行催产12小时后仍未进入活跃期,未进入活跃期定义为子宫颈未能在胎膜破裂、催产素引发或24小时Bishop评分小于6分后12小时内扩张至6 cm[14]。
1.2 方法
1.2.1 数据预处理
本研究对临床数据进行预处理,包括删除缺失值和常数特征,以确保数据质量和完整性。本研究中没有包含缺失值的临床指标,而数据中的“宫颈手术史”、“MPE”、“SPE”、“cook球囊放置”、球囊放置前/后的“宫口”以及球囊放置后的“宫颈质地”共7项指标为常数特征,故删除。最终参与MIC计算和统计分析的临床指标共计45项。在统计分析中,仅删除缺失值和常数特征的处理,不进行其他数据预处理。分类特征通过One-Hot编码转换为二进制形式,以适应后续建模需求。考虑到预测模型对特征尺度的敏感性,本研究使用Z-score标准化来确保计量资料的尺度一致性,以提高模型的鲁棒性。数据预处理后,45项医学指标转化为55个特征维度。
1.2.2 特征筛选
特征维数越高,模型过拟合风险越大[15],而本研究在数据预处理后仍有55个高维特征,为解决这一问题,采用MIC特征选择方法选择与目标变量最相关的特征,并通过统计分析验证其所选特征的有效性。
MIC是衡量变量之间相关性的有效度量,包括线性和非线性变量之间的关联,并具有通用性和公平性,因此在测量两个变量的相关性方面具有良好的性能[16]。MIC是一种基于互信息且具有更高准确性的方法[17]。互信息的计算公式为:
![]() |
式中,是变量X与Y之间的互信息,
是变量间的联合概率密度。
在X-Y网格上分布的最大可能互信息为,故将最大信息系数度量值除以该最大可能互信息,便可将互信息值进行归一化,得到最大信息系数的计算公式为:
![]() |
式中,为变量间的MIC分值,其取值范围为0到1。B为网格数,一般为数据总量的0.6次方。
1.2.3 统计分析
本研究使用SPSS 26.0统计软件进行临床特征的统计分析,以组间差异具有统计学意义为主要结果观测,分组依据为引产结果。本研究中将显著性水平设置为0.05,故双尾P < 0.05表示组间差异具有统计学意义。变量赋值方法:连续变量保留其原始数值;分类变量用“有”和“无”表示;有序变量用0、1、2等递增数值表示对应临床特征中的等级。
本研究选用概率-概率图(probability-probability plot,P-P图)和分位数-分位数图(quantile-quantile plot,Q-Q图)检验连续变量的正态性。实验结果表明,本研究中的连续变量均符合正态分布。其中,满足方差齐性的连续变量用均数±标准差表示,组间比较采用检验;不满足方差齐性的连续变量用中位数(四分位数间距)表示,组间比较采用Welch’s t-test方法。分类变量用频数表示,组间比较采用卡方检验。有序变量用频数表示,采用非参数检验中的Mann-Whitney U-test方法。
1.2.4 预测模型
SVM是一种监督学习算法,通过最大化分类边界与支持向量的距离来实现准确分类[18]。SVM在应对复杂数据结构和非线性决策边界表现出色,因此能够有效应用于二分类或多分类任务,并且相较于其他分类算法,SVM更适合处理小样本数据的预测和分类任务[19]。
本研究中SVM模型采用非线性核函数中的径向基函数(radial basis function,RBF)与L2正则化。使用基于Hinge Loss的损失函数(具体计算公式参见附件3),以最大化间隔并减少误分类点与超平面之间的距离。启用概率估计功能以增强模型的可解释性。通过网格搜索和5折交叉验证确定最佳实验参数:RBF核参数= 'scale',
= 0.1。
FCNN是一种传统的深度学习模型,由输入层、一个或多个隐藏层和输出层组成。其训练过程中采用反向传播算法,通过计算损失函数的梯度来更新网络权重,以最小化损失函数,使模型更好地拟合训练数据[20]。FCNN能够有效学习特征并预测输出,因此广泛应用于二分类和回归任务中。
本研究的FCNN模型采用了一个隐藏层,包含20个神经元。使用ReLU作为激活函数,并应用Dropout层以减少过拟合的风险。输出层使用Sigmoid激活函数进行二分类问题的概率输出(具体运算过程参见附件4)。
本实验在Python 3.6.5环境下进行预测模型搭建,利用scikit-learn 0.24.2库中的机器学习算法和工具,TensorFlow 2.6.2作为深度学习后端引擎。同时,Keras 2.6.0作为TensorFlow后端的高级接口,用于神经网络建模。
1.2.5 模型评估
受试者工作特征曲线(receiver operating characteristic,ROC)用于描述在不同分类阈值下,二分类模型的真正例率与假正例率之间的权衡关系。曲线下面积(area under the curve,AUC)是ROC曲线下方的面积,用来量化模型在整个ROC空间下的性能[21]。
2 结 果
2.1 实验结构
本实验流程如图2所示。首先,进行样本总量的先验分析;其次,对临床特征进行预处理以降低建模复杂度;然后,通过MIC分值筛选预测因子,并用统计方法验证其有效性;最后,通过ROC曲线和AUC值对比SVM与FCNN模型的性能,最终选出最适合小样本数据的引产结果预测模型。

2.2 MIC分值
本研究采用Pycharm2019.3.3对数据预处理后的55维临床特征进行MIC分值计算,并通过对比统计学方法筛选出的特征来确定MIC分值的选择标准。实验表明,当MIC分值大于0.155时,与统计分析筛选的特征重合度最高,所筛选出的特征如表1所示(具体MIC分值汇总表参见附件5)。

因此,最终选取MIC分值大于0.155的14维临床特征为预测因子。结合临床依据,Bishop评分是预测引产结果的重要指标[22-23],故将球囊放置后的Bishop评分也列为预测因子。
2.3 统计检验
由表2可知,15个临床特征的双尾P值均小于0.05,具有统计学意义(连续变量、分类变量、有序变量的具体检验结果参见附件6、7和8)。

对比通过MIC所筛选出的14维特征和通过统计分析所筛选出的15个统计特征可以发现,两种方法所筛选出的预测因子呈现出极高的相似性,进一步证明了MIC筛选特征的可信度。其中,11个相同特征包括:引产孕周、分娩孕周;球囊放置前:CL、ECI、HR、IOS/EOS ratio、EOS;球囊放置后:CL、HR、先露高低、宫颈位置。这些特征以宫颈弹性成像参数居多,近年研究也表明宫颈弹性参数在引产结果预测中具有重要价值[24],如Yang等[25]的研究证明宫颈应变弹性成像可以有效预测引产的成功率。此外,MIC筛选出的孕前BMI虽然未被统计分析筛选出,但近年来许多研究表明,孕前BMI在预测引产结果方面具有临床价值,如Ellis等[26]系统综述和荟萃分析发现,较高的BMI会显著影响引产的结果。
2.4 预测性能
本研究采用留一法交叉验证(leave-one-out cross-validation,LOO-CV)对数据集进行划分,以确保模型训练结果更加可靠。将最终所筛选的15维特征作为预测因子,引产结果为目标变量(属于二分类变量)。特征选择前、后的SVM和FCNN实验结果如图3所示。其中,筛选前的特征指进行MIC分值计算的55维特征。

实验结果表明,在特征筛选前,两种预测模型均出现了过拟合现象。通过MIC特征筛选后,模型的泛化能力得到提升,有效降低了两种预测模型的过拟合风险。同时,将SVM与FCNN的预测性能进行对比后发现,SVM在特征选择前、后的预测性能均优于FCNN,更适用于本研究中的小样本临床预测,因此最终选用SVM作为引产结果的预测模型。
此外,本研究还选用统计方法筛选的15个特征建立了SVM预测模型,结果表明该模型具有良好的预测性能,但存在过拟合现象(具体ROC曲线参见附件9)。
3 讨论与结论
本研究提出了一种结合MIC与统计检验方法的新思路,验证了MIC在高维特征选择中的有效性。实验结果表明,MIC所筛选出的预测因子降低了模型过拟合风险。相比传统统计学特征选择方法,MIC方法训练速度更快、应用简便,尤其适用于复杂临床数据分析,并能够考虑到非线性关系和数据分布等条件。此外,筛选出的临床特征表明,引产结果与母体整体健康、子宫内胎儿发育、宫颈状态及引产技术因素有关,尤其是宫颈超声弹性指数在预测中发挥了重要作用。
尽管本研究取得了有意义的进展,但也有一些局限性。例如,本研究的样本量尚需扩大,以增强实验的可靠性;在特征筛选后,训练集AUC结果略有下降,这为未来研究提供了改进的空间。之后,本研究将进一步扩大样本规模和深入探索模型性能的波动,以更全面地了解研究问题的复杂性。
综上,本研究创新性地采用SVM进行引产结果预测,扩展了临床特征范围,将人工智能方法应用于妇产科临床结果预测与分析,并通过统计学验证其有效性。实验结果显示,SVM在小样本数据上表现优异,基于上海市第一妇婴保健院的数据集,提供了可靠的预测结果。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突。
作者贡献声明:秦雅莉负责研究构思、设计、数据分析与代码实现,并撰写论文;姚莉萍负责数据解释、统计学分析指导,并在医学层面提供指导;袁玲负责数据收集、校对,以及在妇产科领域的补充内容;陈胜负责人工智能技术指导、监督研究,同时提供资金支持。
伦理声明:本研究通过了同济大学附属妇产科医学伦理委员会的审批(批文编号:KS2479)。
本文附件见本刊网站的电子版本(biomedeng.cn)。
0 引言
引产(induction of labor,IOL)是指在自发分娩之前,通过人工方式启动子宫收缩,以完成阴道分娩[1]。目前,国际研究显示全球的引产率一直在上升,平均引产率为所有妊娠的20%~25%[2]。在美国,2020年的引产率(31.4%)是1990年(9.5%)的3倍以上[3]。有研究表明,妊娠晚期引产可以减少足月妊娠和足月后相关并发症的发生,并保护胎儿免受不良妊娠的影响[4];在37周或37周后,死胎和新生儿死亡的风险与胎龄呈线性关系,实施引产政策可显著降低围产期死亡率[5]。此外,随着妊娠期并发症的患病率越来越高,引产将变得更加普遍[6]。
近年来,随着医学大数据的丰富以及对这些数据进行更高效和准确分析的需求,机器学习在医学领域得到广泛应用,可以帮助提高许多疾病诊断系统的可靠性、可预测性和准确性[7]。其中,采用机器学习方法来构建关于引产结果的预测模型成为了热点[8]。但现有研究主要针对特定的人群或单一引产指征来构建预测模型,如Perelman等[9]研究了妊娠期高血压疾病在足月引产期间的进展。关于预测因子的筛选和临床特征统计分析,现有研究多采用单因素和多因素回归分析等方法,如Hu等[10]采用单因素和多因素分析方法筛选具有统计学意义的临床自变量,并构建引产预测模型。预测模型多采用logistic regression、random forest等模型进行搭建。如Huang等[11]以患有妊娠晚期高血压的孕产妇为研究对象,建立基于random forest预测引产结果的模型。
尽管统计分析和机器学习在预测引产结果方面具有一定研究价值,但也存在一些局限性,如样本量不足、临床特征有限以及模型解释能力不足等。此外,深度学习在处理复杂数据和模式识别方面具有独特优势,但在医学领域的应用仍面临对数据需求量大和模型解释性不足的挑战。目前尚未找到使用深度学习预测引产结果的相关文献。因此,本研究旨在克服现有研究的局限性,提高引产结果预测模型的准确性和临床应用性。研究中不仅扩大了临床特征记录范围,而且使用最大信息系数(maximal information coefficient,MIC)和统计分析进行特征筛选,以充分考虑预测因子的全面性并降低特征高维性所导致的过拟合风险。同时,本研究提出将传统机器学习中的支持向量机(support vector machine,SVM)与深度学习中的全连接神经网络(fully connected neural network,FCNN)进行对比分析,以确定适合小样本数据的最佳模型。
1 资料
1.1 数据与资料来源
本文的研究对象为2023年2月份至2024年1月份在上海市第一妇婴保健院进行引产的孕产妇,纳入标准为符合引产指征的孕妇,具体引产指征包括:① 孕周≥41周;② 妊娠期糖尿病(gestational diabetes mellitus,GDM);③ 妊娠期高血压(hypertensive disorder of pregnancy,HDP);④ 子痫前期;⑤ 胎儿生长受限(fetal growth restriction,FGR);⑥ 羊水少;⑦ 巨大胎儿;⑧ 胎儿窘迫;⑨ 自身免疫疾病(autoimmune disease,AID);⑩ 蛋白尿;⑪ 年龄≥40岁;⑫ 肝损伤;⑬ 妊娠期肝内胆汁淤积症(intrahepatic cholestasis of pregnancy,ICP);⑭ 血小板少;⑮ 抗磷脂综合征(antiphospholipid syndrome,APS)。
本研究的排除标准为引产过程中进行中转手术以及临床数据记录不完整的孕产妇。中转手术即产妇由引产转为剖宫产,进行中转手术的具体原因包括:① 产前发热;② 产程阻滞;③ 羊水污染; ④ 病情恶化;⑤ 血性羊水。
本研究符合纳入标准的孕产妇共计121例。其中12例孕妇进行了中转手术,19例因临床数据不完整而不纳入研究。最终参与本研究的样本人数为90例,包括引产失败组42例,引产成功组48例。
本研究利用G*Power 3.1.9.7进行先验分析估计样本容量。保证得到引产失败组和引产成功组的均值效应量为0.6的前提下(具体效应量计算公式和取值依据参见附件1),设定且检验效应
时,进行双尾检验,最终计算得到的总样本容量为90(具体图片参见附件2)。
为了分析影响引产结果的临床因素,本研究记录了引产结果(成功和失败)和研究对象的52项医学指标,包括:① 6项孕产妇基本信息:年龄、孕前BMI、引产孕周、分娩孕周、孕次、产次;② 10种妊娠并发症:GDM、HDP、轻度子痫前期(mild preeclampsia,MPE)、重度子痫前期(severe preeclampsia,SPE)、ICP、APS、AID、胎盘早剥(placental abruption,PA)、FGR、血小板少;其中AID具体包括4种疾病:未分化结缔组织病(undifferentiated connective tissue disease,UCTD)、联合免疫缺陷(combined immunodeficiency,CID)、静脉血栓栓塞症(venous thrombosis embolism,VTE)、干燥综合征(Sjogren’s syndrome,SS);③ 8项医疗操作及治疗指标:人工破膜(artificial rupture of membrane,ARM)、cook球囊放置、催产素、早孕人流次数、12至27+6周引产次数、宫颈手术史、宫腔镜手术次数、胎膜早破(premature rupture of membrane,PROM);④ cook球囊放置前、后的6项宫颈超声弹性指标(如图1所示,球囊放置前、后各6项,共12项):宫颈长度(cervical length,CL)、弹性对比指数(elasticity contrast index,ECI)、硬度比值(hardness ratio,HR)、宫颈内口应变值(cervical internal os strain value,IOS)、宫颈外口应变值(cervical external os strain value,EOS)、宫颈内外口应变比值(IOS/EOS ratio);⑤ cook球囊放置前、后的Bishop评分(球囊放置前、后各1项,共2项);同时,Bishop评分中也包含5项具体的评分指标(球囊放置前、后各5项,共10项):宫颈容受、宫颈质地、先露高低、宫颈位置、宫口。

本研究定义引产成功的标准为9小时内主动分娩或24小时内分娩[12],主动分娩定义为宫颈扩张至少6 cm[13]。引产失败定义为进行催产12小时后仍未进入活跃期,未进入活跃期定义为子宫颈未能在胎膜破裂、催产素引发或24小时Bishop评分小于6分后12小时内扩张至6 cm[14]。
1.2 方法
1.2.1 数据预处理
本研究对临床数据进行预处理,包括删除缺失值和常数特征,以确保数据质量和完整性。本研究中没有包含缺失值的临床指标,而数据中的“宫颈手术史”、“MPE”、“SPE”、“cook球囊放置”、球囊放置前/后的“宫口”以及球囊放置后的“宫颈质地”共7项指标为常数特征,故删除。最终参与MIC计算和统计分析的临床指标共计45项。在统计分析中,仅删除缺失值和常数特征的处理,不进行其他数据预处理。分类特征通过One-Hot编码转换为二进制形式,以适应后续建模需求。考虑到预测模型对特征尺度的敏感性,本研究使用Z-score标准化来确保计量资料的尺度一致性,以提高模型的鲁棒性。数据预处理后,45项医学指标转化为55个特征维度。
1.2.2 特征筛选
特征维数越高,模型过拟合风险越大[15],而本研究在数据预处理后仍有55个高维特征,为解决这一问题,采用MIC特征选择方法选择与目标变量最相关的特征,并通过统计分析验证其所选特征的有效性。
MIC是衡量变量之间相关性的有效度量,包括线性和非线性变量之间的关联,并具有通用性和公平性,因此在测量两个变量的相关性方面具有良好的性能[16]。MIC是一种基于互信息且具有更高准确性的方法[17]。互信息的计算公式为:
![]() |
式中,是变量X与Y之间的互信息,
是变量间的联合概率密度。
在X-Y网格上分布的最大可能互信息为,故将最大信息系数度量值除以该最大可能互信息,便可将互信息值进行归一化,得到最大信息系数的计算公式为:
![]() |
式中,为变量间的MIC分值,其取值范围为0到1。B为网格数,一般为数据总量的0.6次方。
1.2.3 统计分析
本研究使用SPSS 26.0统计软件进行临床特征的统计分析,以组间差异具有统计学意义为主要结果观测,分组依据为引产结果。本研究中将显著性水平设置为0.05,故双尾P < 0.05表示组间差异具有统计学意义。变量赋值方法:连续变量保留其原始数值;分类变量用“有”和“无”表示;有序变量用0、1、2等递增数值表示对应临床特征中的等级。
本研究选用概率-概率图(probability-probability plot,P-P图)和分位数-分位数图(quantile-quantile plot,Q-Q图)检验连续变量的正态性。实验结果表明,本研究中的连续变量均符合正态分布。其中,满足方差齐性的连续变量用均数±标准差表示,组间比较采用检验;不满足方差齐性的连续变量用中位数(四分位数间距)表示,组间比较采用Welch’s t-test方法。分类变量用频数表示,组间比较采用卡方检验。有序变量用频数表示,采用非参数检验中的Mann-Whitney U-test方法。
1.2.4 预测模型
SVM是一种监督学习算法,通过最大化分类边界与支持向量的距离来实现准确分类[18]。SVM在应对复杂数据结构和非线性决策边界表现出色,因此能够有效应用于二分类或多分类任务,并且相较于其他分类算法,SVM更适合处理小样本数据的预测和分类任务[19]。
本研究中SVM模型采用非线性核函数中的径向基函数(radial basis function,RBF)与L2正则化。使用基于Hinge Loss的损失函数(具体计算公式参见附件3),以最大化间隔并减少误分类点与超平面之间的距离。启用概率估计功能以增强模型的可解释性。通过网格搜索和5折交叉验证确定最佳实验参数:RBF核参数= 'scale',
= 0.1。
FCNN是一种传统的深度学习模型,由输入层、一个或多个隐藏层和输出层组成。其训练过程中采用反向传播算法,通过计算损失函数的梯度来更新网络权重,以最小化损失函数,使模型更好地拟合训练数据[20]。FCNN能够有效学习特征并预测输出,因此广泛应用于二分类和回归任务中。
本研究的FCNN模型采用了一个隐藏层,包含20个神经元。使用ReLU作为激活函数,并应用Dropout层以减少过拟合的风险。输出层使用Sigmoid激活函数进行二分类问题的概率输出(具体运算过程参见附件4)。
本实验在Python 3.6.5环境下进行预测模型搭建,利用scikit-learn 0.24.2库中的机器学习算法和工具,TensorFlow 2.6.2作为深度学习后端引擎。同时,Keras 2.6.0作为TensorFlow后端的高级接口,用于神经网络建模。
1.2.5 模型评估
受试者工作特征曲线(receiver operating characteristic,ROC)用于描述在不同分类阈值下,二分类模型的真正例率与假正例率之间的权衡关系。曲线下面积(area under the curve,AUC)是ROC曲线下方的面积,用来量化模型在整个ROC空间下的性能[21]。
2 结 果
2.1 实验结构
本实验流程如图2所示。首先,进行样本总量的先验分析;其次,对临床特征进行预处理以降低建模复杂度;然后,通过MIC分值筛选预测因子,并用统计方法验证其有效性;最后,通过ROC曲线和AUC值对比SVM与FCNN模型的性能,最终选出最适合小样本数据的引产结果预测模型。

2.2 MIC分值
本研究采用Pycharm2019.3.3对数据预处理后的55维临床特征进行MIC分值计算,并通过对比统计学方法筛选出的特征来确定MIC分值的选择标准。实验表明,当MIC分值大于0.155时,与统计分析筛选的特征重合度最高,所筛选出的特征如表1所示(具体MIC分值汇总表参见附件5)。

因此,最终选取MIC分值大于0.155的14维临床特征为预测因子。结合临床依据,Bishop评分是预测引产结果的重要指标[22-23],故将球囊放置后的Bishop评分也列为预测因子。
2.3 统计检验
由表2可知,15个临床特征的双尾P值均小于0.05,具有统计学意义(连续变量、分类变量、有序变量的具体检验结果参见附件6、7和8)。

对比通过MIC所筛选出的14维特征和通过统计分析所筛选出的15个统计特征可以发现,两种方法所筛选出的预测因子呈现出极高的相似性,进一步证明了MIC筛选特征的可信度。其中,11个相同特征包括:引产孕周、分娩孕周;球囊放置前:CL、ECI、HR、IOS/EOS ratio、EOS;球囊放置后:CL、HR、先露高低、宫颈位置。这些特征以宫颈弹性成像参数居多,近年研究也表明宫颈弹性参数在引产结果预测中具有重要价值[24],如Yang等[25]的研究证明宫颈应变弹性成像可以有效预测引产的成功率。此外,MIC筛选出的孕前BMI虽然未被统计分析筛选出,但近年来许多研究表明,孕前BMI在预测引产结果方面具有临床价值,如Ellis等[26]系统综述和荟萃分析发现,较高的BMI会显著影响引产的结果。
2.4 预测性能
本研究采用留一法交叉验证(leave-one-out cross-validation,LOO-CV)对数据集进行划分,以确保模型训练结果更加可靠。将最终所筛选的15维特征作为预测因子,引产结果为目标变量(属于二分类变量)。特征选择前、后的SVM和FCNN实验结果如图3所示。其中,筛选前的特征指进行MIC分值计算的55维特征。

实验结果表明,在特征筛选前,两种预测模型均出现了过拟合现象。通过MIC特征筛选后,模型的泛化能力得到提升,有效降低了两种预测模型的过拟合风险。同时,将SVM与FCNN的预测性能进行对比后发现,SVM在特征选择前、后的预测性能均优于FCNN,更适用于本研究中的小样本临床预测,因此最终选用SVM作为引产结果的预测模型。
此外,本研究还选用统计方法筛选的15个特征建立了SVM预测模型,结果表明该模型具有良好的预测性能,但存在过拟合现象(具体ROC曲线参见附件9)。
3 讨论与结论
本研究提出了一种结合MIC与统计检验方法的新思路,验证了MIC在高维特征选择中的有效性。实验结果表明,MIC所筛选出的预测因子降低了模型过拟合风险。相比传统统计学特征选择方法,MIC方法训练速度更快、应用简便,尤其适用于复杂临床数据分析,并能够考虑到非线性关系和数据分布等条件。此外,筛选出的临床特征表明,引产结果与母体整体健康、子宫内胎儿发育、宫颈状态及引产技术因素有关,尤其是宫颈超声弹性指数在预测中发挥了重要作用。
尽管本研究取得了有意义的进展,但也有一些局限性。例如,本研究的样本量尚需扩大,以增强实验的可靠性;在特征筛选后,训练集AUC结果略有下降,这为未来研究提供了改进的空间。之后,本研究将进一步扩大样本规模和深入探索模型性能的波动,以更全面地了解研究问题的复杂性。
综上,本研究创新性地采用SVM进行引产结果预测,扩展了临床特征范围,将人工智能方法应用于妇产科临床结果预测与分析,并通过统计学验证其有效性。实验结果显示,SVM在小样本数据上表现优异,基于上海市第一妇婴保健院的数据集,提供了可靠的预测结果。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突。
作者贡献声明:秦雅莉负责研究构思、设计、数据分析与代码实现,并撰写论文;姚莉萍负责数据解释、统计学分析指导,并在医学层面提供指导;袁玲负责数据收集、校对,以及在妇产科领域的补充内容;陈胜负责人工智能技术指导、监督研究,同时提供资金支持。
伦理声明:本研究通过了同济大学附属妇产科医学伦理委员会的审批(批文编号:KS2479)。
本文附件见本刊网站的电子版本(biomedeng.cn)。