颞下颌关节紊乱病(TMD)是一种常见的口腔颌面部疾病,前期症状不明显,不易被发现。本文提出了一种可用于边缘计算设备的TMD智能诊断系统,实现了在临床诊断中快速筛查TMD,以辅助临床对TMD进行早期干预。该系统首先对颞下颌关节各解剖部位进行自动化分割,然后对关节间隙进行定量测量,最后基于测量结果进行预测。在分割方面,本文利用半监督学习技术,实现了颞下颌关节部位的精确分割,平均戴斯系数(DC)达到了0.846。本文还提出颞下颌关节三维(3D)间隙区域自动提取算法,建立了TMD自动诊断模型,最终准确率达到83.87%。综上,本文开发了TMD智能诊断系统,并将其部署在局域网内的边缘计算设备上,以期实现隐私保障下的TMD的快速筛查和智能诊断。
引用本文: 张明浩, 杨东, 李小囡, 张倩, 刘之洋. 颞下颌关节紊乱病智能诊断系统的研究与实现. 生物医学工程学杂志, 2024, 41(5): 869-877. doi: 10.7507/1001-5515.202402002 复制
0 引言
颞下颌关节紊乱病(temporomandibular joint disorder,TMD)是一种常见的口腔颌面部疾病,是骨关节炎的一个重要分支,其主要表现为下颌运动异常、疼痛、弹响、杂音以及影响咀嚼等问题,部分患者可能会发生头痛、口面疼痛、颈痛或肩胛骨疼痛等非特异性表现[1]。TMD在前期临床症状不明显,一般于病情中期被发现,使得其不易被及早发现及治疗。锥形束计算机断层成像(cone beam computed tomography,CBCT)能够三维(3-dimension,3D)成像以显示患者口腔全貌,目前已广泛应用于口腔医学诊疗中。与传统计算机断层成像(computed tomography,CT)相比,CBCT具有拍摄范围广、辐射剂量低、曝光时间短、分辨率高、伪影轻等优势[2]。傅开元等[3]将颞下颌关节骨关节病的CBCT影像特征分为6种不同类型,能够清晰地观察到髁突位置改变和骨质结构改变[4],便于对TMD进行更加科学准确地诊断,有助于及早发现并控制TMD。
CBCT医学影像的人工分析很大程度上依赖医生丰富的临床经验和背景知识,主观性较强,且会消耗大量人力。利用深度学习训练神经网络实现自动化的医学影像分割,能够取得较高的准确度并可消除由于个体主观影响带来的差异,且在分割图上通过数学分析及定量计算能够判断患者髁突位置改变和骨质结构改变,进而对TMD进行自动诊断,降低医生的工作量。但是,深度学习的训练通常需要大量的有标签数据。目前的公开数据集中,CBCT影像相关的数据集大多集中于牙齿分割[5-6]和牙神经槽分割[7-8],缺少关于颞下颌关节解剖结构分割标签的CBCT影像。而在CBCT中,逐张标注相关解剖结构的工作量较大,标注成本较高,因此本文提出了采用小样本学习训练分割网络的方法。
在影像分割方面,Chen等[9]提出的深度实验室网络(DeepLab)采用空洞卷积在减少信息丢失的情况下扩大了感受野,并加入全连接条件随机场(conditional random field,CRF)解决边缘分割不准确的问题。Ronneberger等[10]提出的U型网络(U-Net)通过跳跃连接结构将编码器底层特征与解码器高层特征进行融合,以提高分割精度,在生物医学领域取得了非常好的效果。对U-Net进行3D扩展构建的网络(3D-Unet)[11],目前已广泛应用于医学影像分割。Schlemper等[12]提出将注意力机制引入U-Net结构,这种提出的注意力U-Net(attention U-Net,Attn-Unet)能够有效地突出前景部分,帮助模型捕捉目标特征。Chen等[13]提出将变换器(transformer)结构融入进U-Net(transformer U-Net,TransUnet)中,使其同时具有U-Net和transformer的优点,在医学影像分割任务上取得了更好的效果。Cao等[14]提出的移位窗口U-Net(Swin-Unet)采用了U-Net的U型结构,但完全使用了移位窗口transformer(Swin-Transformer)[15]进行编解码,并设计了扩展层恢复特征图分辨率,获得了比单纯卷积神经网络(convolutional neural networks,CNN)模型或transformer与CNN结合模型更优的效果。
在小样本学习方面,元学习方法利用支撑集所习得的经验来指导问询集的任务,使得机器“学会如何学习”[16]。Goodfellow等[17]提出的生成对抗网络(generative adversarial nets,GAN)通过生成器与判别器之间的博弈,可以利用无标签数据生成样本,适用于小样本学习。Zhang等[18]提出的类别不可知网络(class-agnostic network,CANet)通过构建由密集比较模块和迭代优化模块组成的框架,在单样本和5样本训练上取得了优秀的效果。Dong等[19]将原型网络引入小样本图像分割中,通过度量学习与排列训练,获得了大幅超过基准模型的性能。Lai等[20]通过半监督学习的方式对有标签数据与无标签数据进行训练,减少了标注的需求量。Ouyang等[21]提出了自适应局部原型池化,并采用自监督学习的方法,在医学影像分割上获得了优于有标注的少样本方法。
基于上述研究,本文采用GAN进行CBCT影像分割,并采用半监督学习的方法,用无标签数据加强分割效果;提出了颞下颌关节3D间隙区域提取算法,并建立了TMD自动诊断模型用于开发TMD智能诊断系统,最终将其部署在位于局域网内的边缘计算设备上,以期在保障用户隐私的前提下,实现TMD的快速筛查与智能诊断。
1 需求分析
根据临床需求,本系统应包括用户界面模块、系统通信模块、自动诊断模块、结果显示模块,应具有登录注册功能、影像文件上传功能、影像分割功能、3D区域特征提取功能、TMD诊断功能、同步异步展示功能,系统整体功能模块如图1所示。同时为了方便用户使用,本系统还应使中间过程进行可视化展示,保证诊断流程高效准确,用户交互界面友好和保障用户信息安全。

2 TMD自动诊断方法
TMD自动诊断方法的流程为:首先将CBCT影像进行分割,得到3D分割图;再通过3D分割图对颞下颌关节3D间隙区域进行提取;最终从获得的3D区域中提取3D特征并通过TMD自动诊断模型获得诊断结果。
2.1 口腔CBCT影像分割
2.1.1 口腔CBCT影像数据
本研究经南开大学生物医学伦理委员会批准(批准号:NKUIRB2021115),所用数据经天津医科大学口腔医院授权,回溯性收集天津医科大学口腔医院采集的CBCT影像数据,所有数据由CBCT系统(KaVo 3D eXam,KaVo Dental,美国)采集。本文共收集CBCT影像131例,其中25例由医师标注颞下颌关节附近的分割标签,标注部位为颞骨、踝骨突和外耳道。首先,将数据划分为训练集和测试集,其中训练集包含19例有标签样本和106例无标签样本,测试集包含6例有标签样本。考虑到有标签样本数量较少,本文采用GAN进行半监督学习[17],利用无标签数据增强分割的效果。
2.1.2 影像分割网络
影像分割网络由生成器与判别器组成,其结构如图2所示。

本文生成器采用U-Net作为基础架构,并在每层编码块和解码块之间加入了跳跃连接结构。编码块在传统的残差块之后额外增加一层卷积块,包括卷积、批归一化和线性整流函数(rectified linear unit,ReLU),使编码器中的参数占比提升,从而能够更好地从小样本数据中提取信息。解码块采用U-Net的解码器结构,将当前层跳跃连接结构输出与上一层输出进行连接并输入解码块中,用于融合不同尺度的信息,并输出影像分割结果。本文在跳跃连接结构中加入了注意力块,其中包括空间注意力和通道注意力,来进一步提升网络的性能,其中空间注意力包括全局平均池化和柔性最大化(softmax)操作,通道注意力包括通道平均池化操作。判别器采用较为简单的神经网络结构,其中包括卷积层、平均池化层、线性层,激活函数采用泄漏ReLU函数(leaky ReLU,LReLU),此外本文还在部分卷积层中加入了随机失活(Dropout)以防止过拟合。输入为病例CBCT影像与生成器的分割结果yseg的连接;输出为二值:0或者1,输出为0代表判别器判定输入的影像为生成器伪造的分割图,输出为1代表判别器判定输入的影像为病例的真实分割图。各模块结构如图3所示。

2.1.3 神经网络训练
CBCT影像中,不同的组织结构具有不同的CT值[22]。在医学影像处理中,通常采用加窗函数的方法提取出要研究的部位,以提高医生的效率。本文采用CBCT值区间为−600~700的窗函数对原始影像进行处理,并将数据归一化为均值为0、方差为1的变量。其次,本文对训练集数据进行数据增强,包括尺寸缩放、随机旋转、随机裁剪、坐标轴翻转、强度变化、强度缩放和弹性形变。最后,每个批次包括6个经过预处理的影像切块,大小为128 × 128 × 128;其中4个切块有标签,2个无标签。为了降低显存占用,将样本下采样至96 × 96 × 96,其中CBCT影像采用三线性采样,标签采用最近邻采样。
在小样本影像分割背景下,生成器损失函数需要充分考虑和利用各类有效信息。本文生成器损失函数由分割损失和对抗损失组成,如式(1)所示:
![]() |
其中,L为生成器损失函数,LCE为交叉熵损失函数,LDice为戴斯(Dice)损失函数,Ladv为判别器的损失函数,b为Ladv的权重系数,如式(2)~式(4)所示:
![]() |
![]() |
![]() |
其中,N为样本数量,pi为样本标签,qi为生成器输出,wi为第i个样本的权重参数,yi为判别器输出值,xi为二值标签。
b为式(1)中Ladv的权重系数,本文引入半监督学习的温度系数概念[23],其定义如式(5)所示:
![]() |
其中,,n是当前循环计数值,r为温度系数,本文默认取40.0。
判别器的目的是分辨出输入影像的来源,故判别器损失函数要将生成器输出以及具有真实标签的影像输入判别器中进行判别,其损失函数如式(6)所示:
![]() |
其中,LD为判别器损失函数,LG和Llabel分别为判别器对生成器输出的判别结果与其标签的二分类交叉熵,二分类交叉熵表达式如式(7)所示:
![]() |
其中,LBCE为二分类交叉熵,N为样本数量,wi为每个样本的权重参数,xi为判别器输出值,yi为判别器对生成器预测结果判别的标签值。LG中yi的值为0,Llabel中yi的值为1。
本文生成器与判别器均训练300轮,每轮训练150次,共计45 000次梯度更新。生成器优化方式选择无动量的均方根传播算法(root mean square propagation,RMSprop),初始学习率为0.000 1,平滑常数β = 0.99,动量M = 0。生成器设有学习率衰减机制,其表达式如式(8)所示:
![]() |
其中,lr为当前学习率,lrinit为初始学习率,n为当前训练轮次,nmax为训练总轮次。
判别器的优化方式选用随机梯度下降(stochastic gradient descent,SGD),初始学习率为0.001,动量M = 0.9,权重衰减λ = 0.000 1。
2.1.4 测试结果
本文实验在配备深度学习加速显卡(TITAN RTX,NVIDIA Corporation,美国)的服务器实现,使用Linux操作系统软件Ubuntu 20.04(Canonical Ltd.,英国),实验基于开源机器学习库PyTorch(The Linux Foundation,美国)和开源医疗影像深度学习框架MONAI(MONAI Consortium,国际)实现。由于数据集中的有标签数据存在边缘区域标注不统一等问题,无法进行精确的戴斯系数(Dice coefficient,DC)计算,故本文计算DC时,在不影响关节间隙测量结果的情况下将预测结果中非人工标注区域的数值置零,即仅对影像中人工标注的区域进行DC计算。为验证本文影像分割网络的有效性,本文在相同的有标签数据集上分别训练了4种模型用于对比,包括未采用GAN结构的本文提出的分割模型(记作:本文模型-无GAN)、U-Net[10]、巢穴U-Net (U-Net++)[24]和Attn-Unet [12],这些模型在测试集(包含6例有标签样本,即样本1~样本6)上的结果如表1所示。从表1可以看出,本文提出的基于GAN的分割方法可以显著提升分割准确率。若去掉GAN,其平均DC出现了显著下降。此外,本文提出的分割网络也表现出了优于U-Net、U-Net++、Attn-Unet等经典医学影像分割网络的性能,验证了本文提出的分割方法的有效性。

2.2 颞下颌关节3D间隙区域提取方法
2.2.1 颞下颌关节3D间隙区域提取原理
本文将Lee等[25]提出的颞下颌关节间隙测量模型扩展至3D区域,以获取颞下颌关节3D间隙区域,如图4所示。其步骤共分为三步:第一,选择踝骨突的中间切面作为基准切面,记为切面S,此切面完整包含了关节构成的三个标志性器官,即颞骨、踝骨突、外耳道;第二,在切面S中,分别将左侧颞骨最低点、外耳道最低点记为Pd1、Pd2,两点所连线段记为lbase,该线段中点记为Pfoot,以Pfoot为垂足作lbase的垂线记为lvert,再分别作左右两直角半区的三等分线,4条三等分线分别记为lleft30、lleft60、lright30、lright60;第三,以X轴为基准,将lvert、lleft30、lleft60、lright30、lright60扩展为平面对踝骨突边缘和颞骨边缘之间的区域进行切分,从而获得4个颞下颌关节3D间隙区域R1~R4。

2.2.2 算法实现
本文的颞下颌关节3D间隙区域分区算法主要分为五个步骤,分别为:寻找切面、寻找定位点和切分线、线切分、圆切分、区域筛选。
第一步为寻找切面,本文将选择3D关节区域中踝骨突的中间切面作为基准切面S,以此切面作为后续算法的基础。
第二步为寻找定位点和切分线,定位点是关节区域划分的起点,切分线为关节区域划分的边界。根据上述原理得到lbase、lvert、lleft30、lleft60、lright30、lright60和4个3D区域R1~R4。在获取每个分区时,本文会设置对应分区的掩码矩阵M,逐步计算出无关区域并在M中去除,最终M中遗留的区域为所寻找的关节分区。
第三步为线切分,即通过第二步中获得的切分线来得到当前分区的30°扇形区域。以R1为例,在切面S中计算得到围成R1的切分线的斜率与纵截距,进而得到分区内点的坐标,并在掩码矩阵M中除去分区外的点。最后,将掩码矩阵M从切面S以X轴方向扩展到3D影像以获得3D影像的线切分结果。
第四步为圆切分,用以进一步细化关节间隙分区的位置。在切面S中,算法将在线切分的基础上,计算得到包含当前关节间隙分区的半径r,以Pfoot为圆心保留圆形区域内的点,即可获得较为精细的关节分区。同样,将这一掩码结果从切面S以X轴方向扩展到3D影像,即可获得3D影像的圆切分结果。对于r的选择,本文分别计算Pfoot到当前分区内颞骨最低点、颞骨最左端的点、颞骨最右端的点的距离rb、rl、rr。首先取rl、rr中较小的距离记为rh,可以在排除异常值的情况下表征水平方向的分区半径;其次,rb表征垂直方向的分区半径,取rb、rh中较大的距离作为最终的分区半径r。
第五步为区域筛选,用于筛选出切分后的影像中属于关节内部的点。首先,计算各分区区域内背景点的连通域信息;其次,在切面S中,关节内部区域在各分区的占比很高,故本文选择将切面S中最大连通域的区域序号作为3D影像的筛选准则,只保留当前序号的连通域,即可得到纯净的颞下颌关节3D间隙区域的分区。
2.3 TMD自动诊断模型
通过上述算法能够提取出4个颞下颌关节3D间隙区域R1~R4,如图5所示。每个区域能够提取出最大二维(2-demension,2D)直径、最小轴长度、网格体积、表面积、表面积体积比等共14个特征,则每个样本能够提取出56个特征,每个区域可提取出的特征如表2所示。通过皮尔逊相关系数选出其中7个特征用于TMD自动诊断模型的构建,选出的特征如表3所示。



本研究经南开大学生物医学伦理委员会批准(批准号NKUIRB2021115),所用数据经天津医科大学口腔医院授权。数据集包括76例口腔CBCT影像数据及对应电子病历,每例CBCT影像可通过上述颞下颌关节3D间隙区域提取方法提取左右两侧的3D区域,每个区域可提取出14个特征,共构成152条数据,其中包括36条正例数据和116条负例数据,划分为训练集121条数据和测试集31条数据,每条数据包括56个特征及对应有无TMD的标签。
TMD自动诊断模型采用线性支持向量机(support vector machine,SVM),以5折交叉验证对特征进行筛选,并对所有样本的特征进行标准化处理。评估指标采用准确率(accuracy,ACC)、F1分数(F1-score,F1)和曲线下面积(area under curve,AUC)。
为验证本文TMD自动诊断模型的有效性,本文将TMD自动诊断模型(记作本文模型)分别与未经特征筛选的SVM、决策树、随机森林和多层感知机进行对比,对比结果如表4所示。虽然SVM模型的AUC值比本文模型高0.032 6,但其ACC远低于本模型,其他模型在ACC、F1及AUC上均弱于本文模型,综合三项评估指标,本文模型的综合性能最强。

3 TMD智能诊断系统的构建
3.1 系统结构
本系统包含服务端、高性能人工智能开发板(Atlas200DK,华为技术有限公司,中国)和客户端,所有设备均部署于局域网内,其整体结构如图6所示。其中,客户端界面采用超文本标记语言HTML(World Wide Web Consortium,国际)和客户端动态脚本JavaScript(Mozilla Foundation,美国)进行开发,服务端主要采用高级编程语言Python(Python Software Foundation,美国)和轻量级网页应用框架Flask(Pallets Projects,美国)进行开发,Atlas200DK开发板部分主要采用了深度学习推理工具msame(华为技术有限公司,中国)进行推理。

3.2 系统通信模块
客户端与服务端之间主要通过超文本传输协议(hypertext transfer protocol,HTTP)实现影像上传以及诊断结果返回。服务端与Atlas200DK之间主要通过建立安全外壳协议(secure shell,SSH)连接以及通过SSH文件传输协议实现影像文件传输及推理结果返回。
3.3 自动诊断模块
服务端接收到用户上传的影像文件后会先进行文件完整性验证,通过完整性验证的影像文件经预处理后会被传输至Atlas200DK进行影像分割。服务端接收到分割结果后,从分割图中提取颞下颌关节3D间隙区域并提取其特征,送入训练完成的SVM模型中,得到诊断结果。最终将结果返回给客户端。
3.4 用户界面和结果显示模块
考虑到临床需求,用户界面和结果显示模块应具有登录注册、影像上传、自动诊断和结果显示功能。通过拖拽文件或点击按钮的方式完成影像上传,预览影像并确认无误后点击预测按钮即可开始诊断。客户端接收到诊断结果后,将原始影像、影像分割结果和颞下颌关节3D间隙区域提取结果展示在影像显示框中,特征提取结果和诊断结果展示在结果显示框内。为方便用户使用,用户界面还提供了左右侧选择、同步异步查看功能,点击界面右下方的按钮后拖动滑动条即可对比查看原始影像、分割结果和颞下颌关节3D间隙区域,如图7所示。

4 总结
本文完成了口腔CBCT影像分割模型的训练,提出了一种颞下颌关节3D间隙区域提取的算法,并从中提取3D特征,进而建立了TMD自动诊断模型。最终,以此开发了一套基于边缘计算的TMD智能诊断系统,实现了快速准确地分割、特征提取与诊断,即方便医生使用,又降低了医生的工作量。
临床上存在颞下颌关节结构改变的患者中,具备TMD主诉患者的占比较小,使得本文采用的数据集规模较小。在CBCT影像分割方面,本文虽然采用GAN提高分割效果,但因数据集规模和有标签数据规模较小的限制,影像分割模型的泛化能力相对较弱,未来本研究将进一步优化数据增强方法或改进模型结构,提高CBCT影像分割的准确性,增强模型泛化能力;在TMD自动诊断模型方面,本文虽然采用提取3D特征和特征筛选的方法来提高模型性能,但数据集规模较小的问题仍然导致模型F1值、AUC值较低,未来本研究将进一步收集TMD患者的CBCT影像及病历数据,扩充数据集规模,提高模型性能。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突。
作者贡献声明:张明浩主要负责TMD自动诊断模型和TMD智能诊断系统的构建,论文撰写及修订;杨东主要负责口腔CBCT影像分割网络的构建以及颞下颌关节3D间隙区域提取的实现;李小囡和张倩主要负责CBCT影像数据及电子病历的收集;刘之洋主要负责实验指导及论文审阅修订。
伦理声明:本研究通过了南开大学生物医学伦理委员会的审批(批准号:NKUIRB2021115)。
0 引言
颞下颌关节紊乱病(temporomandibular joint disorder,TMD)是一种常见的口腔颌面部疾病,是骨关节炎的一个重要分支,其主要表现为下颌运动异常、疼痛、弹响、杂音以及影响咀嚼等问题,部分患者可能会发生头痛、口面疼痛、颈痛或肩胛骨疼痛等非特异性表现[1]。TMD在前期临床症状不明显,一般于病情中期被发现,使得其不易被及早发现及治疗。锥形束计算机断层成像(cone beam computed tomography,CBCT)能够三维(3-dimension,3D)成像以显示患者口腔全貌,目前已广泛应用于口腔医学诊疗中。与传统计算机断层成像(computed tomography,CT)相比,CBCT具有拍摄范围广、辐射剂量低、曝光时间短、分辨率高、伪影轻等优势[2]。傅开元等[3]将颞下颌关节骨关节病的CBCT影像特征分为6种不同类型,能够清晰地观察到髁突位置改变和骨质结构改变[4],便于对TMD进行更加科学准确地诊断,有助于及早发现并控制TMD。
CBCT医学影像的人工分析很大程度上依赖医生丰富的临床经验和背景知识,主观性较强,且会消耗大量人力。利用深度学习训练神经网络实现自动化的医学影像分割,能够取得较高的准确度并可消除由于个体主观影响带来的差异,且在分割图上通过数学分析及定量计算能够判断患者髁突位置改变和骨质结构改变,进而对TMD进行自动诊断,降低医生的工作量。但是,深度学习的训练通常需要大量的有标签数据。目前的公开数据集中,CBCT影像相关的数据集大多集中于牙齿分割[5-6]和牙神经槽分割[7-8],缺少关于颞下颌关节解剖结构分割标签的CBCT影像。而在CBCT中,逐张标注相关解剖结构的工作量较大,标注成本较高,因此本文提出了采用小样本学习训练分割网络的方法。
在影像分割方面,Chen等[9]提出的深度实验室网络(DeepLab)采用空洞卷积在减少信息丢失的情况下扩大了感受野,并加入全连接条件随机场(conditional random field,CRF)解决边缘分割不准确的问题。Ronneberger等[10]提出的U型网络(U-Net)通过跳跃连接结构将编码器底层特征与解码器高层特征进行融合,以提高分割精度,在生物医学领域取得了非常好的效果。对U-Net进行3D扩展构建的网络(3D-Unet)[11],目前已广泛应用于医学影像分割。Schlemper等[12]提出将注意力机制引入U-Net结构,这种提出的注意力U-Net(attention U-Net,Attn-Unet)能够有效地突出前景部分,帮助模型捕捉目标特征。Chen等[13]提出将变换器(transformer)结构融入进U-Net(transformer U-Net,TransUnet)中,使其同时具有U-Net和transformer的优点,在医学影像分割任务上取得了更好的效果。Cao等[14]提出的移位窗口U-Net(Swin-Unet)采用了U-Net的U型结构,但完全使用了移位窗口transformer(Swin-Transformer)[15]进行编解码,并设计了扩展层恢复特征图分辨率,获得了比单纯卷积神经网络(convolutional neural networks,CNN)模型或transformer与CNN结合模型更优的效果。
在小样本学习方面,元学习方法利用支撑集所习得的经验来指导问询集的任务,使得机器“学会如何学习”[16]。Goodfellow等[17]提出的生成对抗网络(generative adversarial nets,GAN)通过生成器与判别器之间的博弈,可以利用无标签数据生成样本,适用于小样本学习。Zhang等[18]提出的类别不可知网络(class-agnostic network,CANet)通过构建由密集比较模块和迭代优化模块组成的框架,在单样本和5样本训练上取得了优秀的效果。Dong等[19]将原型网络引入小样本图像分割中,通过度量学习与排列训练,获得了大幅超过基准模型的性能。Lai等[20]通过半监督学习的方式对有标签数据与无标签数据进行训练,减少了标注的需求量。Ouyang等[21]提出了自适应局部原型池化,并采用自监督学习的方法,在医学影像分割上获得了优于有标注的少样本方法。
基于上述研究,本文采用GAN进行CBCT影像分割,并采用半监督学习的方法,用无标签数据加强分割效果;提出了颞下颌关节3D间隙区域提取算法,并建立了TMD自动诊断模型用于开发TMD智能诊断系统,最终将其部署在位于局域网内的边缘计算设备上,以期在保障用户隐私的前提下,实现TMD的快速筛查与智能诊断。
1 需求分析
根据临床需求,本系统应包括用户界面模块、系统通信模块、自动诊断模块、结果显示模块,应具有登录注册功能、影像文件上传功能、影像分割功能、3D区域特征提取功能、TMD诊断功能、同步异步展示功能,系统整体功能模块如图1所示。同时为了方便用户使用,本系统还应使中间过程进行可视化展示,保证诊断流程高效准确,用户交互界面友好和保障用户信息安全。

2 TMD自动诊断方法
TMD自动诊断方法的流程为:首先将CBCT影像进行分割,得到3D分割图;再通过3D分割图对颞下颌关节3D间隙区域进行提取;最终从获得的3D区域中提取3D特征并通过TMD自动诊断模型获得诊断结果。
2.1 口腔CBCT影像分割
2.1.1 口腔CBCT影像数据
本研究经南开大学生物医学伦理委员会批准(批准号:NKUIRB2021115),所用数据经天津医科大学口腔医院授权,回溯性收集天津医科大学口腔医院采集的CBCT影像数据,所有数据由CBCT系统(KaVo 3D eXam,KaVo Dental,美国)采集。本文共收集CBCT影像131例,其中25例由医师标注颞下颌关节附近的分割标签,标注部位为颞骨、踝骨突和外耳道。首先,将数据划分为训练集和测试集,其中训练集包含19例有标签样本和106例无标签样本,测试集包含6例有标签样本。考虑到有标签样本数量较少,本文采用GAN进行半监督学习[17],利用无标签数据增强分割的效果。
2.1.2 影像分割网络
影像分割网络由生成器与判别器组成,其结构如图2所示。

本文生成器采用U-Net作为基础架构,并在每层编码块和解码块之间加入了跳跃连接结构。编码块在传统的残差块之后额外增加一层卷积块,包括卷积、批归一化和线性整流函数(rectified linear unit,ReLU),使编码器中的参数占比提升,从而能够更好地从小样本数据中提取信息。解码块采用U-Net的解码器结构,将当前层跳跃连接结构输出与上一层输出进行连接并输入解码块中,用于融合不同尺度的信息,并输出影像分割结果。本文在跳跃连接结构中加入了注意力块,其中包括空间注意力和通道注意力,来进一步提升网络的性能,其中空间注意力包括全局平均池化和柔性最大化(softmax)操作,通道注意力包括通道平均池化操作。判别器采用较为简单的神经网络结构,其中包括卷积层、平均池化层、线性层,激活函数采用泄漏ReLU函数(leaky ReLU,LReLU),此外本文还在部分卷积层中加入了随机失活(Dropout)以防止过拟合。输入为病例CBCT影像与生成器的分割结果yseg的连接;输出为二值:0或者1,输出为0代表判别器判定输入的影像为生成器伪造的分割图,输出为1代表判别器判定输入的影像为病例的真实分割图。各模块结构如图3所示。

2.1.3 神经网络训练
CBCT影像中,不同的组织结构具有不同的CT值[22]。在医学影像处理中,通常采用加窗函数的方法提取出要研究的部位,以提高医生的效率。本文采用CBCT值区间为−600~700的窗函数对原始影像进行处理,并将数据归一化为均值为0、方差为1的变量。其次,本文对训练集数据进行数据增强,包括尺寸缩放、随机旋转、随机裁剪、坐标轴翻转、强度变化、强度缩放和弹性形变。最后,每个批次包括6个经过预处理的影像切块,大小为128 × 128 × 128;其中4个切块有标签,2个无标签。为了降低显存占用,将样本下采样至96 × 96 × 96,其中CBCT影像采用三线性采样,标签采用最近邻采样。
在小样本影像分割背景下,生成器损失函数需要充分考虑和利用各类有效信息。本文生成器损失函数由分割损失和对抗损失组成,如式(1)所示:
![]() |
其中,L为生成器损失函数,LCE为交叉熵损失函数,LDice为戴斯(Dice)损失函数,Ladv为判别器的损失函数,b为Ladv的权重系数,如式(2)~式(4)所示:
![]() |
![]() |
![]() |
其中,N为样本数量,pi为样本标签,qi为生成器输出,wi为第i个样本的权重参数,yi为判别器输出值,xi为二值标签。
b为式(1)中Ladv的权重系数,本文引入半监督学习的温度系数概念[23],其定义如式(5)所示:
![]() |
其中,,n是当前循环计数值,r为温度系数,本文默认取40.0。
判别器的目的是分辨出输入影像的来源,故判别器损失函数要将生成器输出以及具有真实标签的影像输入判别器中进行判别,其损失函数如式(6)所示:
![]() |
其中,LD为判别器损失函数,LG和Llabel分别为判别器对生成器输出的判别结果与其标签的二分类交叉熵,二分类交叉熵表达式如式(7)所示:
![]() |
其中,LBCE为二分类交叉熵,N为样本数量,wi为每个样本的权重参数,xi为判别器输出值,yi为判别器对生成器预测结果判别的标签值。LG中yi的值为0,Llabel中yi的值为1。
本文生成器与判别器均训练300轮,每轮训练150次,共计45 000次梯度更新。生成器优化方式选择无动量的均方根传播算法(root mean square propagation,RMSprop),初始学习率为0.000 1,平滑常数β = 0.99,动量M = 0。生成器设有学习率衰减机制,其表达式如式(8)所示:
![]() |
其中,lr为当前学习率,lrinit为初始学习率,n为当前训练轮次,nmax为训练总轮次。
判别器的优化方式选用随机梯度下降(stochastic gradient descent,SGD),初始学习率为0.001,动量M = 0.9,权重衰减λ = 0.000 1。
2.1.4 测试结果
本文实验在配备深度学习加速显卡(TITAN RTX,NVIDIA Corporation,美国)的服务器实现,使用Linux操作系统软件Ubuntu 20.04(Canonical Ltd.,英国),实验基于开源机器学习库PyTorch(The Linux Foundation,美国)和开源医疗影像深度学习框架MONAI(MONAI Consortium,国际)实现。由于数据集中的有标签数据存在边缘区域标注不统一等问题,无法进行精确的戴斯系数(Dice coefficient,DC)计算,故本文计算DC时,在不影响关节间隙测量结果的情况下将预测结果中非人工标注区域的数值置零,即仅对影像中人工标注的区域进行DC计算。为验证本文影像分割网络的有效性,本文在相同的有标签数据集上分别训练了4种模型用于对比,包括未采用GAN结构的本文提出的分割模型(记作:本文模型-无GAN)、U-Net[10]、巢穴U-Net (U-Net++)[24]和Attn-Unet [12],这些模型在测试集(包含6例有标签样本,即样本1~样本6)上的结果如表1所示。从表1可以看出,本文提出的基于GAN的分割方法可以显著提升分割准确率。若去掉GAN,其平均DC出现了显著下降。此外,本文提出的分割网络也表现出了优于U-Net、U-Net++、Attn-Unet等经典医学影像分割网络的性能,验证了本文提出的分割方法的有效性。

2.2 颞下颌关节3D间隙区域提取方法
2.2.1 颞下颌关节3D间隙区域提取原理
本文将Lee等[25]提出的颞下颌关节间隙测量模型扩展至3D区域,以获取颞下颌关节3D间隙区域,如图4所示。其步骤共分为三步:第一,选择踝骨突的中间切面作为基准切面,记为切面S,此切面完整包含了关节构成的三个标志性器官,即颞骨、踝骨突、外耳道;第二,在切面S中,分别将左侧颞骨最低点、外耳道最低点记为Pd1、Pd2,两点所连线段记为lbase,该线段中点记为Pfoot,以Pfoot为垂足作lbase的垂线记为lvert,再分别作左右两直角半区的三等分线,4条三等分线分别记为lleft30、lleft60、lright30、lright60;第三,以X轴为基准,将lvert、lleft30、lleft60、lright30、lright60扩展为平面对踝骨突边缘和颞骨边缘之间的区域进行切分,从而获得4个颞下颌关节3D间隙区域R1~R4。

2.2.2 算法实现
本文的颞下颌关节3D间隙区域分区算法主要分为五个步骤,分别为:寻找切面、寻找定位点和切分线、线切分、圆切分、区域筛选。
第一步为寻找切面,本文将选择3D关节区域中踝骨突的中间切面作为基准切面S,以此切面作为后续算法的基础。
第二步为寻找定位点和切分线,定位点是关节区域划分的起点,切分线为关节区域划分的边界。根据上述原理得到lbase、lvert、lleft30、lleft60、lright30、lright60和4个3D区域R1~R4。在获取每个分区时,本文会设置对应分区的掩码矩阵M,逐步计算出无关区域并在M中去除,最终M中遗留的区域为所寻找的关节分区。
第三步为线切分,即通过第二步中获得的切分线来得到当前分区的30°扇形区域。以R1为例,在切面S中计算得到围成R1的切分线的斜率与纵截距,进而得到分区内点的坐标,并在掩码矩阵M中除去分区外的点。最后,将掩码矩阵M从切面S以X轴方向扩展到3D影像以获得3D影像的线切分结果。
第四步为圆切分,用以进一步细化关节间隙分区的位置。在切面S中,算法将在线切分的基础上,计算得到包含当前关节间隙分区的半径r,以Pfoot为圆心保留圆形区域内的点,即可获得较为精细的关节分区。同样,将这一掩码结果从切面S以X轴方向扩展到3D影像,即可获得3D影像的圆切分结果。对于r的选择,本文分别计算Pfoot到当前分区内颞骨最低点、颞骨最左端的点、颞骨最右端的点的距离rb、rl、rr。首先取rl、rr中较小的距离记为rh,可以在排除异常值的情况下表征水平方向的分区半径;其次,rb表征垂直方向的分区半径,取rb、rh中较大的距离作为最终的分区半径r。
第五步为区域筛选,用于筛选出切分后的影像中属于关节内部的点。首先,计算各分区区域内背景点的连通域信息;其次,在切面S中,关节内部区域在各分区的占比很高,故本文选择将切面S中最大连通域的区域序号作为3D影像的筛选准则,只保留当前序号的连通域,即可得到纯净的颞下颌关节3D间隙区域的分区。
2.3 TMD自动诊断模型
通过上述算法能够提取出4个颞下颌关节3D间隙区域R1~R4,如图5所示。每个区域能够提取出最大二维(2-demension,2D)直径、最小轴长度、网格体积、表面积、表面积体积比等共14个特征,则每个样本能够提取出56个特征,每个区域可提取出的特征如表2所示。通过皮尔逊相关系数选出其中7个特征用于TMD自动诊断模型的构建,选出的特征如表3所示。



本研究经南开大学生物医学伦理委员会批准(批准号NKUIRB2021115),所用数据经天津医科大学口腔医院授权。数据集包括76例口腔CBCT影像数据及对应电子病历,每例CBCT影像可通过上述颞下颌关节3D间隙区域提取方法提取左右两侧的3D区域,每个区域可提取出14个特征,共构成152条数据,其中包括36条正例数据和116条负例数据,划分为训练集121条数据和测试集31条数据,每条数据包括56个特征及对应有无TMD的标签。
TMD自动诊断模型采用线性支持向量机(support vector machine,SVM),以5折交叉验证对特征进行筛选,并对所有样本的特征进行标准化处理。评估指标采用准确率(accuracy,ACC)、F1分数(F1-score,F1)和曲线下面积(area under curve,AUC)。
为验证本文TMD自动诊断模型的有效性,本文将TMD自动诊断模型(记作本文模型)分别与未经特征筛选的SVM、决策树、随机森林和多层感知机进行对比,对比结果如表4所示。虽然SVM模型的AUC值比本文模型高0.032 6,但其ACC远低于本模型,其他模型在ACC、F1及AUC上均弱于本文模型,综合三项评估指标,本文模型的综合性能最强。

3 TMD智能诊断系统的构建
3.1 系统结构
本系统包含服务端、高性能人工智能开发板(Atlas200DK,华为技术有限公司,中国)和客户端,所有设备均部署于局域网内,其整体结构如图6所示。其中,客户端界面采用超文本标记语言HTML(World Wide Web Consortium,国际)和客户端动态脚本JavaScript(Mozilla Foundation,美国)进行开发,服务端主要采用高级编程语言Python(Python Software Foundation,美国)和轻量级网页应用框架Flask(Pallets Projects,美国)进行开发,Atlas200DK开发板部分主要采用了深度学习推理工具msame(华为技术有限公司,中国)进行推理。

3.2 系统通信模块
客户端与服务端之间主要通过超文本传输协议(hypertext transfer protocol,HTTP)实现影像上传以及诊断结果返回。服务端与Atlas200DK之间主要通过建立安全外壳协议(secure shell,SSH)连接以及通过SSH文件传输协议实现影像文件传输及推理结果返回。
3.3 自动诊断模块
服务端接收到用户上传的影像文件后会先进行文件完整性验证,通过完整性验证的影像文件经预处理后会被传输至Atlas200DK进行影像分割。服务端接收到分割结果后,从分割图中提取颞下颌关节3D间隙区域并提取其特征,送入训练完成的SVM模型中,得到诊断结果。最终将结果返回给客户端。
3.4 用户界面和结果显示模块
考虑到临床需求,用户界面和结果显示模块应具有登录注册、影像上传、自动诊断和结果显示功能。通过拖拽文件或点击按钮的方式完成影像上传,预览影像并确认无误后点击预测按钮即可开始诊断。客户端接收到诊断结果后,将原始影像、影像分割结果和颞下颌关节3D间隙区域提取结果展示在影像显示框中,特征提取结果和诊断结果展示在结果显示框内。为方便用户使用,用户界面还提供了左右侧选择、同步异步查看功能,点击界面右下方的按钮后拖动滑动条即可对比查看原始影像、分割结果和颞下颌关节3D间隙区域,如图7所示。

4 总结
本文完成了口腔CBCT影像分割模型的训练,提出了一种颞下颌关节3D间隙区域提取的算法,并从中提取3D特征,进而建立了TMD自动诊断模型。最终,以此开发了一套基于边缘计算的TMD智能诊断系统,实现了快速准确地分割、特征提取与诊断,即方便医生使用,又降低了医生的工作量。
临床上存在颞下颌关节结构改变的患者中,具备TMD主诉患者的占比较小,使得本文采用的数据集规模较小。在CBCT影像分割方面,本文虽然采用GAN提高分割效果,但因数据集规模和有标签数据规模较小的限制,影像分割模型的泛化能力相对较弱,未来本研究将进一步优化数据增强方法或改进模型结构,提高CBCT影像分割的准确性,增强模型泛化能力;在TMD自动诊断模型方面,本文虽然采用提取3D特征和特征筛选的方法来提高模型性能,但数据集规模较小的问题仍然导致模型F1值、AUC值较低,未来本研究将进一步收集TMD患者的CBCT影像及病历数据,扩充数据集规模,提高模型性能。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突。
作者贡献声明:张明浩主要负责TMD自动诊断模型和TMD智能诊断系统的构建,论文撰写及修订;杨东主要负责口腔CBCT影像分割网络的构建以及颞下颌关节3D间隙区域提取的实现;李小囡和张倩主要负责CBCT影像数据及电子病历的收集;刘之洋主要负责实验指导及论文审阅修订。
伦理声明:本研究通过了南开大学生物医学伦理委员会的审批(批准号:NKUIRB2021115)。