传统Meta分析的反复更新及累积Meta分析在重复检验的条件下会改变统计分析结果的稳健性。此外,传统Meta分析缺少对样本量的估计。而试验序贯分析(trial sequential analysis,TSA)将成组序贯设计原理引入Meta分析来调整随机误差,并最终估算出系统评价/Meta分析所需的样本量。TSA在Meta分析中目前主要由TSA软件来完成。本文结合实例介绍TSA软件在Meta分析中的应用。
引用本文: 翁鸿, 李胜, 曾宪涛, 武珊珊, 刘晴, 王行环. 试验序贯分析软件在Meta分析中的应用. 中国循证医学杂志, 2016, 16(5): 604-611. doi: 10.7507/1672-2531.20160093 复制
Meta分析是将多个具有相同研究主题的研究进行定量综合分析的一个过程,其优势在于可以增加样本量,并增强结果的精确性和稳健性 [1]。基于随机对照试验(randomized controlled trial,RCT)的系统评价/Meta分析是当前公认的最高级别证据,而证据又是循证医学的核心 [2, 3]。因此,当所有可用的试验被纳入后,系统评价/Meta分析被认为是最佳可用证据,但“最佳可用的证据”并不同于“足够的证据”或“有力的证据” [4-9]。传统Meta分析缺少对统计效能的关注,当纳入的试验数目较少或样本量较小时,由于随机误差的影响,大约有25%的传统Meta分析得出错误的假阳性结论 [6, 10];若得出无统计学意义的结果,我们会认为该干预措施无效,或者得出需要进一步开展相关研究的结论,而无法确认该结果是由于干预措施是真的无效还是由于样本量不足引起的假阴性。此外,由于新的研究发表,Meta分析需要进行更新,而重复进行统计学检验也会增加Ⅰ类错误(假阳性)的风险。
Pogue等在1997年首次将成组序贯分析的方法引入Meta分析,即试验序贯分析(trial sequential analysis,TSA),克服了传统Meta分析的不足 [
1 建立新项目
本文以《Plasmakinetic resection technology for the treatment of benign prostatic hyperplasia: evidence from a systematic review and meta-analysis》一文 [16]为例,介绍TSA软件的应用。TSA软件同RevMan软件一样,不能直接进行数据的输入和分析,也需要进行一定的准备工作,建立一个新项目,然后才能进行数据的录入和统计学分析 [17]。下载TSA软件后,打开解压包,点击“ TSA.jar ”程序启动TSA软件,目前尚未添加项目,中上部显示“ No Meta-analysis Defined ”,即此时没有添加Meta分析项目,此时左侧顶端菜单栏仅有“ File ”一项,点击该菜单,选择“ New Meta-analysis ”,然后出现“ New Meta-analysis ”对话框(图 1)。该对话框主要分为4个部分:结局指标(Outcome)、比较(Comparison)、结局指标类型(Outcome type)、评论(Comments)。结局指标包括数据类型(二分类数据、连续型数据)和指标名称两项。比较栏包括试验组(group 1)和对照组(group 2)的名称。结局指标类型分为“ Negative ”和“Positive ”两项,对二分类数据,“ Negative ”主要包括病死率、发病率等具有消极性质的指标,“ Positive ”主要包括生存率、病毒清除率等具有积极性质的指标;对连续型数据,“ Negative ”主要包括抑郁评分增加等具有消极性质的指标,“ Positive ”主要包括血小板计数增加等具有积极性质的指标。选择结局指标类型是为了让软件能够根据数据分析结果来推断出支持哪一组干预措施。本文使用二分类数据“ TUR syndrome ”为结局指标,结局指标类型为“ Negative ”,试验组干预措施为“ PKRP ”,对照组干预措施为“ M-TURP ”。这些栏目完成后,点击“ Create ”键。

2 设置Meta分析参数
建立完新项目后,即出现“ Meta-analysis ”菜单栏目(图 2),左上角主要有5个菜单栏:“ Meta-analysis ”、“ Trials ”、“ TSA ”、“ Graphs ”和“ Diversity ”。“Meta-analysis ”菜单栏下主要由4大部分组成:效应量及模型设置(Set Effect Measure and Model)、零事件处理设置(Set Zero Event Handling)、可信区间设定(Set Confidence Interval)和Meta分析结果(Meta-analysis Summary)。对二分类数据,效应量有Relative Risk(RR)、Odds Ratio(OR)、Risk Difference (RD)、Peto OR;对连续型数据,效应量仅有Mean Difference(MD)。模型共有1种固定效应模型和3种随机效应模型(DL法、SJ法和BT法)可供选择。对零事件处理的,TSA软件提供了3种方法:连续性校正(Constant)、倒数校正(Reciprocal)、经验性校正(Empirical)。当有零事件研究纳入时,可选择“ Include trials with no events ”项,使用经验性校正时需注意,应先输入纳入研究的数据后才可应用该方法。校正的值(Value)提供了4个:1、0.5、0.01、0.001。可信区间设定时应先选择“ Conventional ”,其后提供了4个可选择的可信区间,一般选择95%。本文选择的效应量为RR,模型为固定效应模型,零事件处理方法为连续性校正,校正值为1。可信区间为传统95%可信区间。

3 录入研究及数据
点击主菜单栏的“ Trials ”键,出现添加研究的界面(图 3)。主要由4个区域组成:添加二分类数据研究(Add Dichotomous Trial)、编辑/删除已添加研究(Edit/Delete Trial)、忽略研究(Ignore Trial)和添加研究的显示区。添加研究的区域主要输入研究名称、年限、试验组和对照组的事件发生数及样本量,如果是高质量RCT,则可以选择“ Low Bias Risk ”键。然后点击“ Add Trial ”键即可将输入的研究添加进显示区。编辑/删除已添加研究由编辑研究和删除研究两个栏组成,在显示区选中研究后,就可以进行编辑或删除操作。忽略研究区由4个栏组成:忽略低风险偏倚研究、忽略高风险偏倚研究、忽略所有研究及无研究忽略。显示区主要由4个栏组成,显示输入研究的基本信息(研究名称、年限)、偏倚情况、是否被忽略(忽略研究也可在此栏下操作)及相关数据。图 4为本文已添加研究数据的界面,偏倚风险这一项我们未进行选择。在“ Data ”栏显示的干预组均有0.5的加入,这是因为我们采用的是连续性1校正,因此在试验组和对照组的事件发生数中各加0.5,那么总人数就加1。本文采用的结局指标较为特殊,为一种术中并发症,在试验组均未发生。


4 TSA参数设置
添加完研究后,点击左上角的“ TSA ”菜单,即出现关于TSA参数设置的界面(图 5)。主要由添加(Add)、编辑(Edit)、运算(Calculations)、信息轴(Information axis)、模板(Templates)、期中分析(Interim analyses)和显示区组成。添加区域由3个主体部分组成:传统界值(Conventional Test Boundary)、α消耗函数界值(Alpha-spending Boundaries)和重对数定律(Law of the Iterated Logarithm)。

点击“ Conventional Test Boundary ”键后,弹出“ Conventional Test Boundary ”对话框(图 6),进行传统界值的参数设置。传统界值名定义为“ Conventional ”,界值类型(Boundary Type)一般设定为双侧(Two-sided),Ⅰ类错误通常定义为5%(即显著性水平),然后点击“ Add ”键。界值类型也可选择单侧,上单侧(One-sided Upper)用于检测试验组干预措施优于对照组干预措施,下单测(One-sided Lower)用于检测对照组干预措施优于试验组干预措施;对二分类数据,应注意的是当结局指标为“ Positive ”类指标时,这时单侧检验的意义就恰好与上述相反。

点击“ Alpha-spending Boundaries ”键,弹出“ Alpha-spending Boundaries ”对话框(图 7),进行α消耗函数界值(即TSA界值)设置。该对话框为二分类数据下的界面,连续型数据下的界面与此界面差别不大,仅在期望信息量计算的设置有些许差别,读者可自行摸索。该对话框主要由3部分组成:假设检验设置(Hypothesis Testing)、内嵌无效线设置(Inner Wedge)和期望信息量设置(Required Information Size,RIS)。我们将TSA界值名定义为RIS;假设检验的界值类型设定为双侧检验(Two-sided),Ⅰ类错误定义为5%,α消耗函数在TSA软件中只提供了O’Brien-Fleming法,信息轴有累积的样本量(Sample Size)、累积的事件发生数(Event Size)和累积的统计信息量(Statistical Information)3个可供选择,我们选择样本量作为TSA界值图的横轴。内嵌为设置无效界值,无效界值是用于检验干预措施的疗效是否确实无差异,TSA软件只提供了O’Brien-Fleming法β消耗函数来进行无效检验。对RIS的设置,首先信息量(Information Size)选择“ Estimate ”,这是由于我们选择累积的样本量作为信息轴,统计学效能一般定义为80%,这时内嵌设置内的“ Power ”就会自动变为80%;Ⅰ类错误不需要设置,因为在假设检验里已设置该项;由于纳入研究的质量不高,因此相对危险度减少率(Relative Risk Reduction,RRR)使用用户自定义(User Defined),我们按临床专业经验估算为35%;试验组事件发生率不需要用户自定义,软件可自行计算;对照组事件发生率我们按临床专业经验估算为3%;异质性校正(Heterogeneity Correction)我们使用基于模型的变异值(Model Variance Based),即Meta分析模型所检测出的异质性大小。设置完成后点击“ Add ”键。

点击“ Law of the Iterated Logarithm ”键,弹出“ Law of the Iterated Logarithm ”对话框,我们将重对数定律界值定义为“ LIL ”;界值类型设置为双侧(Two-sided),Ⅰ类错误定义为5%;由于我们选择的效应量为RR,Ⅰ类错误定义为5%,因此惩罚值λ(penalty)为2 [12]。然后点击“ Add ”键。重对数定律法不同于TSA界值,TSA界值是校正显著性检验水准,而重对数定律法是通过惩罚检验统计量Z值,然后与传统界值Z=1.96进行比较,看其是否超出传统界值线。

这些设置好的传统界值和TSA界值可保存为模版,点击图 5中的“ Save as template ”即可,便于下次使用,再点击“ Manage templates ”,即可得到保存模板的详细信息(图 9),选中左侧的模板,右侧即显示出其详细参数信息的设置情况。最后,点击图 5中的“ Perform calculations ”,执行计算。

5 TSA界值图
点击左上角的“ Graphs ”菜单,再点击“ Adjusted Boundaries ”栏,即出现如图 10所示界面。左上角“ Tests and boundaries Layout ”区域可改变图中传统界值、TSA界值、累积Z曲线和RIS线条的颜色、粗细等性状。图 10中从左上到右下的上下对称的红色折线为TSA界值线,蓝色的折线为累积Z曲线,平行于横轴的为传统界值线Z=1.96,最右边的竖线为RIS线,传统界值线与横轴之间的两对称折线为无效线。本例TSA图形显示,累积Z曲线已超过TSA界值线,因此,证明试验组PKRP在TUR syndrome方面确实优于TURP。关于图形的解读,国内已有学者介绍 [11, 12],本文不再赘述。左下角进行图像的输出设置,如分辨率的设置等,点击“ Generate TSA Report ”即可。

6 惩罚统计量图
在“ Graphs ”菜单界面点击“ Penalised Tests ”栏,即出现图 10界面。除图形与TSA界值图不同外,其他部分均相同,该图形中有两条曲线,蓝色的为累积Z曲线,绿色的为惩罚统计量后的Z曲线。该图显示,惩罚后的Z曲线超过了传统界值Z=1.96,因此也证明PKRP在TUR syndrome方面确实优于TURP。

7 TSA校正可信区间
此时,在点击“ Meta-analysis ”菜单,可发现如图 12所示的Meta分析结果,传统的95%CI为(0.15,0.52)。如图 13所示,选择α消耗函数校正,点击“ Select ”并选择“ RIS ”,即可得出TSA校正后的95%CI(0.10,0.77),我们发现TSA校正后的可信区间比传统的Meta分析所得出的可信区间更宽,结论更为保守。


8 结语
TSA不仅能用于估算Meta分析样本量,还提供了接受无效假设的终止标准。当干预措施确实不存在统计学差异时,或累积样本量已达到RIS时,TSA能及时建议终止试验,避免医疗资源的浪费。TSA软件提供了TSA界值和惩罚统计量两种方法来检验两组干预措施是否确实存在差异。此外,TSA软件还可与RevMan软件保存的数据进行互导,便于在制作Meta分析时进行TSA操作。
Meta分析是将多个具有相同研究主题的研究进行定量综合分析的一个过程,其优势在于可以增加样本量,并增强结果的精确性和稳健性 [1]。基于随机对照试验(randomized controlled trial,RCT)的系统评价/Meta分析是当前公认的最高级别证据,而证据又是循证医学的核心 [2, 3]。因此,当所有可用的试验被纳入后,系统评价/Meta分析被认为是最佳可用证据,但“最佳可用的证据”并不同于“足够的证据”或“有力的证据” [4-9]。传统Meta分析缺少对统计效能的关注,当纳入的试验数目较少或样本量较小时,由于随机误差的影响,大约有25%的传统Meta分析得出错误的假阳性结论 [6, 10];若得出无统计学意义的结果,我们会认为该干预措施无效,或者得出需要进一步开展相关研究的结论,而无法确认该结果是由于干预措施是真的无效还是由于样本量不足引起的假阴性。此外,由于新的研究发表,Meta分析需要进行更新,而重复进行统计学检验也会增加Ⅰ类错误(假阳性)的风险。
Pogue等在1997年首次将成组序贯分析的方法引入Meta分析,即试验序贯分析(trial sequential analysis,TSA),克服了传统Meta分析的不足 [
1 建立新项目
本文以《Plasmakinetic resection technology for the treatment of benign prostatic hyperplasia: evidence from a systematic review and meta-analysis》一文 [16]为例,介绍TSA软件的应用。TSA软件同RevMan软件一样,不能直接进行数据的输入和分析,也需要进行一定的准备工作,建立一个新项目,然后才能进行数据的录入和统计学分析 [17]。下载TSA软件后,打开解压包,点击“ TSA.jar ”程序启动TSA软件,目前尚未添加项目,中上部显示“ No Meta-analysis Defined ”,即此时没有添加Meta分析项目,此时左侧顶端菜单栏仅有“ File ”一项,点击该菜单,选择“ New Meta-analysis ”,然后出现“ New Meta-analysis ”对话框(图 1)。该对话框主要分为4个部分:结局指标(Outcome)、比较(Comparison)、结局指标类型(Outcome type)、评论(Comments)。结局指标包括数据类型(二分类数据、连续型数据)和指标名称两项。比较栏包括试验组(group 1)和对照组(group 2)的名称。结局指标类型分为“ Negative ”和“Positive ”两项,对二分类数据,“ Negative ”主要包括病死率、发病率等具有消极性质的指标,“ Positive ”主要包括生存率、病毒清除率等具有积极性质的指标;对连续型数据,“ Negative ”主要包括抑郁评分增加等具有消极性质的指标,“ Positive ”主要包括血小板计数增加等具有积极性质的指标。选择结局指标类型是为了让软件能够根据数据分析结果来推断出支持哪一组干预措施。本文使用二分类数据“ TUR syndrome ”为结局指标,结局指标类型为“ Negative ”,试验组干预措施为“ PKRP ”,对照组干预措施为“ M-TURP ”。这些栏目完成后,点击“ Create ”键。

2 设置Meta分析参数
建立完新项目后,即出现“ Meta-analysis ”菜单栏目(图 2),左上角主要有5个菜单栏:“ Meta-analysis ”、“ Trials ”、“ TSA ”、“ Graphs ”和“ Diversity ”。“Meta-analysis ”菜单栏下主要由4大部分组成:效应量及模型设置(Set Effect Measure and Model)、零事件处理设置(Set Zero Event Handling)、可信区间设定(Set Confidence Interval)和Meta分析结果(Meta-analysis Summary)。对二分类数据,效应量有Relative Risk(RR)、Odds Ratio(OR)、Risk Difference (RD)、Peto OR;对连续型数据,效应量仅有Mean Difference(MD)。模型共有1种固定效应模型和3种随机效应模型(DL法、SJ法和BT法)可供选择。对零事件处理的,TSA软件提供了3种方法:连续性校正(Constant)、倒数校正(Reciprocal)、经验性校正(Empirical)。当有零事件研究纳入时,可选择“ Include trials with no events ”项,使用经验性校正时需注意,应先输入纳入研究的数据后才可应用该方法。校正的值(Value)提供了4个:1、0.5、0.01、0.001。可信区间设定时应先选择“ Conventional ”,其后提供了4个可选择的可信区间,一般选择95%。本文选择的效应量为RR,模型为固定效应模型,零事件处理方法为连续性校正,校正值为1。可信区间为传统95%可信区间。

3 录入研究及数据
点击主菜单栏的“ Trials ”键,出现添加研究的界面(图 3)。主要由4个区域组成:添加二分类数据研究(Add Dichotomous Trial)、编辑/删除已添加研究(Edit/Delete Trial)、忽略研究(Ignore Trial)和添加研究的显示区。添加研究的区域主要输入研究名称、年限、试验组和对照组的事件发生数及样本量,如果是高质量RCT,则可以选择“ Low Bias Risk ”键。然后点击“ Add Trial ”键即可将输入的研究添加进显示区。编辑/删除已添加研究由编辑研究和删除研究两个栏组成,在显示区选中研究后,就可以进行编辑或删除操作。忽略研究区由4个栏组成:忽略低风险偏倚研究、忽略高风险偏倚研究、忽略所有研究及无研究忽略。显示区主要由4个栏组成,显示输入研究的基本信息(研究名称、年限)、偏倚情况、是否被忽略(忽略研究也可在此栏下操作)及相关数据。图 4为本文已添加研究数据的界面,偏倚风险这一项我们未进行选择。在“ Data ”栏显示的干预组均有0.5的加入,这是因为我们采用的是连续性1校正,因此在试验组和对照组的事件发生数中各加0.5,那么总人数就加1。本文采用的结局指标较为特殊,为一种术中并发症,在试验组均未发生。


4 TSA参数设置
添加完研究后,点击左上角的“ TSA ”菜单,即出现关于TSA参数设置的界面(图 5)。主要由添加(Add)、编辑(Edit)、运算(Calculations)、信息轴(Information axis)、模板(Templates)、期中分析(Interim analyses)和显示区组成。添加区域由3个主体部分组成:传统界值(Conventional Test Boundary)、α消耗函数界值(Alpha-spending Boundaries)和重对数定律(Law of the Iterated Logarithm)。

点击“ Conventional Test Boundary ”键后,弹出“ Conventional Test Boundary ”对话框(图 6),进行传统界值的参数设置。传统界值名定义为“ Conventional ”,界值类型(Boundary Type)一般设定为双侧(Two-sided),Ⅰ类错误通常定义为5%(即显著性水平),然后点击“ Add ”键。界值类型也可选择单侧,上单侧(One-sided Upper)用于检测试验组干预措施优于对照组干预措施,下单测(One-sided Lower)用于检测对照组干预措施优于试验组干预措施;对二分类数据,应注意的是当结局指标为“ Positive ”类指标时,这时单侧检验的意义就恰好与上述相反。

点击“ Alpha-spending Boundaries ”键,弹出“ Alpha-spending Boundaries ”对话框(图 7),进行α消耗函数界值(即TSA界值)设置。该对话框为二分类数据下的界面,连续型数据下的界面与此界面差别不大,仅在期望信息量计算的设置有些许差别,读者可自行摸索。该对话框主要由3部分组成:假设检验设置(Hypothesis Testing)、内嵌无效线设置(Inner Wedge)和期望信息量设置(Required Information Size,RIS)。我们将TSA界值名定义为RIS;假设检验的界值类型设定为双侧检验(Two-sided),Ⅰ类错误定义为5%,α消耗函数在TSA软件中只提供了O’Brien-Fleming法,信息轴有累积的样本量(Sample Size)、累积的事件发生数(Event Size)和累积的统计信息量(Statistical Information)3个可供选择,我们选择样本量作为TSA界值图的横轴。内嵌为设置无效界值,无效界值是用于检验干预措施的疗效是否确实无差异,TSA软件只提供了O’Brien-Fleming法β消耗函数来进行无效检验。对RIS的设置,首先信息量(Information Size)选择“ Estimate ”,这是由于我们选择累积的样本量作为信息轴,统计学效能一般定义为80%,这时内嵌设置内的“ Power ”就会自动变为80%;Ⅰ类错误不需要设置,因为在假设检验里已设置该项;由于纳入研究的质量不高,因此相对危险度减少率(Relative Risk Reduction,RRR)使用用户自定义(User Defined),我们按临床专业经验估算为35%;试验组事件发生率不需要用户自定义,软件可自行计算;对照组事件发生率我们按临床专业经验估算为3%;异质性校正(Heterogeneity Correction)我们使用基于模型的变异值(Model Variance Based),即Meta分析模型所检测出的异质性大小。设置完成后点击“ Add ”键。

点击“ Law of the Iterated Logarithm ”键,弹出“ Law of the Iterated Logarithm ”对话框,我们将重对数定律界值定义为“ LIL ”;界值类型设置为双侧(Two-sided),Ⅰ类错误定义为5%;由于我们选择的效应量为RR,Ⅰ类错误定义为5%,因此惩罚值λ(penalty)为2 [12]。然后点击“ Add ”键。重对数定律法不同于TSA界值,TSA界值是校正显著性检验水准,而重对数定律法是通过惩罚检验统计量Z值,然后与传统界值Z=1.96进行比较,看其是否超出传统界值线。

这些设置好的传统界值和TSA界值可保存为模版,点击图 5中的“ Save as template ”即可,便于下次使用,再点击“ Manage templates ”,即可得到保存模板的详细信息(图 9),选中左侧的模板,右侧即显示出其详细参数信息的设置情况。最后,点击图 5中的“ Perform calculations ”,执行计算。

5 TSA界值图
点击左上角的“ Graphs ”菜单,再点击“ Adjusted Boundaries ”栏,即出现如图 10所示界面。左上角“ Tests and boundaries Layout ”区域可改变图中传统界值、TSA界值、累积Z曲线和RIS线条的颜色、粗细等性状。图 10中从左上到右下的上下对称的红色折线为TSA界值线,蓝色的折线为累积Z曲线,平行于横轴的为传统界值线Z=1.96,最右边的竖线为RIS线,传统界值线与横轴之间的两对称折线为无效线。本例TSA图形显示,累积Z曲线已超过TSA界值线,因此,证明试验组PKRP在TUR syndrome方面确实优于TURP。关于图形的解读,国内已有学者介绍 [11, 12],本文不再赘述。左下角进行图像的输出设置,如分辨率的设置等,点击“ Generate TSA Report ”即可。

6 惩罚统计量图
在“ Graphs ”菜单界面点击“ Penalised Tests ”栏,即出现图 10界面。除图形与TSA界值图不同外,其他部分均相同,该图形中有两条曲线,蓝色的为累积Z曲线,绿色的为惩罚统计量后的Z曲线。该图显示,惩罚后的Z曲线超过了传统界值Z=1.96,因此也证明PKRP在TUR syndrome方面确实优于TURP。

7 TSA校正可信区间
此时,在点击“ Meta-analysis ”菜单,可发现如图 12所示的Meta分析结果,传统的95%CI为(0.15,0.52)。如图 13所示,选择α消耗函数校正,点击“ Select ”并选择“ RIS ”,即可得出TSA校正后的95%CI(0.10,0.77),我们发现TSA校正后的可信区间比传统的Meta分析所得出的可信区间更宽,结论更为保守。


8 结语
TSA不仅能用于估算Meta分析样本量,还提供了接受无效假设的终止标准。当干预措施确实不存在统计学差异时,或累积样本量已达到RIS时,TSA能及时建议终止试验,避免医疗资源的浪费。TSA软件提供了TSA界值和惩罚统计量两种方法来检验两组干预措施是否确实存在差异。此外,TSA软件还可与RevMan软件保存的数据进行互导,便于在制作Meta分析时进行TSA操作。