总结系列
Python
一文理清临床预测模型
– 04·29-
宜分享
在临床研究中,我们常常可以看到有关临床预测模型的研究。那么什么是临床预测模型呢?一起来看看吧~
概述
Brief Introduction
临床预测模型的定义:
指利用数学公式估计特定个体当前患有某病或将来发生某结局的概率。
临床预测模型作为风险与获益评估的量化工具,可为医生、患者及卫生行政人员的决策提供更直观、理性的信息。
在传统的流行病学研究中:
A)干预/暴露措施的效应估计与比较:适合用t检验/方差分析,卡方检验,Log-rank检验等传统的统计学假设检验或者校正模型来回答。
B)临床预测模型:适合回答疾病的诊断或预后相关问题,特别是预测因子的组合如何准确的估计患病或事件发生的概率。
临床预测模型的英文和同义表述:
临床预测模型(Clinical Prediction Models);
临床预测规则(Clinical prediction rules);
风险预测模型(Risk prediction models);
预测模型(Predictive models);
风险评分(Risk scores);
临床预测模型的分类:
依据所研究的问题,临床预测模型可分为诊断模型和预后模型。
① 诊断模型(Diagnostic models):
诊断模型是基于研究对象的临床症状和特征,诊断当前患有某种疾病的概率,多见于横断面研究。
② 预后模型(Prognostic models):
预后模型是基于当前状况下(健康或患病),判断未来一段时间内发生某结局(发病、复发、死亡,伤残及并发症)的概率,多见于队列研究。
由此可见,临床预测模型由两个基础构成:
① 预测结局;② 预测因子
① 常见的预测结局:
患病;发病;疾病的复发;死亡;伤残及并发症;
模型的预测结局多为是否发生,属于二分类变量;
预测结局的效应指标:
结局出现的绝对风险,即发生的概率;
而非相对危险度(RR)、比值比(OR)或者风险比(HR)等相对效应指标。
② 常见的预测因子:
社会人口学特征(如年龄、性别);
疾病史;用药史;体格检查结果;
影像;电生理;血样尿样检查;病理检查;
疾病阶段与特征;
组学指标(基因组学、蛋白组学、代谢组学、转录组学及药物基因组学等);
预测因子的英文及其同义词:
预测因子(Predictors);
预后因素(Prognosticfactors);
决定因素(Determinants);
在国际上,
“预测研究策略”(PROGRESS)研究组曾提出了临床预测模型研究的四种类型:
① 基本预后研究:即自然状态以及当前医疗质量下疾病的进程;
② 预后因素研究:即与预后相关的特定因素;
③ 预后模型研究:即建立、验证预测个体未来结局风险的统计模型,并评估其影响;
④ 分层医学研究:即利用预后信息调整个体或是具有相同特征人群的治疗决策;
《个体预后与诊断的多变量预测模型透明报告》(TRIPOD)研究组则将临床预测模型研究分为五大类:
① 寻找预后与诊断因子研究;
② 无外部验证的预测模型建立研究;
③ 有外部验证的预测模型建立研究;
④ 预测模型验证研究;
⑤ 预测模型影响研究;
注:
a) 寻找预后与诊断因子研究:旨在识别出诊断或是预后的独立因子,而非为个性化预测建立最终的预测模型;
b) 预测模型影响研究:旨在比较应用与不应用预测模型在医生和患者医疗决策及患者健康结局上的效果差异。应遵循比较干预研究设计,而非单个队列研究设计。
c) 预测模型影响研究:最理想的设计类型是整群随机试验。
临床预测模型的应用场景:
① 一级预防:临床预测模型可以给患者和医生提供基于当前的健康状态下,未来患有某病的量化风险值(概率),为健康教育和行为干预提供更直观、有力的科学工具;
例如,基于福明翰心脏研究的福明翰心血管病危险评分明确了降低血脂、血压可以预防心肌梗死。
②二级预防:诊断模型常借助无创的、低成本、易采集的指标,构建高灵敏度和特异度的诊断方案,践行
“早发现,早诊断,早治疗”的疾病预防理念,具有重要的卫生经济学意义;
③三级预防:预后模型可对疾病的复发、死亡,伤残及发生并发症的概率给出量化的估算,指导对症治疗和康复方案的制定,防止疾病复发、降低病死率,减少伤残,促进功能恢复,提高生存质量;
临床预测模型的研究思路
Brief Introduction
从模型建立到应用,临床预测模型有一套完整的研究流程:
① 研究问题的确立与研究类型的选择:
不同问题需采用不同的研究设计类型。
A)诊断类问题:
-
a)其预测因子与结局均在同一时点或很短时间内,适合采用横断面研究数据构建诊断模型;
-
b)需要有“金标准”来单独诊断疾病,且“金标准”的诊断应该在“盲法”状态下进行,即“金标准”的诊断不能借助预测模型中的预测因子信息,以避免诊断评估偏倚(Diagnostic review bias);
B)预后类问题:
-
a)其预测因子与结局有纵向时间逻辑,适合采用队列研究数据拟合预后模型;
-
b)其预测因子与结局的本质就是纵向关系,且研究者通常希望获得在自然状态下疾病的转归,因此前瞻性队列研究是预后模型最常见,也是最佳研究设计类型;
-
c)随机对照临床试验可视为入选更为严格前瞻性队列,因此也可用于建立预后模型,但在外推性受限;
-
d)回顾性的队列研究因其预测因子与结局的数据并非系统性的收集,导致信息偏倚,不推荐用其建立预后模型;
-
e)传统的病例对照研究不适合建立预测模型,不过剿式病例对照或者病例队列研究在罕见结局或者预测因子测量昂贵的研究中是经济、可行的方案;
-
f)疾病注册数据库和电子病历资料也成为构建预测模型的重要数据来源;
② 设计与实施,数据管理与质控:
A)全新研究:则应从研究方案、研究者操作手册、病例报告表、伦理批件等相关文件的准备开始,并进行数据管理与质控;
B)回顾性研究:应对数据质量进行评估,并根据实际情况确定用于建模和验证的数据集;
③ 临床预测模型的建立与评价:
A)应明确已知的、已报道的预测因子;
B)确定入选研究的预测因子的原则及方法;
C)确定入选模型的类型:
-
传统模型:
a) 适合二分类变量的Logistic回归模型;
b) 适合生存数据的Cox回归模型;
c) 适合频数资料的泊松回归模型;
D)拟合模型并估算模型参数;
E)评估模型的性能:
-
a) 区分度(Discrimination);
-
b) 校准度(Calibration);
④ 临床预测模型的验证:
A)内部效度 → 可重复性(Reproducibility)
-
a) 划分测试集和训练集
-
b) 交叉验证(Cross-validation)
-
c) Bootstrap验证
B)外部效度 → 普遍性(Generalizability)
用研究项目本身以外的数据来验证
(从时间上、地理上独立或完全独立的数据)
⑤ 模型应用与影响评估:
A)模型应用通常包括:
-
a)评分-概率对照表;
-
b)依据得分高低划分高危低危人群;
-
c)列线图(Nomogram);
-
d)网页工具或者手机APP
-
e)报告研究结果;
《个体预后与诊断的多变量预测模型透明报告》(TRIPOD)从标题和摘要、介绍、方法、结果、讨论以及其它七个方面,提出了22条检查条目,以规范报告内容,提高研究质量。研究者在撰写研究报告时,可从http://www./获取更详细的参考信息。
B)模型影响评估:
临床预测模型的最终意义在于应用临床预测模型是否改变了医生/患者的行为、改善了患者的结局或成本效应。此,即临床预测模型的影响评估。
评估模型影响的研究需要:
-
设计随机对照试验,且通常为整群随机对照试验来评估。
⑥ 临床预测模型的更新:
即便是经过良好验证的临床预测模型,由于疾病危险因素、未测量的危险因素、治疗措施及治疗背景等随时间变化,模型性能因此下降。此,即校准度漂移(Calibration drift)。
因此,临床预测模型需不断进化、动态更新。
临床预测模型的建立
Brief Introduction
接下来,我们来详细拆解一下第三步:临床预测模型的建立与评价。
首先,我们来看下临床预测模型的建立。
模型建立,可以分为以下几个步骤:
① 处理预测变量:
A)处理缺失值:
-
a) 直接剔除
缺点:不仅可能引入选择偏倚,而且导致信息丢失,样本量减少,把握度下降。
-
b) 缺失值插补
多重插补是一个重要的弥补方法。
缺失值插补可利用患者未缺失的所有变量信息去估计其缺失变量最有可能的值。
B)变量类别处理:
-
a)分类变量的某些类的频数或者比例过低时,应考虑将相近的类合并;
-
b)连续变量需首先考察变量分布,对于严重左偏或右偏的数据,可以考虑进行相应的变量转换使变量更接近正态分布;
-
c)连续变量通常假定为线性关系纳入模型,但研究者应该借助限制性立方样条(Restricted Cubic Splines,RCS)函数或者多项式(Fractional Polynomials,FPs)考察非线性拟合是否更为合适,如J型或U型曲线;
-
d)也有研究将连续变量切割后纳入模型中,如果切割后模型的效能丢失少,应用的方便性提高,这在后期将预测模型推向大众应用时是可取的,但在模型建立初期不推荐采用此策略;
-
e)此外,连续变量变化的尺度通常为1个单位(如1岁),但考虑到实际效应,研究者也可尝试其它尺度,比如1个标准差或者10个单位(如10岁);
② 筛选预测变量
A)基于文献报道:
建立预测模型前,研究者应该系统检索文献,收集整理已报道的预测因子作为备选预测因子。
B)基于统计方法:
-
a)全模型策略
方法:将所有的潜在因子纳入统计模型,且不进行筛选。
优点:全模型策略可以避免模型过度拟合以及预测因子的筛选偏倚。
缺点:但在实践操作中,全模型不好定义,研究者的认识、变量测量的质量及数据集的样本量等都会影响到最终预测因子变量清单的确定,且纳入所有潜在的预测因子也不切实际。
-
b)筛选模型策略
方法:借助统计模型评估预测因子与结局的关系
准则:常根据P值,AIC或BIC值等来筛选变量。P<0.05是通常的标准,P<0.1或者更高的界值有可能引入并不重要的变量。AIC或BIC是模拟拟合指标,值越低说明模型拟合越好[10]
操作:向后法、向前法以及逐步法。向后法是从全模型开始逐步剔除冗余的变量,一旦剔除则不再纳入;向前法则是从零开始将变量逐个纳入模型中,一旦纳入则不再剔除;逐步法则是向前法与向后法的综合,每次新变量纳入统计模型时,还需评估已纳入的变量。实践中向后法使用更为普遍,因其首先评估了全模型效应。
新技术:一些新的回归技术,如LASSO回归越来越受到研究者的重视。由于预测模型的终极目标是预测,因此,也可直接将模型的预测表现作为变量筛选的准则。
C)基于医学认识:
筛选预测模型的预测因子虽然有各种统计方法,但任何预测模型的变量筛选,都不能完全依赖于统计方法,应该结合专业知识以及专业领域的经验。
此外,在确定预测模型的预测因子时,一些实际的因素,如指标测量的难易度、测量成本、以及应用的难易度等也应考虑在内。
③ 拟合预测模型:
A)数据集的划分:
将数据集划分为训练集和验证集,以训练集数据拟合预测模型,以验证集数据评估模型。
-
a)随机拆分样本;
-
b)交叉验证(Cross-validation);
-
c)Bootstrap重抽样;
B)模型形式的选择:
选择预测模型时,研究者需考虑结局变量类型及数据
来源。
-
a)Logistic回归
二分类变量结局;诊断模型或短期的预后模型
-
b)Cox回归
事件-时间变量;长期的预后模型,常用Cox回归拟合
c)泊松回归
-
结局为事件的发生次数(如一年内哮喘发作次数、心衰患者的住院次数等)
d)线性回归
结局为于连续变量
e)机器学习的算法
-
决策树、随机森林、神经网络等
C)系数估计的算法:
-
a)线性回归:最小二乘估计法
-
b)Logistic和Cox回归:最大似然(ML)估计法
-
c)新型估算技术:shrinkage技术、惩罚最大似然估计
④ 评估预测模型:
对模型的表现进行评估,以考察其可重复性及外推性。因此,严格的预测模型评估过程包括了内部以及外部数据的验证。
A)内部验证:
当使用和训练集同源的数据集时,称之为内部验证。
-
a)随机拆分验证;
-
b)交叉验证;
-
c)Bootstrap重抽样(最推荐)
B)外部验证:
当使用和训练集不同源的数据集时,称为外部验证。
-
外部验证可采用不同时间、不同地域、不同时间及地域的数据集。
总结如下:
具体的模型评价指标见下一部分。
临床预测模型的评价
Brief Introduction
在评价预测模型时,需要进行外部和内部验证,并且使用一些评价指标。
① 内部验证:
目的:检验模型开发的可重复性(Reproducibility),防止过度拟合(Over-fitting)
形式:
A)随机拆分验证:
将模型开发队列随机分为训练集和验证集两部分,通常两者比例为1:1或2:1。以2:1为例,首先从开发队列中随机抽取2/3的数据作为训练集,剩余1/3数据作为验证集。通常这一拆分过程仅进行一次,在开发队列样本量较小的情况下,是对开发数据极大的浪费。
B)交叉验证:
交叉验证又称K折检验,是随机拆分验证的改进。以K=10的10折验证为例:将开发队列随机分为10份,每次利用其中9份作为训练集,剩余1份作为验证集,并重复这一过程。但交叉验证对于模型开发数据的使用效率不佳,所以逐渐被Bootstrap方法取代。
C)Bootstrap重抽样:
是指通过在模型开发队列中进行有放回抽样,构造一个相同样本量大小的Bootstrap重抽样样本,并将此样本作为训练集,将模型开发队列作为验证集评价模型性能重复此过程n次,就可得到模型在内部验证中的表现。
Bootstrap方法根据技术细节,又细分为:
-
a)简单Bootstrap法
最为直观,直接将n次重抽样获得的模型表现进行平均作为内部验证表现
-
b)加强Bootstrap法
最为常用,通过计算模型表现在训练集和验证集中的差异,得到模型表现的高估值(optimism),并根据高估值调整模型表现;
-
c)0.632法
用另外一种方法来计算高估值,需要用到Bootstrap重抽样中未被选择的样本作为验证集;
D)“内部-外部”交叉验证:
-
定义:“内部-外部”交叉验证类似于交叉验证,但是在拆分数据时不是随机分组,而是根据数据来源分组,这种方法多用于多中心数据开发队列。
-
方法:每次抽取一个中心的数据作为验证集,剩余数据作为训练集,重复此过程使每一个中心的数据都曾被用作验证集。最后将每次“内部-外部”交叉验证中获得的模型表现汇总,得到内部验证中的模型表现。
-
优势:在模型开发过程中利用了全部开发队列数据(因此仍属于内部验证),同时在内部验证中通过非随机拆分,实现了外部验证的效果。
② 外部验证:
目的:考察模型的可移植性(Transportability)和可泛化性(Generalizability)
形式:
A)时段验证(Temporal validation):
-
定义:指的是利用与模型开发队列来源相同,但是时间段不同的数据对模型表现进行验证。
-
方法:最常见的是在模型开发过程中继续收集数据,在模型开发完成后,利用新收集的数据对模型进行外部时段验证。
B)空间验证(Geographical validation):
-
定义:指的是对模型在其他中心甚至其他国家的数据中的表现进行验证,所以验证队列可能采用与开发队列不同的纳入/排除标准或不同的预测因子和结局变量的测量方法。空间验证比时段验证能更好的检验模型的可转移性和泛化性。
C)领域验证(Domain validation):
-
定义:指在不同的临床场景中对模型进行验证,例如模型开发时是基于医院的患者数据,在领域验证时可以利用社区居民数据检验模型在不同人群中的表现。
准则:
对模型进行外部验证外部验证需要将待验证的模型应用于验证队列数据中,计算出预测值并与观测值相比较,这就要求待验证的模型提供了完整的信息,包括预测变量的赋值方法、权重(回归系数),对于Cox模型还需要知道分组生存曲线或基础生存曲线。
需要严格按照待验证的原始模型,计算风险评分(即风险因子乘以回归系数后相加得到的线性预测值)或预测概率,在验证步骤中不得对原模型进行调整,以确保验证结果的客观公正。
常用的验证方法:
A)校准斜率(calibration slope):
-
定义:将根据原始模型计算的风险评分作为唯一的自变量,在验证队列中重新拟合模型。由此得到的回归系数就是校准斜率(calibration slope);
-
大小:若校准斜率小于1,表示模型在开发过程中有一定程度的过度拟合,也预示着模型预测值过于极端(低风险预测过低,高风险预测过高),且在外部验证中的区分度会低于模型开发时报告的区分度;
B)校准截距(calibration-in-the-large):
-
若是Logistic回归,还可得到校准截距(calibration-in-the-large)。
-
定义:用来比较预测概率的均值和观测到的事件发生的概率,若校准截距大于0,代表模型验证队列的事件发生率高于模型开发队列。
C)C统计量:
-
此外,利用区分度C统计量只依赖于风险评分的排序这一性质,此模型拟合中得到的C统计的估计,就是原始模型在外部验证中的C统计量。
D)Brier得分:
-
最后,可通过计算验证队列中每个个体的绝对概率预测值和结局变量值,计算Brier得分,验证原始模型的校准度。
若是对自己开发的模型进行外部验证,以上信息完全可获得,对所有验证指标的计算都是可行的。但因为模型开发报告的信息经常不完整,相比于外部验证自己开发的模型,对其他研究者发表的模型进行验证更为困难。
③ 评价指标:
在评价预测模型时,需要进行外部和内部验证。无论 是内部验证还是外部验证,均需要采用的一定的指标评估模型的表现 。常用的指标有以下几种:
A)区分度指标(Discrimination)
定义:指模型区分发生终点事件的个体与未发生终点事件的个体的能力,也就是将患者按照风险的大小进行排序的能力。
终点事件可以是患有待诊断的疾病(诊断模型)或发生预期的事件(预后模型)
常用指标:
-
a)一致性统计量(Concordance statistics)
定义:也被称为C统计量,可以解释为随机抽取一个发生事件的个体和一个未发生事件的个体,前者模型得分高于后者模型得分的概率。
取值范围:0~1,C统计量越接近1表示模型区分度越好,C统计量等于0.5时表示模型没有预测能力,C统计量小于0.5表示模型预测与实际结果相反。
AUC:若终点事件是二分类变量,C统计量与ROC曲线下面积(AUC)相同;
-
b)Harrell’s C统计量
若终点事件是事件-时间变量,最常用的是Harrell提出的Harrell’s C统计量。但在删失较多的情况下,Harrell’s C统计量会高估模型表现;
-
c)Uno’s C统计量
Uno等提出了一种新的C统计量计算方法,即Uno’s C统计量,可在删失数据较多的情况下得到可靠的估计。
-
d)时间依赖C统计量
除了这两种全局C统计量,对于生存数据,许多研究者还提出了基于不同删失数据处理方法的时间依赖C统计量,用于评价特定时间点的模型区分度。
缺点:从区分度的概念可知,区分度仅取决于风险评分或预测概率的排序,不能体现模型绝对风险概率的预测是否准确。因此,我们还需更精确的量化指标来考察模型,即模型的校准度。
B)校准度指标(Calibration)
定义:校准度关注模型的绝对风险预测值是否准确,即模型预测的事件发生概率与观察到的事件发生概率的一致程度。
常用指标:
-
a)校准度图
即将所有个体首先按模型预测概率从低到高排序,并按10等份分为10组,分别计算每组预测概率的均值和事件发生比例,然后以模型预测概率作为X轴,以实际事件的比例为Y轴,绘制散点图。
校准度较好的模型,散点应沿45°斜线排列。
-
b)Hosmer-Lemeshow拟合优度检验
用于比较预测概率和实际发生概率是否有显著性差异,然而该检验得到的P值并不能用来量化模型校准度,所以不推荐此检验。
-
c)Brier得分
以量化的方式衡量校准度。计算方法为(Y-p)^2,其中Y为实际观测到的结局变量值(0或1),p为预测模型给出的预测概率。
Brier得分取值范围为0~0.25,Brier得分越接近0表示模型校准度越好,Brier得分等于0.25时表示模型没有预测能力。
对于一个特定模型,Brier得分的最大可能值取决于终点事件发生的比例,有时也用尺度调整后的Brier得分来衡量模型校准度。
C)校准度和区分度的联系
一个好的预测模型应同时具备较高的区分度和校准度,但这两个指标并非完全孤立。
-
a)区分度是保证模型表现的基础,是模型拥有良好校准度的前提条件;
-
b)若模型区分度较高,但校准度不佳,可通过重新校准提高模型表现;
-
c)但若模型区分度不佳,通常无法获得良好的校准度;
因此,在模型验证中,尤其是模型开发时的内部验证中发现模型区分度较低,则无必要继续评估其他表现指标,而应该首先考虑改善模型的区分度。
D)预测增量值(incremental value):
-
a)似然函数:
概念:大多数统计模型,包括Logistic模型和Cox模型,都是基于似然函数来构建的。似然函数反映了在假定模型下获得观测数据的概率或“可能性”(likelihood),这里假定模型包括模型中包含的变量及回归系数。对模型中加入更多的变量会让模型对数据的拟合更好,得到实际观察到的数据的可能性越高。在二分类结局的建模中常见的衡量模型拟合的Nagelkerke R2统计量,也是基于尺度调整后的对数似然函数而计算。因此,似然值是否增加以及增加多少,可作为判断新的预测因子是否可以改善模型的标准。
当新模型和原有模型为嵌套关系时(例如新模型仅比原有模型多出一个新的预测因子),我们可以通过似然比检验来检验模型的改进。
当新模型与原有模型为非嵌套关系时,我们可以使用其他基于似然函数的评价指标,例如赤池信息标准(AIC)或贝叶斯信息标准(BIC)。原始AIC对每个新增变量施加2个自由度的惩罚,而广义AIC则可以使用任意惩罚函数。BIC通常对样本数量的对数值[ln(N)]施加较大的惩罚,因此,与AIC相比,它更倾向于简化模型,所以很难得到新的预测因子具有附加价值的结论。
如果新的预测因子不能提高似然值,则不太产生任何临床影响。当新模型与原有模型效果一致的零假设成立时,其他评价指标可能变得多余,甚至产生偏差。因此,基于似然函数的检验方法是首先考虑的检验,甚至有研究者提出,基于嵌套模型的似然比检验是评估是否应在现有模型中加入新的预测因子时唯一需做的检验。
尽管基于似然函数的指标或检验可以证明哪个模型有更好的拟合,但这并不一定能转化为临床意义。因为模型改进程度可能很小,改进可能仅限于少数个体,或者可能无法对临床决策产生影响。因此,在新预测因子可以对模型拟合带来改进的基础上,还需进一步通过其他指标来综合判断。
-
b)风险因素效应值
概念:风险因素的效应值,衡量的是风险因素与结局指标的关联程度。对于二分类结局变量,比较常见的效应值包括比值比(OR);对于生存结局,比较常见的效应量包括风险比(HR)。
如果想要评价的预测因子为二分类变量,效应量的解释比较直观,它代表了两组患者间发生结局事件的风险的相对倍数。然而,较高的效应值并不能直接表示预测因子具有较高的增量值,因为预测因子在某个分组中的比例可能非常少。
一个OR值为2并且两组患者数的比例为50:50的预测因子,要比OR值为10但是两组患者数的比例为1:99的预测因子更重要。
如果预测因子为连续变量,效应量表示预测因子每增加一个单位时事件发生的风险会增加到多少倍,因此当变量的单位很小或取值范围较广时,效应值可能会显得很小。以身高为例,若以“厘米”为计量单位时身高的OR是1.01,那么当以“米”为计量单位时,OR将变为2.70(1.01的100次方),所以不能仅根据效应值的大小来判断预测因子的表现。
这时可以考虑使用标准化的效应值,即对应于预测因子一个标准差的变化的效应值。
另一种常见的方法是,使用四分位间距的效应值,即预测因子上四分位值(75%分位点)相对于下四分位值(25%分位点)的效应值。
-
c)ROC曲线和C统计量
-
ROC曲线可以用来描述一个连续预测因子在一系列阈值上的灵敏度和特异性。ROC曲线下面积(AUC),有时也称为c统计量,可以解释为当我们比较一位发生事件的患者与一位未发生事件的患者时,发生事件者具有较高的模型预测值的概率。当AUC为0.5时代表
-
预测模型没有判别能力,与抛硬币无异,AUC值
-
为1则代表预测模型具有完美的判别能力。一直以来,AUC和C统计量都是评估诊断模型或预后模型的主要指标。通过比较增加新预测因子的模型和原有模型的AUC,可判断新预测因子的预测能力。ROC曲线直接评估模型区分度,不受模型校准度(即预测风险概率与观察风险概率的匹配程度)的影响,当研究问题是区分不同患者时,比如区分患病和未患病人群时,该指标较适用。
-
然而,由于ROC曲线和AUC是对区分度的总体衡量指标,没有针对特定分类阈值给出正确分类和不正确分类的绝对人数或比例,所以该指标没有直接的临床解释。另外,根据实践经验,AUC的绝对变化量通常很小,尤其是当模型的AUC较大时,即便是更好的模型也很难继续提高AUC。因此,当评价新的预测因子的增量值时,不应过分强调AUC的改善程度,因为这一指标很大程度上是取决于原模型AUC的高低,而不是取决于新预测因子对结局的预测能力。
-
实际上,在心血管疾病领域,有许多非常有应用前景的生物标志物,虽然与心血管疾病有很强的联系,但由于未能显著改善AUC,导致研究得出对生物标志物的价值过于悲观的结论。
-
d)重分类指标:
为了解决AUC改善值评价新预测因子的预测增量值的局限性,研究者们又提出了一系列基于模型预测重分类的替代指标。
风险分层主要关注的是预测模型是否能够准确的将个体根据临床意义分组,这对于确定治疗决策和优先治疗对象等方面都具有重要意义。
风险重分类的思想最初由Cook等提出,目的是显示有多少个体在模型增加新的预测因素后风险分层将发生变化。而风险重分类指标最早是由Pencina等学者提出的,主要包括净重分类改进指数(NRI)和综合判别改进指数(IDI)。
-
净重分类改进指数(NRI):
-
是基于风险分层来计算的,也被称为分类净重分类指数。如果是根据有临床意义的阈值将预测概率进行的风险分层,那么分类NRI可以表示于原有模型相比,新模型是否使风险分层结果发生变化,从而影响有关临床治疗的决策。分类NRI的计算公式如下]:
-
N R I = N R I ( + ) + N R I ( – )
-
= [ P ( u p | D = 1 ) -P(down|D=1)]+[P(down|D=0)-P(up|D= 0)]
-
=[向上转移数/事件数-向下转移数/事件数]+[向下转移数/非事件数-向上转移数/非事件数]
-
其中D代表事件发生状态(D=1为发生事件,D=0为未发生事件),up表示转移到更高风险类别,down表示转移到更低风险类别。
-
从公式中我们可以看到,NRI可以分为两个部分:事件组NRI[NRI(+)]和非事件组NRI[NRI(-)]。
-
其中NRI(+)是两个比例的差值,即事件组中转移到更高风险类别的患者比例P(up|D=1)减去事件组中转移到更低风险类别的患者比例P(down|D=1)。
-
如果NRI(+)的计算结果为正,则表明更多的事件组患者被新模型转移到更高风险类别而不是更低风险类别,也就是被重新分类为更合适的风险类别。
-
相应的,NRI(-)也是两个比例的差值,即非事件组中转移到更低风险类别的患者比例P(down|D=0)减去非事件组中转移到更高风险类别的患者比例P(up|D=0),
-
如果NRI(-)的计算结果为正,则表明未发生事件的患者被新模型转移到更低风险类别的人数要多于转移到更高风险类别,即被重新分类为更合适的风险类别。
-
在实际应用中,NRI的值会受到风险分层的数量和每个分层大小的影响,因此应预先确定分层的阈值。如果没有给定的阈值,可以考虑根据事件发生率P,设定阈值为P/2,P,和2P,将所有患者分为四个风险组。另外一种特殊的情况,是以P作为阈值将预测结果分为两组,这时计算的NRI值通常用NRI(p)来表示。NRI(p)虽然具有一些不错的统计属性,也与其他评价模型表现的统计量有一定关联,但是缺乏临床意义,无法对临床决策产生重要影响。
-
在使用NRI时需要注意,对于事件组和非事件组,应始终分别报告NRI的两个组成部分,即NRI(+)和NRI(-),以便可以根据需要来分别解读模型在事件组和非事件组中的改进或根据重要程度对两部分进行重新加权。
-
连续净重分类改进指数:
-
当每个预测的个体以自己作为一个单独风险分层时,分类净重分类改进指数即为连续净重分类改进指数,也叫无分类净分类改进指数。连续净重分类改进指数是分类净重分类改进指数的扩展,也是由 Pencina等学者提出, 通常用NRI(>0)来表示[13]。NRI(>0)代表了与原有模型或参考模型相比,新模型下的事件组的风险预测值是否有所增加以及非事件组的风险预测值是否有所降低。NRI(>0)仅基于判断是否有任何程度的增加或降低,而不需要预先指定的类别并判断类别是否发生改变,所以不会由于风险分类造成信息丢失。
-
从某种意义上来说,NRI(>0)类似于我们所熟悉的非参数统计的概念,即基于定性的计数判定,而下面要介绍的综合判别改进指数,则是直接基于定量的判定,可以看做是连续净重分类改进指数的参数版。
-
综合判别改进指数(IDI):
-
是另一种不依赖风险分类,而是综合所有风险预测值的变化的指标。与连续NRI不同的是,IDI不仅依据是否增加或降低,还计算增加或降低的程度。
-
IDI与其他的一些评价模型预测表现的指标有着密切的关系,它等于新模型与原模型的区分度斜率(又被称为Yates斜率)的差值,并且等于新模型与原模型的尺度调整后的Brier得分的差值。与NRI相比,IDI的值通常很低,并且难以解释,在实际应用时可以考虑将IDI除以原模型的区分度斜率作为区分度斜率的相对变化值。
D)决策曲线分析(Decision-curve analysis)
缘由:受试者工作特征曲线( receiver operator characteristic curve,ROC曲线) 作为一种临床预测模型,被广大医学研究工作者使用。ROC曲线利用真阳性率和假阴性率作图,得到灵敏度和特异度的关系,确定诊断试验的最 佳 临 界 值,并通过曲线下面积(area under curve,AUC) 比较不同模型的优劣。但ROC曲线唯一关注的就是预测模型的准确性,并不能在实际临床模型效用判断中提供帮助。
而决策曲线分析(decision curve analysis,DCA) 恰好弥补了这一缺陷。DCA 是一种能体现临床结局变量并可用于评估和比较不同预测模型的方法,受到越来越多来自医学研究工作者的重视。
DCA 的原则:
即假阳性和假阴性( 如漏诊癌症) 的相对损失值可以用阈概率表示。
假定患癌症的概率大于 20% 时应选择活检,那么当受试者患癌症的概率小于 20% 时,漏诊癌症产生的损失值是接受不必要活检损失值的四倍,这意味着阈概率的值决定了损失的相对比值。
总之,阈概率的值既可以决定受试者的临床结局又可以使用临床净效益函数对真阳性和假阳性的临床结果建模:
总结如下:
其中,我们将最常用的4个评价指标概括如下:
一文搞定临床预测模型总结
Brief Introduction
参考文献:
[1]陈乐陶,杨土保,陈橙,张静航,贺志敏,郑赞,秦家碧.决策曲线分析在R语言中的实现[J].中国卫生统计,2018,35(06):955-957+960.
[2]谷鸿秋,周支瑞,章仲恒,周权.临床预测模型:基本概念、应用场景及研究思路[J].中国循证心血管医学杂志,2018,10(12):1454-1456+1462.
[3]谷鸿秋,王俊峰,章仲恒,周支瑞.临床预测模型:模型的建立[J].中国循证心血管医学杂志,2019,11(01):14-16+23.
[4]王俊峰,章仲恒,周支瑞,谷鸿秋.临床预测模型:模型的验证[J].中国循证心血管医学杂志,2019,11(02):141-144.
[5]文玲子,王俊峰,谷鸿秋.临床预测模型:新预测因子的预测增量值[J].中国循证心血管医学杂志,2020,12(06):655-659.
[6]Steyerberg EW, Vergouwe Y. Towards better clinical prediction models: seven steps for development and an ABCD for validation. Eur Heart J. 2014 Aug 1;35(29):1925-31. doi: 10.1093/eurheartj/ehu207. Epub 2014 Jun 4. PMID: 24898551; PMCID: PMC4155437.
[7]贾玉龙,周洁,陈颖,沈毅.临床预测模型的综合评价体系研究[J].中国卫生统计,2019,36(05):728-730+734.
[8]赵璇,霍建平,尚游.甲状腺术后恶心呕吐风险分析及列线图模型建立[J].中国老年学杂志,2022,42(05):1109-1112.
现在:
- 本文固定链接: http://zydq.ybx8.cn/?p=60499
- 转载请注明: y930712 于 中药养生知识-中草药的功效与作用 发表