如何利用观察性健康数据,成功回答因果推断问题?

发布时间:2025-06-05 18:14  浏览量:1

之前我们对发表在《European Stroke Journal》杂志的一篇Review article进行了分享。

这篇评论文章为卒中研究人员对基于观察性数据的描述性流行病学和因果推断研究,提供了十个需要考量和实施的重要要点,以确保的有效性和可解释性。

10点入门:如何规范使用观察性数据进行描述性流行病学和因果推断研究

但由于篇幅太长,只能陆续分享整篇文章。前面我们介绍了前两个要点:

第一点就是要考虑您将使用的数据类型是专门为研究而收集的数据,还是为行政和临床目的(但非特定研究目标)常规收集的健康数据。

第二点是要考虑您的研究问题类型是因果关系还是描述性流行病学?

今天我们详细看看第三点和第四点!


第三点:基于观察性数据的因果推断

随机临床试验(RCT)通过随机分配机制,为治疗对结果的因果效应提供无偏估计。如图 3(a) 所示,由于治疗分配的随机性,受试者被分配到试验的治疗组或对照组时,可分别被视为完全且恰当地代表了,如果对整个研究样本都施以治疗或都不施以治疗的两种情景。这一点对于回答在要点 2 中讨论的因果问题至关重要。

图 3(a) 说明要点 3:随机对照试验(RCT)中的因果推断。由于暴露(治疗)的分配是随机的,被分配到暴露组(治疗,黄色)或对照组(蓝色)的参与者,可被假定为完全且适当地代表了如果对整个样本都施以治疗或都不施以治疗的情境。

在本点及后续各点中,讨论的重点是是否,以及如何利用观察性健康数据成功回答因果推断问题。

本点中,我们以“移动卒中救援车”(Mobile Stroke Units,MSUs)为例展开讨论。

举例

MSU 是一种专用改装的救护车,可在现场对卒中患者进行诊断和治疗,再将患者转运至具备更先进治疗能力(如血管内取栓术)的医院。要评估将 MSU 作为一项政策干预的有效性,必须比较 MSU 路径和现有标准救护车卒中响应路径的结局差异。

最严谨的做法是开展一项前瞻性随机临床试验,直接对比这两种方案;若不可行,则可利用日常为行政和临床目的而收集的 MSU 及标准救护车数据加以研究。

如要点 2 所述,可提出两类本质不同的问题:

描述性流行病学问题:关注感兴趣结局与暴露状态(院前卒中救治方式,即 MSU vs. 标准救护车)的关系,旨在刻画在明确定义人群中,MSU 与标准救护车所对应的结局分布及其使用模式,包括这些分布中存在的任何显著差异。该问题考察的,是目标人群在实际所接受暴露条件下的结局分布——即在 MSU 操作半径内既有 MSU 也有标准救护车,在半径外则仅有标准救护车。

潜在因果推断问题:探讨如果所有患者均接受 MSU 院前卒中救治(而非标准救护车),其结局是否会发生有意义的改善。

第一个问题相对直接,第二个问题更具挑战性也更富意义。

因果推断问题需考虑潜在反事实情景:我们不可能实际观察到操作半径外患者接受 MSU 以后的结局,也许甚至根本没有这些远程患者的结局数据。如何解决对反事实暴露的需求与无法实际安排该暴露这一矛盾?

要完美回答因果问题,理论上需拥有“超人”能力——在两种(或多种)互斥暴露条件下都观察同一批研究对象。即,应先观察所有参与者接受 MSU 治疗,再观察同一队列接受标准救护车治疗。现实中,我们无法做到这一点,却仍想探究因果关系。更复杂的是,每个研究对象都可能具有多种已测量或未测量的混杂因素——即可能同时影响其接受何种暴露(如症状描述清晰度影响 MSU 调度)和结局(如症状轻重及持续时间)的变量。

临床试验通过随机化来规避此类问题(见图 3(a)),而大多数因果推断研究则旨在尽量减少混杂偏倚。

Rubin 的“潜在结果”框架为在观察性数据中思考因果效应提供了便利工具。根据该框架,每个研究对象在每种可能的暴露情境下均有一个潜在结局。

以 MSU 研究为例,每位接受卒中救治的患者被假定有两种潜在结局:如果接受标准救护车;如果接受 MSU。实际只会观察到每位患者在其真实经历的暴露下的结局,而由其他未实现的反事实暴露所对应的潜在结局则被视为“缺失”(见图 2(b))。即,所有接受标准救护车的患者都有标准救护车结局的观察值,但 MSU 情景下的潜在结局缺失;反之亦然。

图 3(b) 说明要点 3:在非随机设计中进行因果推断时会受到混杂的影响。由于潜在的混杂因素,未暴露(蓝色)和暴露(治疗,黄色)参与者不能被假定为完全且恰当地代表了如果对整个样本都施以或都不施以治疗的情境。因此,“按观察到的样本”对未暴露和暴露组的比较,无法回答因果推断问题。

要在 Rubin 框架下进行因果推理,需满足若干关键假设。

首先是一致性假设:若某参与者接受了某种暴露(如 MSU 治疗),则其观察到的结局应与该暴露下的潜在结局一致。

其次是可交换性假设(或无未测混杂):实际接受某暴露的参与者,应能代表若全体人群都接受该暴露时的情形。若满足此假设,就可利用观察到的数据显示(如 MSU 患者结局)来推断对全体人群的干预效应,前提是对混杂进行了适当控制。

此外,还需假设无测量误差、因果模型正确、以及积极性假设(见要点 9)等。

鉴于这些假设(其中有些难以验证)以及因果推断高度依赖“可能失误”的专家知识,任何能减少对专家知识依赖、同时满足这些假设的方法都极具价值。随机化是最有效的方法:它可在分配时平衡潜在结果,使在无详尽因果知识的情况下,也能获得无偏的平均因果效应估计(见图 3(a))。

在无随机化的情况下,可交换性假设更难验证,因为暴露决策可能依赖于观察或未观察到的协变量,导致混杂——即某些疾病或患者特征同时影响接受何种救治和结局(见图 3(b))。若无随机化,为获得无偏的因果效应估计,必然要做出无法验证的假设,包括所有影响暴露分配的基线协变量均已被测量并正确建模。在此基础上,可采用“目标试验”方法(见要点 6)、清晰界定因果假设(见要点 7)、以及推导无偏的平均因果效应估计(见要点 10)。

然而须强调,针对观察性数据的因果推断方法尽管设计用来缓解随机化缺失的问题,却无法确保因果推断的所有关键假设都真正成立。尤其当可交换性假设可能被违反时,因果推断结果将会产生误导。尽管已有研究试图评估潜在未测或未控混杂的影响,但基于观察性数据的因果结论,自然要比随机对照试验的结论力度更弱

建议 3.1:认识到任何因果效应估计的有效性取决于诸多难以验证的假设。基于观察性数据的因果结论,其可信度低于随机对照试验所得结论。如有理由怀疑假设(如可交换性)被违反,应当停止深入分析。

建议 3.2:因果研究报告中应明确列出为验证相关因果推断假设及缓解未随机化带来问题(如混杂)所采取的步骤。应使用 Rubin 的潜在结果框架,清晰阐述暴露、结局和研究人群。

第四点:各种因果效应类型

在要点 3 中针对 MSU(移动卒中救援车)院前卒中救治案例可能提出的潜在因果推断问题中,考虑以下三种:

问题 1:如果所有患者都接受 MSU 院前卒中救治,而不是接受标准救护车救治,其效应如何?

问题 2:如果当前 MSU 操作半径内的患者都接受 MSU 院前卒中救治,而不是接受标准救护车救治,其效应如何?

问题 3:如果当前 MSU 操作半径外、实际上接受了标准救护车救治的患者,都改为接受 MSU 救治,其效应如何?

请注意,上述问题的区别在于它们针对的是不同的研究人群。我们不能先验地假定操作半径内患者的社会人口学、行为模式、临床状况和医疗服务可及性,与远郊或更偏远地区的患者相同。很可能这些特征会混杂院前救治方式对结局的影响,而且不同人群的潜在效应也可能存在差异。

若将接受 MSU 救治的参与者视为“处理组”(或称“暴露组”),将接受标准救护车救治的参与者视为“对照组”(或称“未暴露组”),则上述三个问题所对应的因果效应分别为:

问题 1:平均处理效应(ATE, Average Treatment Effect)

ATE 是指在整个人群中,将所有参与者从未处理(未暴露)变为已处理(暴露)所引起的平均效应,图 4(a) 有示意。

图 4(a) 说明要点 4—平均处理效应(ATE):若研究样本中所有参与者都被暴露(治疗,黄色)与都未被暴露(蓝色),其结局差异为何?

问题 2:已处理群体的平均处理效应(ATT, Average Treatment Effect on the Treated)

ATT 是指在已接受处理(暴露)的子人群中,如果这些人本来未接受处理(未暴露),其结局会有怎样的平均变化,图 4(b) 有示意。

图 4(b) 说明要点 4—已暴露群体的平均处理效应(ATT):若样本中已暴露(黄色)的参与者其实未被暴露(蓝色),结局会如何?

问题 3:未处理群体的平均处理效应(ATU, Average Treatment Effect on the Untreated)

ATU 是指在未接受处理(未暴露)的子人群中,如果这些人本来接受了处理(暴露),其结局会有怎样的平均变化,图 4(c) 有示意。

图 4(c) 说明要点 4—未暴露群体的平均处理效应(ATU):若样本中未暴露(蓝色)的参与者其实被暴露(黄色),结局会如何?

关注哪种处理效应取决于临床背景和因果推断研究问题的性质。以下情境改编自 Austin,以供参考:

情境 1:研究者关心在一组因缺血性卒中诊断出院患者中,于出院时是否处方抗血小板治疗、他汀类药物和/或降压药的效应。相关的因果问题是:将一群已出院的缺血性卒中患者从未治疗状态转为治疗状态,会产生怎样的结局?此处关注的即为 ATE。

情境 2:研究者希望比较在无房颤患者中,不同二级卒中预防方案(如阿司匹林、氯吡格雷,或阿司匹林联合二吡啶醇)的结局差异。此时,ATE 和 ATT 都可能具有意义:ATE 描述若政策变为对所有符合条件的患者仅提供某一种治疗,结局将如何变化;而 ATT 则告诉我们对于那些实际接受某特定治疗(如氯吡格雷)的患者,其治疗效应如何。

情境 3:研究者希望评估一项结构化、强化型心血管康复项目对减少心血管事件的效应——尽管许多受试者符合参加条件,但实际选择参加的人很少。在这种情况下,ATT 可能更具意义,因为它估计的是该项目对那些选择参与者的效应。

建议 4.1:针对特定研究,所关注的因果效应类型在很大程度上取决于临床背景和研究问题的性质,且应与因果推断研究目标一起清晰呈现。

参考文献:

Churilov L, Hayward K, Yogendrakumar V, Andrew N. Conducting descriptive epidemiology and causal inference studies using observational data: A 10-point primer for stroke researchers. . 2025;0(0). doi:10.1177/23969873251332118