从偶然到因果

Xing Abao Lv3

因果推断的核心在于因果问题;它决定了我们分析哪些数据、如何分析数据,以及我们的推断适用于哪些人群。因果问题属于数据科学主要任务相关的更广泛问题集合,这些任务包括描述、预测和因果推断。遗憾的是,这些任务常常因为我们使用的技术(例如回归分析对于三者都很有用)以及我们表达的方式而混淆。当研究人员希望从非随机化数据中进行因果推断时,我们常常用关联这种委婉说法,来代替直接表明我们想要估计因果效应的意图。

例如,在一项关于流行病学研究中分析用语的最新研究中,用于描述估计效应的最常见词根是associate(关联),但许多研究人员也认为关联至少暗示了一定的因果效应(下图所示)。在分析的研究中,只有大约 1% 使用了cause(因果)这个词根。然而,有三分之一的研究提出了行动建议,研究人员评估这些建议时,认为 80% 至少有某种因果含义。通常,这些研究提出的行动建议(暗指因果效应)比描述效应时用的词(如associatecompare)所暗示的因果性更强。

图 1 研究人员使用的词根因果强度排名;拥有更多 Strong 排名的词根比拥有许多 None 或 Weak 排名的词根具有更强的因果含义

因此,与那些有明确假设和目标的问题不同,大多数研究最终得到的却是薛定谔的因果推断

“薛定谔的因果推断” Schrödinger’s causal inference,即研究在避免声明(甚至明确否认)估算因果效应兴趣的同时,又在其他方面充满了因果意图、推断、含义和建议。这个说法,是借用了物理学中著名的薛定谔的猫思想实验来打比方。在原本的物理实验里,薛定谔的猫既”死”又”活”,直到你打开盒子观察它,才确定其状态。这种状态被称为”叠加态”。

在因果推断领域,薛定谔的因果推断指的是 —— 研究者在论文和分析中,表面上避免明确声明自己是在做因果推断,甚至有时还否认自己要推断因果效应;但实际上,他们的研究内容、推理过程、结论、甚至行动建议,却都隐含或直接基于因果推断的思路和假设。特殊含义在于:

  • “亦因果,亦非因果”,这些研究既不明确说我们在做因果推断,又不完全回避因果推断的逻辑,处于一种半明半暗的状态 —— 正如薛定谔的猫既死又活;

  • 学术上的模糊性,这种做法可能是为了回避同行评议时对因果推断严格假设的质疑,或者是因为数据和方法本身支撑不了严格的因果推断,但研究者又希望给出有用的政策或实践建议;

  • 潜在风险,如果没有清楚地阐明自己是在做因果推断,相关的结论和建议可能会被误解,从而导致错误的政策或实践决策。

薛定谔的因果推断是一种学术上的暧昧状态:研究者既想借助因果推断的力量,又不敢完全承担因果推断的责任。这一说法提醒我们,科学研究尤其是因果推断,需要直面并明确假设和目标,否则容易误导读者和决策者。

因果推断的必要性

因果推断对于做出明智决策至关重要,因为它揭示了超越预测模型中仅有的关联关系的真实数据生成过程。因果推断使我们能够估计干预措施的效果和反事实结果,即使在缺乏真实干预数据的情况下也可以实现。超越基于相关性的分析对于推广见解和真正理解现实世界关系至关重要。例如,对于在医疗、教育和治理等社会关键领域主动进行干预的计算系统来说,准确预测和理解这些干预的因果效应十分重要。

以下是决策过程中常见的一些依赖因果推断的问题:

  • 它会有效吗?
    提议的系统变更能否改善人们的结果?

  • 为什么有效?
    是什么导致了系统结果的变化?

  • 我们该怎么做?
    对系统做出哪些变更可能会改善人们的结果?

  • 总体效应如何?
    系统如何与人类行为相互作用?

    系统推荐对人们活动有何影响?

描述、预测与解释

解决上述问题的一个很好的第一步是认识到:关于描述、预测和解释的问题本质上是不同的。与学术界相比,数据科学并没有那么多薛定谔的因果推断的困扰,但随意推断在很多其他场景下也会发生。例如,当利益相关者询问某个事件的驱动因素时,他们到底在问什么?是想要一个可以预测事件的模型?还是更深入地理解导致事件发生的原因?这是一个模糊的请求,但对我们来说,明显带有因果兴趣;然而,很多数据科学家会倾向于用预测模型来回答这个问题。当我们明确自己的目标时,三种方法都可以更有效地使用(正如我们将看到的,即使目标是做因果推断,描述性分析和预测模型同样有用)。此外,这三种方法都是有用的决策工具。

描述 Description

描述性分析旨在描述变量的分布,通常会按照关键变量进行分层。一个密切相关的概念是探索性数据分析( Exploratory Data Analysis,EDA),但描述性研究往往有比 EDA 更明确的目标。描述性分析通常基于统计摘要,如集中趋势(均值、中位数)和离散程度(最小值、最大值、四分位数)等指标,但有时也会用到回归建模等技术。在描述性分析中应用回归等高级技术,其目的与预测或因果研究不同。对描述性分析来说,调整某个变量意味着我们在剔除它的关联效应(从而改变了我们的研究问题),而不是控制混杂因素。

在流行病学中,描述性分析的一个有价值的概念是人、地、时 —— 谁患了什么病,在哪里,什么时候。这一概念同样可作为其他领域描述性分析的良好模板。通常,我们需要明确我们想要描述的是哪个人群,因此需要尽可能具体。以健康研究为例,描述参与者、地点和时间段都很关键。换句话说,要专注于理解数据的基本原则,并据此描述你的数据。

示例

对事物进行计数是我们用数据能做的最有价值的事情之一。EDA 不仅有利于预测和因果分析,描述性分析本身也很有价值。问问那些本以为自己要开发复杂机器学习模型、结果却发现大部分时间都在做数据仪表盘的研究者就知道了。了解数据的分布,尤其是与关键分析目标相关的数据分布(比如业界的 KPI 或流行病学中的疾病发病率),对于各种决策都至关重要。近期一个很好的描述性分析例子出现在新冠疫情期间。2020年,尤其是疫情早期,描述性分析对于理解风险和分配资源至关重要。由于新冠病毒与其他呼吸道疾病类似,我们拥有许多公共卫生工具来降低风险(如保持距离,后来还有佩戴口罩)。按地区统计病例的描述性数据对于制定本地政策及其力度非常重要。

疫情期间更复杂的一项描述性分析例子,是英国《金融时报》持续发布的各国和地区预期死亡人数与实际死亡人数的对比。虽然预期死亡人数的计算比一般描述性统计更复杂一些,但它为了解当下死亡状况提供了大量信息,而无需理清死亡的因果关系,比如是直接死于新冠?还是因无法就医?还是新冠后的心血管事件?如下图所示,可以看到疫情早期的巨大影响。

图 2 2020 年各地超额死亡人数与历史预期死亡人数

以下还有其他一些优秀的描述性分析案例:

  • 全球森林砍伐,Our World in Data 是一家数据新闻机构,通常会就各种话题制作有深度、偏重描述性的数据报告。在这份报告中,他们用数据可视化展现了森林覆盖变化的绝对量(森林转变)和相对量(森林砍伐或再造林),结合基础统计和林业理论,展现了森林状况的变化信息。
  • 沙眼衣原体和淋病感染的流行率,衡量疾病流行率(即目前患病人数,通常按每多少人一个比率表示)对于公共卫生(资源、预防、教育)和科学理解都很有帮助。在这项研究中,作者进行了一个复杂的、代表全美高中生(目标人群)的调查,使用加权处理了各种相关因素,然后计算了流行率比等统计量。如我们将在后文看到的,加权在因果推断中同样有用,因为它可以针对特定人群。当然,并不是所有加权技术都是因果性的,这项研究就不是。
  • 按种族和族裔估算子宫切除手术不平等,描述性技术也有助于我们理解经济学、流行病学等领域的差异。在这项研究中,作者问:不同种族或族裔的子宫切除风险是否不同?尽管分析按关键变量分层,本质上仍是描述性的。值得一提的是,作者为确保研究回答了关于正确目标人群的问题,结合了多个数据来源,以更好地估计真实的人群流行率(而不是医院内的流行率)。他们还对子宫切除的流行率进行了调整,例如只在尚未进行过手术的人群中计算新发病例率。

有效性

描述性分析中有两个关键的有效性问题:测量误差和抽样误差。

  • 测量误差 是指对一个或多个变量的测量出现了偏差;对于描述性分析来说,测量错误意味着我们可能无法得到正确答案;当然,这种影响的程度取决于误差的严重性和具体问题。

  • 抽样误差 在描述性分析中是一个更微妙的问题;它涉及我们分析的人群(分析结果应描述哪些人)以及不确定性(我们有多确定样本数据能代表我们要描述的人群)。

为了让我们的描述有效,数据来源人群和我们要描述的人群必须一致。假如我们用一项网络调查生成数据,答题者是谁?他们与我们想描述的人群是什么关系?实际上,很多情况下,愿意回答调查的人和我们希望描述的人群并不一样,例如填写问卷的人与不填写的人变量分布可能不同。此类数据的结果在技术上并不算有偏差,因为除了样本量相关的不确定性和测量误差外,对这批人群的描述是准确的——只是对象不是我们想要的那组人!换句话说,我们得到了错误问题的答案。

值得注意的是,有时我们的数据覆盖了整个目标人群(或几乎如此),此时抽样误差就无关紧要了。比如一家公司掌握了所有客户的完整数据,对这些客户进行分析,实际上就覆盖了整个现有客户人群。同样,在有全民健康登记的国家,特定实际目的的数据也足够接近“全体人群”,无需抽样(虽然有时为了计算方便还是会抽样)。在这些情况下,实际上就没有不确定性。只要测量没问题,我们得到的统计摘要就是无偏且精确的,因为覆盖了所有人。当然,现实中即使在最理想情况下,也会有测量误差、缺失数据等问题。

描述性分析的一个重要细节是:混杂偏倚 —— 本文章关注的核心问题之一 —— 在这里并不存在。因为混杂是因果性问题。描述性分析只是对现有关系做统计描述,而不是探究它们背后的机制,所以不存在混杂偏倚。

与因果推断的关系

人类非常善于发现模式。这是我们大脑的有用特性,但如果没有合适的数据或方法,这种模式识别也可能导致错误的推断。当你的目标是描述时,最需要警惕的,就是从描述跳到因果,无论是隐式还是显式

当然,描述性分析在估计因果效应时也很有用。它帮助我们了解所研究人群、结局变量、暴露变量(我们认为可能有因果作用的变量)和混杂因素(需要控制以获得无偏因果效应的变量)的分布,也有助于确保我们所用的数据结构与要回答的问题相匹配。

进行因果研究时,务必先做描述性分析。在某些情况下,我们可以用基础统计方法做因果推断。但即使用的是同样的计算方法(如均值差),描述性分析和因果分析并不等价。一个描述性分析是否与因果分析重叠,取决于数据和研究问题。

预测 Prediction

预测的目标是利用数据对变量进行准确预测,通常是对新数据进行预测。这具体意味着什么,取决于问题、领域等因素。预测模型被用于各种场景,从经过同行评审的临床模型到嵌入消费设备的定制机器学习模型。甚至像 deepseek 这样的大型语言模型,本质上也是预测模型:它们预测对某个提示的回应应是什么样子。

预测建模通常采用与因果建模不同的流程,由于预测的目标通常是对新数据进行预测,因此这类建模的流程侧重于最大化预测准确性,同时保持对新数据的泛化能力,这有时被称为偏差-方差权衡。在实践中,这通常意味着将数据分为训练集(用于建立模型的数据部分)和测试集(用于评估模型的数据部分,可以视为新数据的代理)。数据科学家通常会使用交叉验证或其他抽样技术,进一步减少模型对训练集过拟合的风险。

示例

预测是数据科学中最受欢迎的话题,很大程度上得益于业界对机器学习的广泛应用。当然,预测在统计学中有很长的历史,许多今天流行的模型几十年来一直被学术界和业界广泛使用。

让我们看一个关于新冠疫情的预测示例。2021年,研究人员发布了 ISARIC 4C 恶化模型,这是一种预测急性新冠患者严重不良结局的临床预后模型。作者还进行了描述性分析,以了解开发该模型所用人群,特别是结局和候选预测变量的分布。该模型的一个有用之处在于,它采用了新冠住院首日常规测量的项目。研究者用按英国各地区交叉验证的方法建立模型,然后用保留地区的数据进行测试。最终模型包含了 11 个项目,并对模型属性、与结局的关系等做了描述。值得注意的是,作者利用了临床领域知识筛选候选变量,但没有将模型系数解释为因果关系。毫无疑问,该模型的部分预测能力来自变量与结局之间的因果结构,但研究者开发该模型的目标完全不同,并始终坚持这一目标。

以下还有其他预测领域的优秀案例:

  • 在推荐系统中应用深度学习模型,即为用户推荐影视剧。作者详细介绍了他们对模型的实验、模型细节以及面临的诸多挑战,形成了一份关于如何使用这类模型的实用指南。
  • 2020 年初,擅长健康研究中预测和预后建模的研究者发表了一篇关于新冠诊断和预后模型的综述 10.1136/bmj.m1328。这篇综述不仅涵盖面广,而且发现大量模型质量低下:多数模型被评为高风险或不确定的偏倚风险,主要原因是对照患者选择不具代表性、排除在研究结束前未发生事件的患者、模型过拟合风险高以及报告不清晰。

有效性

预测建模的关键有效性指标是预测准确性,可通过多种方式衡量,例如均方根误差 RMSE、平均绝对误差 MAE、曲线下面积 AUC 等。预测建模有个便利之处在于我们往往可以判断自己是否答对了,而描述性统计只对已有数据有效、因果推断则通常无法直接验证真因果结构。虽然我们不总是能直接与真相比对,但在拟合初始预测模型时几乎总是需要这样做。

测量误差在预测建模中也是一个关注点,因为准确的预测通常需要准确的数据。有趣的是,在预测场景下,测量误差和缺失有时本身也能提供信息。而在因果场景下,这可能引入偏倚,但预测模型却可以直接利用这些信息。例如,在著名的 Netflix 大奖赛中,获奖模型就利用了用户是否曾评价过某部电影这一信息,改进了推荐系统。与描述性分析一样,预测建模中也不存在混杂偏倚。预测模型中的系数不会被混杂;我们只关心变量是否提供了预测信息,而不关心这种信息是因果关系还是其他原因造成的。

与因果推断的关系

预测中最大的风险是误以为模型中的某个系数具有因果解释;事实上,这种可能性很低一个模型可能预测效果很好,但从因果角度看其系数可能完全有偏。很多人错误地使用预测模型中用于特征(变量)选择的方法,来选择因果模型中的混杂变量。除了过拟合风险外,这些方法适用于预测,不适用于因果分析。预测指标无法确定你的问题的因果结构,能否预测结局也不意味着某变量就是混杂因子。通常,因果模型变量的选择应依赖背景知识(而不是预测或关联统计量)。

尽管如此,预测对因果推断依然至关重要。从哲学角度看,因果推断其实是在比较不同”如果”场景下的预测结果:如果一件事发生了,结果会怎样?如果另一件事发生了,结果又会怎样?从实践角度看,我们同样会用建模技术来回答因果问题,只是模型的建立和解释流程与预测/描述有很大不同。像倾向得分法和 G-computation 等技术,就是用模型预测来回答因果问题,但这些模型的构建与解释方式完全不同。

因果推断 Causal Inference

因果推断的目标是理解一个变量(有时称为”暴露”)对另一个变量(有时称为”结局”)的影响。本文将用暴露和结局这两个术语来描述我们关心的因果关系。重要的是,我们的目标是清晰而精确地回答这个问题。在实践中,这意味着要使用诸如研究设计(如随机对照试验)或统计方法(如倾向得分)等技术,来计算暴露对结局的无偏效应。

和预测及描述一样,最好从一个清晰、精确的问题出发,才能得到清晰、精确的答案。在统计学和数据科学中,尤其是在现代数据泛滥的环境下,我们常常会有了答案却没有问题,这种情况显然会让答案的解释变得困难。

因果推断与解释

有些研究者将”因果推断”和”解释”这两个词交替使用。因果推断总是与解释有关,但我们可以在不了解其发生机制的情况下,准确估计某事对另一事的影响。以被称为流行病学之父的 John Snow 为例,1854 年,Snow 调查了伦敦的一次霍乱暴发,并发现特定水源是疾病的原因。他的结论是对的:被污染的水是霍乱传播的机制。然而,他并不知道具体的机制 —— 导致霍乱的霍乱弧菌直到近三十年后才被发现。

示例

有很多因果推断的例子,下面继续以一个与新冠相关的例子说明。随着疫情持续以及疫苗和抗病毒治疗等工具的出现,像全民口罩令这样的政策也开始变化。2022 年 2 月,美国马萨诸塞州取消了公共学校的全民口罩政策。在大波士顿地区,一些学区继续执行口罩政策,而另一些则停止了,而且政策结束的时间也各不相同。这种政策上的差异为研究人员利用各学区间的差异,研究全民口罩令对新冠病例的影响提供了机会。研究者对学区进行了描述性分析,以了解与新冠相关的因素分布以及其他健康决定因素。为估计口罩政策对病例的影响,研究者采用了政策相关因果推断中常用的双重差分法(difference-in-differences)方法。结果显示,继续戴口罩的学区病例数大幅低于未戴口罩的学区;他们的分析得出,政策变化导致了近 1.2 万例新增病例,占研究期间(15周)这些学区病例总数的近 30% 。

以下是另外几个有趣的例子:

  • 塔斯基吉研究(Tuskegee Study)是近代史上最臭名昭著的医学伦理丑闻之一,它常被认为是美国黑人群体对医学界不信任的根源。健康经济学家利用双重差分法方法的变体,评估了塔斯基吉研究对不信任和年长黑人男性寿命的影响。结果发现,1972 年该研究被披露后,医疗不信任和死亡率上升,门诊和住院就诊次数下降。估算表明,受披露影响,黑人男性 45 岁时的预期寿命最多减少了 1.5 年,这一变化占 1980 年黑人和白人男性寿命差距的约35%,也占黑人男女差距的 25% 。

有效性

做出有效的因果推断需要满足若干假设,与预测不同,我们通常无法证实自己的因果模型是否正确。换句话说,很多必要的假设都是无法验证的。我们会在之后的文章中会反复探讨这个主题 —— 从这些假设的基本原理,到实际决策,再到如何检测模型问题

为什么正确的因果模型不等同于最佳预测模型?

此时,可能会疑惑:为什么正确的因果模型不就是最佳的预测模型呢? 这两者之间确实有关联:自然而然,能引起某些结果的事物也会成为预测因子。

因果关系层层递进,所以任何可用于预测的信息,某种程度上都和我们要预测事物的因果结构相关。那么,一个预测效果很好的模型不也应该是因果模型吗?确实,一些预测模型也可以是很好的因果模型,反之亦然。但遗憾的是,事实并非总是如此:因果效应不一定有很强的预测能力,而优秀的预测因子也未必是因果无偏的 Shmueli, 2010

我们先从因果视角来看,这是因为它相对简单。设想一个对某一暴露因素因果无偏的模型,该模型只包含与结局和暴露相关的变量。换句话说,这个模型能为我们提供关于特定暴露因素的正确答案,但并不包含其他结局的预测因子(在某些情况下,这反而是好事)。如果一个结局有很多原因,仅仅描述单一暴露与结局关系的模型,往往无法很好地预测结局。同样,如果该暴露对结局的真实因果效应很小,对预测的提升也很有限。换句话说,无论模型的预测能力高低,都无法帮助我们判断它是否给出了正确的因果答案。当然,较低的预测能力也可能表明该因果效应在实际应用中意义不大,尽管这还取决于多个统计因素。

预测模型不总是无偏因果模型,还有两个更复杂的原因。

  • 第一个原因,假设我们有一个从因果角度看准确的模型:它估计结局的效应,而且所有这些效应都是无偏的。即使在这种理想情况下,另一种模型可能能给出更好的预测。原因在于预测建模中的偏差-方差权衡。当效应较小、数据嘈杂、预测因子高度相关或数据量较小时,采用有偏模型(比如惩罚回归)可能是合理的。这类模型有意引入偏差来换取数据外预测的方差提升。由于预测和因果推断的目标不同(通常,预测强调准确性,尤其是对新数据,而因果推断强调无偏效应),所以最适合推断的模型未必是最佳预测模型。

  • 第二个原因是,从因果角度看有偏的变量,往往具有很强的预测能力。这里先看一个简单例子,著名的混杂关系案例之一就是夏天的冰淇淋销量和犯罪率。从描述性上来看,冰淇淋销量和犯罪率相关,但这种关系被天气(如气温)混杂了:天气更热时,冰淇淋销量和犯罪率都会上升。当然,这里的简化描述,天气本身未必导致犯罪,但它确实在因果路径上。

想象一个思想实验:在一个黑暗的房间,目标是预测犯罪率,但你不知道天气或季节信息。不过你有冰淇淋销量的数据。一个用冰淇淋销量预测犯罪的模型,从因果角度看是有偏的 —— 冰淇淋销量并不会导致犯罪,尽管模型可能显示出某种效应 —— 但它确实能提升犯罪预测的准确性。原因正是,天气和冰淇淋销量相关,天气和犯罪率也相关。冰淇淋销量可以作为天气的一个不完美代理变量,从而部分提升犯罪的预测能力。这也导致了冰淇淋销量对犯罪的因果效应估计有偏,但预测效果部分有效。其他变量也是如此,无论它们本身是否有偏,还是会为因果效应估计引入偏差,往往都能带来不错的预测表现因此,预测准确性并不是因果性的良好衡量标准

描述性、预测性和因果性分析总会在一定程度上互相交叉。预测模型的一部分预测能力来源于结局的因果结构,而因果模型也有一定的预测能力,因为它包含关于结局的信息。然而,在相同的数据下,针对不同目标,选用同一个模型,其有效性会因目标而异。

绘制因果关系图

每项分析任务,无论是描述性的、预测性的还是推断性的,都应当从一个清晰、精确的问题开始。我们可以通过画图来更好地理解因果问题的结构。

图 3 吸烟导致肺癌

  • Title: 从偶然到因果
  • Author: Xing Abao
  • Created at : 2025-04-26 08:15:00
  • Updated at : 2025-04-29 00:39:43
  • Link: https://bioinformatics.vip/2025/04/26/Introduction/从偶然到因果/
  • License: This work is licensed under CC BY-NC-SA 4.0.
Comments