当前位置:首页 > 杏彩体育官网

因果推断入门:为什么需要因果推断?(1)

发布时间:2024-06-25 来源:杏彩体育官网

产品介绍

  首先,考虑一个与现实情况很相关的例子:针对某种新冠病毒 COVID-27,假设有两种疗法:方案 A 和方案 B,B 比 A 更稀缺(耗费的医疗资源更多),因此目前接受方案 A 的患者与接受方案 B 的患者比例约为:73%/27%。想象一下你是一名专家,要选择其中一种疗法,而这一个国家只能选择这一种疗法,那么问题来了,如何明智的选择才能尽量少的减少死亡?

  假设你有关于死于 COVID-27 的人的百分比数据(表1)。他们所接受的治疗是与病情的严重程度相关的,mild 表示轻症,severe 表示重症。在表 1 中,能够正常的看到接受方案的人中总共有 16% 的人死亡,而接受 B 的死亡率是 19%,我们可能会想更贵的治疗方案 B 比便宜的治疗方案 A 的死亡率要更高,这不是离谱吗。然而,当我们按照轻症、重症分别来看(Mild 列和 Severe 列),情况确是相反的。在这两种情况下,接受 B 的死亡率比 A 都要低。

  此时神奇的悖论就出现了。如果从全局视角来看,我们更倾向于选择 A 方案,因为 16%19%。但是,从 mild 和 severe 视角来看,我们都更倾向于方案 B,因为 10%15%,20%30%。此时你作为专家给出了一下结论:“如果能判断患者是轻症或者重症,就用方案 B,如果判断不了就用方案 A”,此时估计你已经被人民群众骂成砖家了。

  导致出现辛普森悖论的重要的条件是各个类别的非均匀性。接受 A 治疗的 1500 人中有 1400 人病情轻微,而接受 B 治疗的 550 人中有 500 人病情严重。因为病情轻的人死亡的可能性较小,这在某种程度上预示着接受治疗 A 的人的总死亡率低于如果病情轻和病情重的人各一半的情况。治疗 B 的情况则相反,这就导致了 Total 一列 16%19%。

  其实,方案 A 或方案 B 都可能是正确答案,这取决于数据的因果结构。换句话说,因果关系是解决辛普森悖论的关键。在下文,我们会首先从直觉上给出何时应该偏向于方案 A,什么时候应偏向于方案 B。更理论的解释会放到后面再讲。

  如图 1.1 所示,C(condition)是 T(treatment)和 Y(outcome)的共同原因。这里 C 代表病情轻重,T 代表治疗方案,Y 代表是否死亡。这个 Graph 的意思是说病情轻重会影响医生给你用哪种方案,而且病情轻重本身也会导致是否死亡。治疗 B 在降低死亡率方面更有效。

  在这种情况下,医生决定给大多数病情轻微的人提供 A 方案,而把更昂贵、更有限的 B 治疗方法留给病情严重的人。因为病情严重的人更有可能死亡(图 1.1 中的 C→Y ),并导致一个人更有可能接受 B 治疗(图 1.1 中的 C→T)。因此,总体 B 的死亡率更高的原因仅仅是选择方案 B 中的人大多数(500/550)是重症,而重症即使用了更贵的方案 B,死亡率 100/500=20% 也比轻症用方案 B 的死亡率 5/50=10% 要高,最终混合的结果会更偏向于重症的结果。

  在这里,病情 C 混淆了治疗 T 对死亡率 O 的影响。为了纠正这种混杂因素,我们一定要研究相同条件的病人的 T 和 Y 的关系。这在某种程度上预示着,最好的治疗方法是在每个子群体(表1.1 中的“mild”和“severe”列)中选择低死亡率的治疗方法:即方案 B。

  如图 1.2,T(治疗方案)是 C(病情轻重)的原因,C 又是 Y(死亡与否)的原因。这种情况的实际场景是:方案 B 非常稀缺,以至于患者在选择接受治疗后需要等待很久才能实际接受专业的治疗,而选择 A 的患者很快就会得到治疗。在这种情况下,治疗方案是与病情无关的,而情境一,病情会决定方案。

  由于 COVID-27 患者的病情会跟着时间的推移而恶化,方案 B 实际上会导致病情较轻的患者发展为重症,因此导致更高的死亡率。因此,即使 B 一旦用****就比 A 更有效(图1.2 中的正面作用 T→Y),由于方案 B 的长时间等待会导致病情恶化(图1.2 中的负面作用 T→ C →Y)550 个选择 B 的人里面有 500 人因为等的时间长变重症了,而只有 50 人是轻症,因此 total 的结果 19% 会更偏向于 B 的重症死亡率 20%。同理,Total A 的死亡率 16% 会更偏向于 A 的轻症死亡率 15%。

  此时,最优的选择是方案 A,因为 total 的死亡率更低。而实际表格的结果也符合,因为 B 治疗更贵,所以以 0.27 的概率选择方案 B,而以 0.73 的概率选择 A。

  总之,更有效的治疗完全取决于问题的因果结构。在情景 1 中(图1.1), B 更有效。在情景 2 中(图1.2)的一个原因, A 更有效。没有因果关系,辛普森悖论就没有办法解决。有了因果关系,这就不是悖论了。

  因果推断对科学来说是至关重要的,因为我们大家常常想提出因果要求,而不仅仅是关联性要求。例如,如果我们要在一种疾病的治疗方法中做出合理的选择,我们大家都希望选择能使大多数人得到治愈的治疗方法,同时又不会造成太多的不良副作用。如果我们想让一个强化学习算法获得最大的回报,我们大家都希望它采取的行动能使它获得最大的回报。如果我们研究社会化媒体对心理健康的影响,我们就会试图了解造成某一心理健康结果的根本原因是什么,并按照可归因于每个原因的结果的百分比排列这些原因。

  因果推断对于严格的决策至关重要。例如,假设我们正在考虑实施几种不同的政策来减少温室气体排放,但由于预算限制,我们一定要只选择一种。如果我们想最大限度地发挥作用,我们该进行因果分析,以确定哪种政策将导致最大的减排。再举一个例子,假设我们正在考虑采取几项干预措施来减少全球贫困。我们想知道哪些政策将最大限度地减少贫困。

  既然我们已了解了辛普森悖论的一般例子以及科学和决策中的一些具体例子,我们将转向因果段与预测的不同之处。

  许多人都会听过“相关并不代表因果(correlation does not imply causation)”的口头禅。首先通过一个例子解释为何会这样。

  如图 1.3,每年因落入游泳池而溺水的人数与 Nicolas Cage 每年出演的电影数量具有高度相关性。如果只看这张图能够获得以下几种解释:(1)Nicolas Cage 在他的电影中鼓励糟糕的游泳者跳进游泳池。(2)当 Nicolas Cage 看到那一年发生了多少溺水事件时,他是更有动力去出演更多的电影。(3)也许尼古拉斯凯奇有兴趣增加他在因果推理从业者中的知名度,所以他回到过去说服他过去的自己做正确数量的电影让我们正真看到这种相关性,但又不完全匹配,因为这会引起怀疑,从而阻止他以这种方式操纵与数据的相关性。

  但是,只要是个有常识的人都知道上述解释都是不对的,两者没有因果关系,因此是一种虚假的相关性。从这个简单的例子我们大家可以直观的理解“相关性并不等于因果关系”。

  对于任何给定数量的关联,并不是“所有的关联都是因果关系”或“没有一点关联是因果关系”。有可能存在大量的关联,而其中只有一部分是因果关系。”关联不等于因果“只是意味着关联的数量和因果的数量可以是不同的。

  再考虑一个例子,假设我们有穿鞋睡觉和醒来后头痛的数据。结果发现,在大多数情况下,如果有人穿鞋睡觉,醒来后会头痛。而在大多数情况下,如果不穿鞋睡觉,醒来后不头痛。如果不考虑因果,人们把这样有关联的数据解释为“穿鞋睡觉会导致人们醒来头痛”,尤其是当他们在寻找一个理由来证明不穿鞋睡觉是合理的。

  事实上,它们都是由一个共同的原因引发的:前一天晚上喝酒(喝醉了大概率才会穿鞋睡觉)。如图 1.4 所示,这种变量被称为“混杂因子(confounder)”或“潜伏变量(lurking variable)”。我们将由 confounder 引起的关联称为 confounding association,其实是一个虚假的关联。

  观察到的 total association 可以由混杂关联 confounding association(图中红色箭头)和因果关联 causal association(图中蓝色箭头)组成。可能的情况是,穿鞋睡觉确实对醒来后的头痛有一丢丢的因果关系。那么,总的关联将不只是混杂关联,也不只是因果关联,它将是两者的混合。例如,在图 1.4 中,因果关系沿着从穿鞋睡觉到头痛醒来的蓝色箭头流动。而混杂关联则沿着从穿鞋睡觉到喝酒再到头痛的红色路径流动。我们将在第三章中对这些不一样的种类的关联做出明确的解释。

  Statistical vs. Causal即使有无限量的数据,我们有时也无法计算一些因果量。相比之下,许多统计数据都是关于解决有限样本中的不确定性。当给定无限数据时,没有不确定性。然而,关联是一个统计概念,并不是因果关系。即使拥有无限数据,在因果推断方面还有更多工作要做。

  Identification(识别)vs. Estimation(估计)识别因果关系是因果推理的特有内容。即使我们有无限的数据,这也是一个有待解决的问题。然而,因果推理也与传统的统计学和机器学习有着共同的估计。我们将主要从因果关系的识别开始(第2、4 和 6 章),然后转向因果关系的估计(第 7 章)。

  Interventional(干预)vs. Observational(观察)如果我们也可以进行干预/实验,因果关系的识别就相对容易。这是因我们可以实际采取我们想测量因果关系的行动,并简单地测量我们采取该行动后的因果关系。然而,如果只有观察性数据,识别因果关系很难,因为会有前面提到的 confounder 的存在。

  Scenario 1:假设你现在很不开心。而你正在考虑是不是要养一只狗来变得开心些。如果你在养狗后变得开心,这是否意味着是狗狗使你变得快乐?而如果你没有养狗,你同样也变得开心了呢?在这样的一种情况下,狗并不是使你开心的必要条件,所以狗对你开心与否有因果效应的这个说法是不太对的。

  Scenario 2:另一种情况是,如果你在养狗后变得开心。但是如果你没有正真获得一只狗,你依然会不开心。在这种情况下,狗狗对与你的开心就有很强的因果效应。

  用 Y 表示结果——happiness,表示 happy,表示 unhappy;用 T 表示 Treatment——是否有狗,表示有狗,表示没狗。表示如果你有狗,那么会观察到的你养狗后是幸福指数。表示如果你没狗,那么会观察到的没狗后的幸福指数。而在 Scenario 1 中,;在 Scenario 2 中,。这里的就是所说的 Potential Outcome。

  只要人口中有一个以上的个体,就是一个随机变量,因为不同的个体会有不同的 potential outcome。相比之下,通常被视为非随机变量,因为下标说明我们将注意力限制在单个个体(在特定背景下),其 potential outcome 是确定性的。

  ITE 是我们在因果推断中关心的一个主要指标。例如,在上面的情景 2 中,你会选择养狗,因为养狗对你的幸福感的因果效应是正的:。相反,在情景 1 中,你可能会选择不养狗,因为养狗对你的幸福没有因果效应:。

  因果推断中的基本问题是,如果通过缺失数据来得到因果效应。即咱们不可以同时观察到和,那么我们就不能得到,就判断不了因果效应。这样的一个问题是因果推断所特有的,因为在因果推断中,我们关心的是如何提出因果 claim,而这些 claim 是以 potential outcome 来界定的。

  既然没办法得到独立因果效应,那么能否得到平均因果效应(Average Treatment Effects,ATE)呢?理论上能够最终靠求期望来得到:

  但我们实际上如何计算 ATE 呢?让我们看一下表 2.1 中的一些捏造的数据。我们把这个表作为整个 population of interest。由于因果推断的基本问题,导致有些缺失数据。表中所有的?都表示我们没观察到这个结果。

  但其实这是错误的做法。如果这个公示成立,则意味着“因果就是关联”,这个观点我们在第一章已经反驳过了。

  那么 comparable 的两个 group 长什么样呢?就如下图所示,这时候两个式子之间就可以划等号了。

  *博客内容为网友个人发布,仅代表博主个人自己的观点,如有侵权请联系工作人员删除。