研究综述：因果推断

因果推断研究综述

因果推断是统计学、经济学、社会学等多个学科领域的重要研究方法，旨在揭示变量之间的因果关系，而非仅仅停留在相关关系层面。本综述整理了因果推断领域的关键概念、方法和最新研究进展，包括控制变量选择、中介与调节效应、工具变量、因果发现等重要主题，为相关研究提供理论参考和方法指导。

控制变量选择

Wright (2021)

报告有无控制变量的结果、并且要作为传导机制而非视为对观测结果的外部影响。
Bernerth and Aguinis (2015)

根据特定的理论框架、研究领域和实证研究的适当性来决定是否包括特定的控制变量。
Becker et al. (2016)

在可能的情况下，将控制变量包括在假设和模型中，运行包括和不包括控制变量的结果。
Montgomery, Nyhan, and Torres (2018)

研究者可能无意中通过控制那些可能受到实验操作影响的变量（后处理变量posttreatment variables），从而扭曲了对干预效果的估计。这些常见问题包括在统计模型中控制后处理变量、基于后处理标准排除观察结果或基于后处理变量对数据进行子集划分，导致实验组群体被干预效果筛选过。

中介效应和调节效应

Baron and Kenny (1986)

Baron和Kenny提出了检验中介效应的步骤，这些步骤包括：

首先，回归分析自变量对中介变量的影响（Path a）。
其次，回归分析自变量对因变量的影响（Path c）。
最后，同时回归分析中介变量和自变量对因变量的影响（包括Path b和Path c）。

Baron和Kenny的工作区分中介变量和调节变量的区别：

调节变量模型（Moderator model）

中介变量模型（Mediator model）

调节变量指的是自变量影响因变量效果最大的条件或范围。因此，调节变量将主要自变量划分成不同的子组，以确定在哪些特定条件下自变量对因变量的影响达到最大。这有助于我们理解在不同情境或不同水平的调节变量下，自变量的作用可能会有所不同。

Stuart et al. (2021)

间接效应的定义（即曝露对结果的影响通过中介变量）。Baron and Kenny的四步法主要用于研究中介变量对自变量和因变量之间关系的影响。时间顺序实际上是曝露首先，然后是中介变量，最后是结果，而不是其他顺序。

对于中介分析，混淆是一个更复杂的问题，因为有3种关系（曝光-结果、曝光-中介变量和中介变量-结果）可能会受到混淆。对曝光进行随机分配（例如在临床试验中）可以解决前两种混淆，但不能解决第三种混淆。

分析方法存在的问题：

时间顺序问题：大多数研究没有完全遵循时间顺序的要求，即曝露、中介变量和结果的顺序（顺序性，Celli 2022）。
混杂因素未控制：研究中控制混淆因素影响的文献比例不到一半，这意味着在曝露-中介变量和/或中介变量-结果的关系中可能存在未控制的混淆（可忽略性，Celli 2022）。
模型依赖性：Baron and Kenny的方法定义的效应是基于特定模型的，这意味着如果你改变模型，结果可能会完全不同。
缺乏交互作用的考虑：Baron and Kenny的方法通常假设原因和中介变量对结果的影响是独立的，但现实中它们可能会相互影响。

Causal mediation methods 和 mediation analysis 的区别在于是否考虑了Potential Outcomes Model（Rubin的工作）。

温忠麟 and 叶宝娟 (2014)

中介效应和调节效应在统计含义上的区别在于分析方法和结果解释。中介效应通过路径分析来验证中介变量的作用机制，而调节效应通过交互项分析来验证调节变量对变量关系的影响。在结果解释上，中介效应解释因果关系的机制，而调节效应解释变量关系的条件依赖性。

工具变量(IV)

工具变量基础

Schur and Peters (2024) 指出，Wright (1928)和Reiersøl (1945)的早期工作为工具变量回归提供了理论基础，这是一种处理未观察到的混杂因素的统计方法。

Split-sample IV strategy

Farber et al. (2021) 和 Inoue and Solon (2010) 提出了"Split-sample" IV策略，Huang et al. (2023) 发现这种方法可以降低度量误差。

Bartik工具变量

Bartik (1991) 提出的Bartik工具变量历史可以追溯到几十年前，最早是由Perloff (1957)在1957年提出的。他发现，一个地区的工业结构可以预测该地区的收入水平。后来，Freeman (1979)在1980年进一步发展了这个概念，他使用行业组成的变化作为一个工具来研究劳动力需求。

Bartik工具变量是由Tim Bartik在1991年提出的，并在Blanchard and Katz (1992)的研究中得到了推广。这种工具变量是通过将本地产业份额与国家产业增长率相交互来形成的。

Blanchard and Katz (1992)使用了Bartik (1991)的工具变量方法，允许他们区分劳动需求冲击和劳动供给冲击，从而更准确地理解区域经济调整机制。通过这种方法，作者发现劳动需求冲击主要通过劳动力的流动来调整，而不是通过工作创造或工作迁移。具体来说，他们构建了一个变量，称为"mix variable"，这个变量是基于每个州的二位数行业组成。因此引入Bartik，面板数据的维度和Bartik的维度不同。

Bartik工具变量的有效性取决于行业全国增长率与州劳动供给冲击不相关这一假设。如果一个行业在二位数SIC分类级别上不是集中在某个特定州，那么这个条件就满足了。通过使用这个工具变量，作者能够控制其他可能影响就业的因素，从而更准确地估计劳动需求冲击的影响。

Anderson-Rubin检验

Keane and Neal (2023) 介绍了Anderson-Rubin检验(Anderson and Rubin 1948)，这是一种用于工具变量(IV)模型中的统计检验方法，它用于检验在IV估计中某个特定参数是否为零。这种方法由Theodore W. Anderson和Henry Rubin在1949年提出，因此得名。

Anderson-Rubin检验要按照以下公式设计：

AR test statistic = (β̂_IV - β̂_OLS / SE(β̂_IV))²

因果发现

因果图结构

Fang (2023) 研究了因果图结构在实际场景中的应用。

有向无环图(DAG)等价类

Chickering (2002) 论文的核心贡献是证明了所谓的"Meek猜想"。这个猜想涉及到两个有向无环图（DAG）之间的关系。如果一个DAG H是另一个DAG G的独立性映射，那么存在一个有限的边添加和覆盖边反转序列，使得经过每一步修改后，H仍然是G的独立性映射，并且最终G将转换为H。

这一结果对于贝叶斯学习方法来说具有重大意义，因为它表明在大数据样本的极限情况下，存在一个两阶段的贪婪搜索算法，能够有效地识别出生成分布的完美映射，如果这个完美映射是一个DAG的话。

等价类定义：

如果DAG A和DAG B在所有可能的概率分布下都能表示出同样的独立性关系，即在任何情况下，Y的条件独立性与X相同（无论是直接还是间接），那么这两个DAG就属于同一个等价类。

其中包括等价类的示例，以及"覆盖边反转"的示例。

贪婪等价搜索(GES)

Nazaret and Blei (2023) 全面回顾了贪婪等价搜索（GES），并介绍了一种先进的算法——极端贪婪等价搜索（XGES），旨在提高从数据中进行因果发现的能力。XGES采用了一种新的启发式方法，优先考虑边的删除而不是插入，减少了陷入局部最优的风险。与GES相比，XGES在准确性和计算速度方面都表现出了更高的性能。贝叶斯信息准则（BIC）被用来进行衡量。

其他因果推断方法

一般因果推断方法

Chakrabortty, Dai, and Tchetgen Tchetgen (2022) 介绍了一般因果推断方法，适用于半监督和高维设置下的处理效应估计。

政策树(Policy Tree)

Sverdrup et al. (2023) 提出了政策树方法，通过基于双重稳健经验福利最大化的树结构来进行政策学习。

综合因果机器学习方法

Lechner and Mareckova (2024) 介绍了综合因果机器学习方法，并比较了三种方法：修改的因果森林（mcf），广义随机森林（grf）和双重机器学习（dml）。

研究发现，在人群层面和较少组群情况下，选择性观测的dml方法在平均处理效应上表现出色。然而，对于更细致的因果异质性，以结果为中心的森林方法更好。

dml通过一种巧妙的数学技巧（Neyman-正交性）来调整这种倾向性，Neyman-正交性条件如下：

E[ψ(X_i, W_i) | D_i = d] = 0 对于d = 0, 1

这个条件意味着得分函数在处理状态 D_i 下的期望值为零，这有助于减少估计中的偏差。在dml中，得分函数可以写作：

ψ_dml(X_i, Y_i, D_i, θ̂) =

Y_i - μ̂(X_i) - θ̂, 如果 D_i = 1

μ̂(X_i) - Y_i + θ̂, 如果 D_i = 0

其中，μ̂(X_i) 是给定协变量 X_i 下的结果变量 Y_i 的预测值，θ̂ 是ATE的估计值。Neyman-正交性确保了当 μ̂(X_i) 和 θ̂ 被一致地估计时，得分函数 ψ_dml 可以用来得到ATE的一致估计。

统计显著性与经济显著性

Mitton (2024) 指出，统计显著性确实是评估结果是否可能由偶然因素产生的一个关键指标。在假设检验中，p值是用来衡量统计显著性的一种方式。如果p值小于事先设定的显著性水平（通常是0.05或0.01），则结果被认为是统计显著的，意味着观察到的效果不太可能仅仅是由随机变化引起的。

然而，p值本身并不提供关于效应大小或实际重要性的信息，这就是为什么经济显著性也是一个重要的考量因素。经济显著性考虑的是效应大小对实际决策和经济活动的影响程度，而不仅仅是效应是否可能由偶然因素产生。

元学习算法(metalearner)

Künzel et al. (2019a) 提出了多种元学习算法：

S-learner：将处理指标作为特征之一，使用单一的回归模型来估计联合响应函数，然后通过改变处理指标来估计CATE。
T-learner：分别估计控制组和处理组的响应函数，然后取差值来估计CATE。
X-learner：首先估计响应函数，然后通过插补处理效应来估计CATE。是对T-Learner的改进。使用倾向得分 ê(X) 来估计，所以X-Learner是有纠偏机制的。
Y-learner：Künzel et al. (2018)提出，其核心思想是同时估计处理组和控制组的响应函数，并利用神经网络的联合训练能力来优化这两个函数，即Y-Learner可以共享特征层。

Künzel et al. (2019b) 指出，在T-learner中，处理变量的分裂总是发生在树的最顶部，即根节点。而在S-learner中，处理变量的分裂可以发生在树的任何位置，具体位置由平方误差损失函数决定。对于因果森林，处理变量的分裂总是发生在叶子节点之前的最后一个分裂点。

研究发现X-学习器表现更好（因为T-Learner是分开训练的）；在没有混杂因素的情况下，T-学习器在复杂处理效应情况下表现更好（X-Learner可以和confounder一起回归的处理）。

F-学习器（F-learner）是一种元学习器，它通过估计处理分配W的条件期望来估计处理效应。U-学习器（U-learner）是一种元学习器，使用机器学习模型 M_τ 来估计残差 R 在给定特征 X 下的条件期望，从而得到处理效应的估计 τ̂。

树和森林方法

Lin and Jeon (2006)、Wang et al. (2015)、Wager and Athey (2018) 指出，从高层次来看，树和森林可以被认为是具有自适应邻域度量的最近邻方法。决策树模型本身就在对相似的样本进行分组，因此可以直接计算uplift，并且每个节点内的uplift估计是无偏的。

因果方向与模型选择

Janzing et al. (2024) 探讨了逻辑回归（因果X→Y）与线性判别分析LDA（反因果Y→X）的本质差异。逻辑回归直接建模条件概率P(Y|X)，反映X作为因对Y的驱动（如收入X预测违约Y）；而LDA假设X|Y服从高斯分布，本质是Y作为因生成X（如疾病Y决定症状X的分布）。

研究强调因果方向假设对模型选择的关键性，需结合领域知识避免误用（如医学诊断中误将症状建模为因）。

参考文献

Anderson, T. W., and Herman Rubin. 1948. “Estimation of the Parameters of a Single Equation in a Complete System of Stochastic Equations.” The Annals of Mathematical Statistics 19 (1): 46–63.
Baron, Reuben M, and David A Kenny. 1986. “The Moderator–Mediator Variable Distinction in Social Psychological Research: Conceptual, Strategic, and Statistical Considerations.” Journal of Personality and Social Psychology 51 (6): 1173–82.
Bartik, Timothy J. 1991. Who Benefits from State and Local Economic Development Policies? Kalamazoo, MI: W.E. Upjohn Institute for Employment Research.
Becker, Thomas E, Guclu Atinc, James A Breaugh, Kevin D Carlson, Jeffrey R Edwards, and Paul E Spector. 2016. “Statistical Control in Correlational Studies: 10 Essential Recommendations for Organizational Researchers.” Journal of Organizational Behavior 37: 157–67. https://doi.org/10.1002/job.2053.
Bernerth, Jeremy B., and Herman Aguinis. 2015. “A Critical Review and Best-Practice Recommendations for Control Variable Usage.” Personnel Psychology 68: 229–32. https://doi.org/10.1111/peps.12103.
Blanchard, Olivier Jean, and Lawrence F Katz. 1992. “Regional Evolutions.” Brookings Papers on Economic Activity 1: 1992.
Celli, Viviana. 2022. “Causal Mediation Analysis in Economics: Objectives, Assumptions, Models.” Journal of Economic Surveys 36: 214–34. https://doi.org/10.1111/joes.12452.
Chakrabortty, Abhishek, Guorong Dai, and Eric Tchetgen Tchetgen. 2022. “A General Framework for Treatment Effect Estimation in Semi-Supervised and High Dimensional Settings.” arXiv Preprint arXiv:2201.00468.
Chickering, David Maxwell. 2002. “Optimal Structure Identification with Greedy Search.” Journal of Machine Learning Research 3 (Nov): 507–54.
Fang, Junpeng. 2023. “Causal Correction Methods in Ant Marketing Recommendation Scenarios.” DataFunSummit2023.
Farber, Henry S., Daniel Herbst, Ilyana Kuziemko, and Suresh Naidu. 2021. “Unions and Inequality over the Twentieth Century: New Evidence from Survey Data.” 24587. National Bureau of Economic Research. http://www.nber.org/papers/w24587.
Freeman, Richard B. 1979. “An Empirical Analysis of the Fixed Coefficient "Manpower Requirements" Model, 1960-1970.” Working Paper No. 315. Cambridge, MA: National Bureau of Economic Research.
Huang, Yi, Chen Lin, Sibo Liu, and Heiwai Tang. 2023. “Trade Networks and Firm Value: Evidence from the u.s.-China Trade War.” Journal of International Economics 145: 103811. https://doi.org/10.1016/j.jinteco.2023.103811.
Inoue, Atsushi, and Gary Solon. 2010. “Two-Sample Instrumental Variables Estimators.” The Review of Economics and Statistics 92 (3): 557–61.
Janzing, Dominik, Bernhard Schölkopf, Patrick Blöbaum, and Sergio Hernan Garrido Mejia. 2024. “Causal Vs. Anticausal Merging of Predictors.” In 38th Conference on Neural Information Processing Systems (NeurIPS 2024).
Keane, Michael, and Timothy Neal. 2023. “Instrument Strength in IV Estimation and Inference: A Guide to Theory and Practice.” Journal of Econometrics 235 (2): 1625–53.
Künzel, Sören R, Jasjeet S Sekhon, Peter J Bickel, and Bin Yu. 2019a. “Meta-Learners for Estimating Heterogeneous Treatment Effects Using Machine Learning.” Proceedings of the National Academy of Sciences 116 (10): 4156–65.
———. 2019b. “Supporting Information for Metalearners for Estimating Heterogeneous Treatment Effects Using Machine Learning.” Proceedings of the National Academy of Sciences 116 (10): 4156–65. https://doi.org/10.1073/pnas.1804597116.
Künzel, Sören R, Bradly C Stadie, Nikita Vemuri, Varsha Ramakrishnan, Jasjeet S Sekhon, and Pieter Abbeel. 2018. “Transfer Learning for Estimating Causal Effects Using Neural Networks.” arXiv Preprint arXiv:1808.07804.
Lechner, Michael, and Jana Mareckova. 2024. “Comprehensive Causal Machine Learning.” https://arxiv.org/abs/2405.10198.
Lin, Yi, and Yongho Jeon. 2006. “Random Forests and Adaptive Nearest Neighbors.” Journal of the American Statistical Association 101 (474): 578–90.
Mitton, Todd. 2024. “Economic Significance in Corporate Finance.” The Review of Corporate Finance Studies 13 (1): 38–79.
Montgomery, Jacob M., Brendan Nyhan, and Michelle Torres. 2018. “How Conditioning on Posttreatment Variables Can Ruin Your Experiment and What to Do about It.” American Journal of Political Science 62 (3): 760–75.
Nazaret, Achille, and David Blei. 2023. “Extremely Greedy Equivalence Search.” Department of Computer Science, Columbia University, New York, USA.
Perloff, Harvey S. 1957. “Interrelations of State Income and Industrial Structure.” The Review of Economics and Statistics 39 (2): 162–71. https://doi.org/10.2307/1928533.
Schur, Felix, and Jonas Peters. 2024. “DecoR: Deconfounding Time Series with Robust Regression.” arXiv Preprint arXiv:2406.07005.
Stuart, Elizabeth A, Ian Schmid, Trang Nguyen, Elizabeth Sarker, Adam Pittman, Kelly Benke, Kara Rudolph, Elena Badillo-Goicoechea, and Jeannie-Marie Leoutsakos. 2021. “Assumptions Not Often Assessed or Satisfied in Published Mediation Analyses in Psychology and Psychiatry.” Epidemiologic Reviews 43 (1): 48–52.
Sverdrup, Erik, Ayush Kanodia, Zhengyuan Zhou, Susan Athey, and Stefan Wager. 2023. “Policytree: Policy Learning via Doubly Robust Empirical Welfare Maximization over Trees.” The Journal of Open Source Software. https://doi.org/10.21105/joss.02232.
Wager, Stefan, and Susan Athey. 2018. “Estimation and Inference of Heterogeneous Treatment Effects Using Random Forests.” Journal of the American Statistical Association 113 (523): 1228–42.
Wang, Pengyuan, Wei Sun, Dawei Yin, Jian Yang, and Yi Chang. 2015. “Robust Tree-Based Causal Inference for Complex Ad Effectiveness Analysis.” In Proceedings of the Eighth ACM International Conference on Web Search and Data Mining, 67–76.
Wright, Paul J. 2021. “Overcontrol in Pornography Research: Let It Go, Let It Go...” Archives of Sexual Behavior 50 (2): 387–92. https://doi.org/10.1007/s10508-020-01902-9.
温忠麟, and 叶宝娟. 2014. “中介效应分析: 方法和模型发展.” 心理科学进展 22 (5): 731–45.

研究综述系列导航

因果推断研究综述

控制变量选择

中介效应和调节效应

Baron and Kenny (1986)

Stuart et al. (2021)

温忠麟 and 叶宝娟 (2014)

工具变量(IV)

工具变量基础

Split-sample IV strategy

Bartik工具变量

Anderson-Rubin检验

因果发现

因果图结构

有向无环图(DAG)等价类

贪婪等价搜索(GES)

其他因果推断方法

一般因果推断方法

政策树(Policy Tree)

综合因果机器学习方法

统计显著性与经济显著性

元学习算法(metalearner)

树和森林方法

因果方向与模型选择

参考文献

研究综述系列导航

研究综述：因果推断

研究综述 系列导航

因果推断研究综述

控制变量选择

中介效应和调节效应

Baron and Kenny (1986)

Stuart et al. (2021)

温忠麟 and 叶宝娟 (2014)

工具变量(IV)

工具变量基础

Split-sample IV strategy

Bartik工具变量

Anderson-Rubin检验

因果发现

因果图结构

有向无环图(DAG)等价类

贪婪等价搜索(GES)

其他因果推断方法

一般因果推断方法

政策树(Policy Tree)

综合因果机器学习方法

统计显著性与经济显著性

元学习算法(metalearner)

树和森林方法

因果方向与模型选择

参考文献

研究综述 系列导航

研究综述系列导航

研究综述系列导航