在随机实验中,干预后测量的中间变量(X)引发的结构问题,是导致研究偏差的关键症结。实际研究中,不少研究者会陷入一个误区:为了 “更精准” 地分析干预对结果的直接影响,他们将这类变量当作统计控制变量纳入回归模型,或依据其取值筛选子样本(如仅分析 X 取值较低的子群体)。然而,这种操作恰恰忽视了核心矛盾 ——X 作为受干预 T 直接影响的变量,其取值变化会从根本上破坏随机分配构建的组间均衡结构(Montgomery et al., 2018)。
这一结构问题的根源在于干预效应的异质性。干预 T 对不同特征研究对象的影响存在差异,那些受未观测混淆变量 U(如自身基础条件、潜在倾向)作用,更易达成结果 Y 的对象,在接受干预后,往往会显著改变 X 的取值。而处理组中 X 取值无变化的个体,多是受 U 影响、达成 Y 概率更低的群体(Montgomery et al., 2018)。
一旦控制 X 或基于其筛选样本,实验的底层结构就会被扭曲。原本基于随机分组的组间比较,将异化为 “处理组中达成 Y 概率更低的群体” 与 “对照组中达成 Y 概率相对更高的群体” 的非对称对比。这种结构失衡会导致干预效应估计出现系统性偏差,极端情况下甚至会得出与真实因果关系相悖的结论(Montgomery et al., 2018)。
对于研究者而言,识别并规避这一结构问题至关重要。在随机对照实验设计中,必须严格区分后处理变量与预处理变量,避免因对后处理变量的不当操作,动摇实验设计的底层逻辑,使研究结论失去可靠性。
参考文献
Montgomery, J. M., Nyhan, B., & Torres, M. (2018). How conditioning on posttreatment variables can ruin your experiment and what to do about it. American Journal of Political Science, 62(3), 760–775.