我们就以 “分析某辅导班是否真的提分” 为例,一步步拆解潜在结果框架,同时用因果推断的逻辑来说明 p 值的意义:
1. 先明确 “潜在结果”:每个人都有两种 “可能的成绩”
假设班里有 n = 100 个学生,对于任意一个学生 A 来说,存在两个 “潜在成绩”:
事实结果 (Y1):如果 A 报了辅导班,最终考的分数(比如 85 分,这是可观测值);
反事实结果 (Y0):如果 A 没报辅导班,本该考的分数(比如 78 分,这是反事实值,需通过建模估计)。
我们真正关注的 “辅导班效果” 是个体处理效应 τA = Y1 − Y0(例如 85 − 78 = 7 分)。但现实中每个学生只能处于一种状态(报班或不报班),因此需要通过 “可比性” 构建反事实。
2. 解决 “可比性”:排除 “非处理因素导致的差异”
简单对比报班组平均成绩 Ȳ1 = 82 分和没报班组平均成绩 Ȳ0 = 70 分,得出 “提分 12 分” 的结论存在内生性问题。内生性源于混杂变量 X(如学习态度、基础水平等),导致:
E[Y1−Y0|X] ≠ E[Y1|X,T=1] − E[Y0|X,T=0]
其中 T 为处理变量(T = 1 表示报班,T = 0 表示未报班)。
为解决该问题,需基于倾向得分匹配(PSM)实现 “条件独立性假设”:
(Y1,Y0) ⊥ T|X
具体操作是从 “没报班组” 中找到与 “报班组学生” 协变量 X(如性别、基础分、学习时长)完全匹配的个体。例如,若报班学生 A 的特征向量 XA = (70 分基础,3 小时/天),则寻找满足 XA′ = XA 的未报班学生 A′,用 A′ 的成绩作为 A 的反事实结果。
3. 用概率论验证:差异是否 “偶然”
在因果推断中,通过 p 值检验零假设 H0 : E[Y1−Y0] = 0。假设匹配后得到两组各 m = 50 人的可比样本:
报班组平均成绩:Ȳ1 = 83 分;
匹配后未报班组平均成绩:Ȳ0 = 76 分;
组间平均处理效应:τ̂ = Ȳ1 − Ȳ0 = 7 分。
p 值定义为在零假设成立时,观测到 |Ȳ1 − Ȳ0| ≥ 7 的概率:
p = P(|Ȳ1−Ȳ0|≥7|H0)
若 p = 0.03 < 0.05,根据小概率原理拒绝零假设,认为 7 分的差异具有统计学显著性,支持辅导班存在真实提分效果。
整个分析过程通过 “条件独立下的反事实替代” 控制混杂因素,并借助 p 值完成因果效应的显著性检验。