2 min read

学习计量经济学的核心笔记:基于 Wooldridge《Introductory Econometrics》

在研究生阶段学习计量经济学时,我系统学习了 Jeffrey M. Wooldridge 的《Introductory Econometrics: A Modern Approach》(第 5 版),收获颇丰。对于初入计量经济学领域的学习者,选择一本体系清晰、实用性强的教材至关重要。这本书以 “按需引入假设” 为原则,将计量理论与商科决策、政策评估等实际场景(Wooldridge, 2012)。以下是我基于这本书的核心内容,梳理的计量经济学基础框架与关键方法笔记,希望也能为大家的学习提供清晰路径。

一、计量经济学的基石:回归假设与简单线性回归(SLR)

任何计量分析的起点,都是对回归模型假设的理解。Wooldridge 在书中强调,多元线性回归(MLR)的核心假设直接决定估计结果的有效性,其中最关键的包括:

  • MLR.2(无自相关假设):误差项满足零自相关,即cov(ui,uj)=0ij),这意味着误差项之间无系统性关联,保证了观测的随机性(Wooldridge, 2012)。
  • MLR.5(同方差假设):若违背此假设(即出现异方差),误差项的条件方差会变为V(u|X)=σ2h(X)h(X)为自变量的函数),导致回归系数的标准误(se(β^j))偏误,此时需改用异方差稳健t统计量和F统计量修正(Wooldridge, 2012)。
  • MLR.6(正态性假设):作为 MLR.4(外生性)和 MLR.5 的子集,这一假设仅在小样本下需满足,大样本可通过中心极限定理放松,无需额外验证(Wooldridge, 2012)。

而简单线性回归(SLR)作为最基础的模型,其核心逻辑可通过三个关键公式体现:

  1. 模型形式y=β0+β1x+u,其中y为因变量,x为自变量,β0(截距)和β1(斜率)为待估系数,u为误差项;预测值公式为y^=β^0+β^1r^r^x的样本估计值)(Wooldridge, 2012)。
  2. 平方和分解SST=SSE+SSR,其中SST(总平方和)衡量y的总变异,SSE(解释平方和)衡量x能解释的变异,SSR(残差平方和)衡量未解释的变异,三者共同反映模型的解释力(Wooldridge, 2012)。
  3. 决定系数 R2=rxy2=ryy^2rxyxy的相关系数,ryy^y与预测值y^的相关系数),取值范围为[0,1],越接近 1 说明模型拟合度越高(Wooldridge, 2012)。

值得注意的是,SLR 和 MLR 的估计均基于普通最小二乘法(OLS),其核心目标是 “最小化残差平方和”(min[u^2]),这一方法能保证在满足基本假设时,估计系数具有无偏性和有效性(Wooldridge, 2012)。

二、从简单到复杂:多元线性回归(MLR)与虚拟变量

当研究场景涉及多个自变量时,MLR 成为核心工具。Wooldridge 在书中详细拆解了 MLR 的关键性质与应用技巧:

1. MLR 的核心性质与边际效应

  • 模型形式与矩条件:MLR 的一般形式为y=β0+Xβ+u,其中X为自变量矩阵,β为系数向量;其条件期望为E(y|X)=β0+Xβ,条件方差为V(y|X)=V(u|X),这意味着y的变异仅由误差项决定(Wooldridge, 2012)。
  • 无偏性与一致性:若满足 MLR.1-MLR.4,系数估计具有无偏性(E(β^j)=βj);大样本下,即使存在小样本偏误,估计仍具有一致性(plimβ^j=βj)(Wooldridge, 2012)。
  • 交互项的边际效应:当模型含交互项(如y=β0+β1x1+β2x2+β3x1x2)时,x1y的边际效应为y/x1=β1+β3x2,即边际效应依赖x2的取值,需结合具体场景解读(Wooldridge, 2012)。

2. 虚拟变量:处理分类变量的关键工具

在实证研究中,分类变量(如性别、政策实施与否)需通过 “虚拟变量” 转化为计量模型可处理的形式。Wooldridge 指出,虚拟变量的核心价值是 “衡量分类状态变化对因变量均值的影响”,具体包括:

  • 核心作用:当虚拟变量Δx=1(其他变量固定)时,其系数直接反映因变量均值的变化,即 “平均处理效应”(Wooldridge, 2012)。

  • SLR 中的虚拟变量系数:若Df为虚拟变量(如 “是否为女性”,1 = 是,0 = 否),W为因变量(如工资),则系数计算公式为:

    β^1=DfWD¯fnW¯Df2nD¯f2

    其中D¯fW¯分别为DfW的均值,n为样本量(Wooldridge, 2

  • 对数形式的解读:若因变量为对数形式(log(y)=β0+β1xx为虚拟变量),则β1的解释为,当x从 0 到 1 时,y的近似百分比变化为100×β^1,更精确的百分比变化为100×[exp(β^1)1],这是实证研究中解读分类变量影响的常用方法(Wooldridge, 2012)。

三、解决计量 “陷阱”:异方差、内生性与模型检验

在实证分析时,计量经济学模型的基本假设常难以满足。Wooldridge 教材构建了系统化的问题处理框架,针对异方差、内生性等关键问题,提供具体的诊断与解决方案,以确保模型估计的有效性与可靠性。

1. 异方差性:识别与修正

异方差(误差项方差随自变量变化)会导致标准误偏误,需通过以下步骤处理:

  • 检验方法

    • BP 检验(Breusch-Pagan Test):对残差平方u^2做回归(u^2=γ0+γ1x1++γqxq+v),用F统计量或χ2(q)分布的LM统计量检验(q为自变量个数),R 中可通过 bptest(fit)实现(Wooldridge, 2012)。
    • White 检验:在 BP 检验基础上加入自变量的平方项和交叉项(u^2=γ0+γ1x1++γmxixj+v),无需预设异方差形式,适用性更广,R 中可通过 white.test(fit)实现(Wooldridge, 2012)。
  • 解决方法

    • 短期方案:使用异方差稳健标准误(如 White 稳健标准误),无需改变估计方法,仅修正标准误(Wooldridge, 2012)。
    • 长期方案:加权最小二乘法(WLS),权重h需与误差项方差负相关,常用拟合值推导的h^i作为权重,虽有偏但具有一致性(Wooldridge, 2012)。

2. 内生性:工具变量(IV)的应用

内生性(自变量与误差项相关)是计量分析的 “顽疾”,其来源包括遗漏变量、联立因果、自变量测量误差。Wooldridge 指出,工具变量(IV) 是解决内生性的核心工具,其应用需满足两个关键假设:

  1. 相关性:工具变量z与内生自变量x强相关(cov(z,x)0);
  2. 外生性:工具变量z与误差项u不相关(cov(z,u)=0)(Wooldridge, 2012)。

IV 估计的一致性可通过公式验证:

plimβ^1,IV=β1+cov(z,u)cov(z,x)=β1

cov(z,u)=0,故 IV 估计能收敛到真实系数β1,具体估计公式为β^1,IV=cov(z,y)cov(z,x)(Wooldridge, 2012)。

书中以 “教育对工资的影响” 为例,提出 “兄弟姐妹数量(sibs)” 可作为教育(educ)的 IV—— 兄弟姐妹越多,教育年限通常越低(满足相关性),且兄弟姐妹数量与个人能力(遗漏变量)不相关(满足外生性)(Wooldridge, 2012)。

3. 回归有效性检验:测量误差与模型适配

  • 因变量测量误差(EDV):若真实因变量y=β0+β1x+u,观测值y=y+ee为测量误差),则模型变为y=β0+β1x+(u+e)。若cov(x,e)=0,仅会增大误差项方差,不影响估计的无偏性(Wooldridge, 2012)。

  • 自变量测量误差(EIV):若真实自变量x=β0+β1x+u,观测值x=xee为测量误差),则模型变为y=β0+β1x+(uβ1e)。此时 OLS 估计会出现 “衰减偏误”,概率极限为:

    plimβ^1=β1σx2σx2+σe2

    其中σx2x的方差,σe2e的方差,估计系数的绝对值会小于真实值(Wooldridge, 2012)。

四、拓展场景:二元选择模型与面板数据

除线性回归外,Wooldridge 还覆盖了两类重要的拓展模型 —— 二元选择模型(Logit/Probit)和面板数据模型,以应对更复杂的实证场景。

1. 二元选择模型:处理 “是 / 否” 型因变量

当因变量为二元分类(如 “是否就业”“是否违约”)时,线性回归不再适用,需使用 Logit 或 Probit 模型,其核心是 “条件概率的非线性拟合”:

  • 条件概率公式:两类模型的条件概率均为P(y=1|X)=G(β0+Xβ)G()为链接函数,取值(0,1)):

    • Logit 模型:G(z)=Λ(z)=ez1+ez,导数g(z)=ez(1+ez)2(Wooldridge, 2012);
    • Probit 模型:G(z)=Φ(z)=z12πev2/2dvΦ()为标准正态累积分布函数)(Wooldridge, 2012)。
  • 边际效应:自变量xjP(y=1|X)的边际效应为P(y=1|X)xj=g(β0+Xβ)βj,需通过链接函数的导数g()计算(Wooldridge, 2012)。

  • 估计与拟合度:模型通过极大似然估计(MLE)求解,似然函数为f(yi;β)=[G(Xiβ)]yi[1G(Xiβ)]1yi;拟合度用 “伪R2” 衡量,公式为1LurLoLur为模型对数似然值,Lo为仅含截距的对数似然值)(Wooldridge, 2012)。

2. 面板数据模型:控制个体异质性

面板数据(如 “多个个体的多年观测”)的核心优势是 “控制不随时间变化的个体异质性”(如个人能力、企业特质),Wooldridge 重点介绍了两类方法:

  • 一阶差分法:针对模型yit=β0+β1x1it+αi+uitαi为个体固定效应),对变量取差分(Δyit=yityi(t1)Δx1it=x1itx1i(t1)),可消去αi,得到Δyit=β1Δx1it+Δuit,此时 OLS 估计具有一致性(Wooldridge, 2012)。

  • 双重差分(DID)模型:适用于 “2 组 2 期” 的政策评估(如 “处理组 vs 控制组”“政策前 vs 政策后”),模型形式为:

    y=β0+β1post+β2treat+β3(post×treat)+u

    其中post为政策后虚拟变量(1 = 政策后),treat为处理组虚拟变量(1 = 处理组),交互项系数β3即为 “政策效应”,直接反映政策对处理组的净影响(Wooldridge, 2012)。

五、总结

Wooldridge 的《Introductory Econometrics》之所以成为经典,在于它跳出了 “纯理论推导” 的框架,以 “解决实际问题” 为导向 —— 从基础的 SLR/MLR,到异方差、内生性的修正,再到 Logit/Probit、面板数据的拓展,每一个知识点都配套实例和数据集,让你能快速将理论转化为实证能力(Wooldridge, 2012)。

参考文献

Wooldridge, J. M. (2012). Introductory econometrics: A modern approach (5th ed.). Cengage Learning. https://www.amazon.com/Introductory-Econometrics-Modern-Approach-Economics/dp/1111531048