1 min read

主题模型:Bartik 工具变量(2)

文本数据的因果识别始终面临测量模糊与内生性难题,潜在狄利克雷分配(LDA)主题模型的创新应用为解决该问题提供了新路径。埃利奥特·阿什(Elliott Ash)、马西莫·莫雷利(Massimo Morelli)与马蒂亚·万诺尼(Matia Vannoni)(2025)在《More Laws, More Growth? Evidence from US States》中,以立法文本为研究对象,将LDA与文本移位份额工具变量结合,有效识别了立法产出与经济增长的因果关系,凸显了LDA在文本因果分析中的核心价值。

研究基础:LDA驱动的因果识别命题

研究以1965-2012年美国50个州为实证场景,采用两年期(biennium)面板数据,核心命题聚焦于:借助LDA主题模型突破文本数据局限,实现立法产出与经济增长的因果识别。传统文本因果分析中,立法产出常以词数、页数等粗疏指标衡量,且难以规避“经济增长反向驱动立法”的内生性问题,而LDA的引入为指标优化与因果识别提供了双重支撑。

关键方法:文本分析与因果识别创新

1. LDA核心作用:构建因果识别的精准文本指标

LDA在因果识别中的首要价值的是解决立法产出测量难题——传统指标无法区分文本主题与法律约束力,导致因果分析的核心变量失真。研究采用LDA无监督主题模型对海量立法文本进行处理,通过主题连贯性得分与人工验证确定最优主题数量(核心模型18个、细分模型42个),实现立法文本的主题化分类。基于LDA的主题划分,研究进一步提取具有法律约束力的“立法条款”作为核心指标,有效排除非法律文本干扰,为后续因果识别提供了可靠的内生变量测量基础(Ash et al., 2025)。

2. LDA与工具变量协同:破解内生性的关键路径

文本因果识别的核心障碍是内生性,研究构建的文本移位份额工具变量,其本质是依托LDA的主题划分实现外生变异捕捉。该工具变量的构建以LDA输出的“法律主题”为分解维度,公式如下:

\(Z_{\mathrm{st}} = \sum_{k=1}^K \underbrace{\frac{W_{\mathrm{s0}}^k}{W_{\mathrm{s0}}}}_{\text{预处理主题份额}} \times \underbrace{\sum_{r≠\mathrm{s}} \frac{\Delta \log W_{\mathrm{rt}}^k}{49}}_{\text{留一法主题流量}}\)

该工具变量由两个核心组件构成:

  • 预处理主题份额( \(W_{\mathrm{s0}}^k / W_{\mathrm{s0}}\) ):反映州s在预处理期(1955-1964年)对主题k的立法重视程度占比。例如,加州(California)预处理期总立法条款数 \(W_{\mathrm{s0}}=1000\) 条,其中“经济监管”主题条款数 \(W_{\mathrm{s0}}^k=200\) 条,则该份额为0.2。这一数值为历史固定值,不受研究期经济增长影响,保证了外生性(Ash et al., 2025)。

  • 留一法主题流量( \(\sum_{r≠\mathrm{s}} \Delta \log W_{\mathrm{rt}}^k / 49\) ):计算除州s外,其他49个州在时期t对主题k的平均立法对数增长率。例如,德州(Texas)等49个州在1966-1968年“经济监管”主题立法增长率总和为4.75,平均值则为0.097。这一数值反映外部立法潮流,与州s自身经济情况无关,同样满足外生性要求(Ash et al., 2025)。

LDA的主题划分是工具变量生效的前提:若缺乏LDA对立法文本的主题解构,无法实现“分主题计算份额与流量”,工具变量将退化为整体立法的粗放测量,无法有效捕捉外生变异。正是LDA提供的主题维度,使“历史偏好×外部潮流”的逻辑成立,最终实现立法产出内生性的有效解决。

核心变量定义

  • \(Z_{\mathrm{st}}\) :州s在时期t的外生立法冲击(工具变量)

  • \(W_{\mathrm{st}}\) :州s在时期t的立法条款总数(内生变量)

  • \(Y_{\mathrm{st}}\) :州s在时期t的人均实际GSP(被解释变量,采用对数变化形式)

  • \(k\) :法律主题(如经济监管、财政政策、权变条款相关主题等)

  • \(W_{\mathrm{s0}}^k\) :州s在预处理期(1955-1964年)主题k的立法条款数

  • \(W_{\mathrm{s0}}\) :州s在预处理期所有主题的总立法条款数

  • \(\Delta \log W_{\mathrm{rt}}^k\) :州r在时期t主题k的立法对数增长率

  • \(r\) :除本州s外的其他49个州

实证结果:立法增长的经济效应与异质性

1. 主效应:立法增长显著促进经济增长

研究通过两阶段最小二乘法(2SLS)估计发现,10%的外生立法增长可使州人均GDP增速提升0.15 pp,而样本期内人均GDP增速均值为3.1%。这一效应规模与“0.1%净税收政府支出增加”的财政刺激效果相当,具有显著经济意义(Ash et al., 2025)。

2. 异质性:并非所有立法都能驱动增长

  • 条款类型:权变条款的增长效应最为突出,10%的权变条款增长可使人均GDP增速提升0.6 pp;非权变条款则呈现显著负向效应。权变条款通过“条件-结果”绑定(如“若企业违规则处以特定罚款”)降低法律执行不确定性,是其效应更强的核心原因(Ash et al., 2025)。

  • 政策类型:经济监管类(如产权、合同规则)与财政政策类(如定向税收优惠)立法的增长效应显著;社会监管类(如家庭法、刑事司法)与程序性立法则无显著经济影响(Ash et al., 2025)。

核心机制:从立法完善到增长的传导路径

研究验证的核心机制为:更完善的立法通过减少“事后套牢”问题,降低市场主体面临的法律不确定性,进而促进企业开展关系专用投资,最终推动经济增长。关系专用投资指企业为适配特定市场环境或合作伙伴而进行的定制化投入(如专用设备、定制化供应链),这类投资对法律确定性要求更高,而完善的立法恰好为其提供了制度保障(Ash et al., 2025)。

研究意义:LDA在文本因果识别中的范式价值

该研究的核心贡献在于确立了LDA在文本因果识别中的应用范式:一方面,LDA通过无监督主题划分,将无结构文本转化为可量化、有经济意义的分析维度,解决了传统文本指标“测量不准”的问题;另一方面,LDA提供的主题分解维度,为工具变量构建提供了外生变异的捕捉路径,破解了“反向因果”的内生性难题。这一范式不仅为立法与经济增长研究提供支撑,更为所有文本数据(如政策文件、企业年报)的因果分析提供了可复用的方法论参考。

参考文献

Ash, E., Morelli, M., & Vannoni, M. (2025). More laws, more growth? Evidence from US states. Journal of Political Economy, 133(7), 2139-2179. https://doi.org/10.1086/734874