计数数据为非负整数型数据,广泛出现在专利数量、交易频次、事件发生次数等实证研究场景中。此类数据普遍存在零值观测,早期实证研究中,log(y+c)变换是处理零值的常用方式,其中c为研究者设定的常数,核心目的是规避log(0)无数学定义的问题。该处理方式曾出现在多本顶级经济学期刊的研究中,包括《美国经济评论》(American Economic Review,AER)、《经济学季刊》(Quarterly Journal of Economics,QJE)等。
log(y+c)变换的核心局限
log(y+c)变换的核心局限集中在三个层面。
第一,常数c的选择无理论支撑,存在较强主观性。c的取值主要由研究者自行决定,现有理论体系未给出明确的取值标准。不同的c取值,会显著改变零值观测的变换后数值,对数运算对极小数值的高敏感性,会进一步放大这种差异。例如,当c取0.00001时,零值变换后结果约为-11.51;当c取0.1时,零值变换后结果约为-2.30,二者数值差异显著。
第二,变换过程扭曲零值观测的经济含义。计数数据中的零值,通常对应真实的经济行为,如未申请专利、未发生交易、未出现目标事件等,并非缺失值或测量误差。log(y+c)变换将零值强行转换为log(c),等同于将未发生行为的观测,人为赋值为发生了极小规模的行为,改变了原始数据的行为内涵。
第三,估计结果的稳健性不足。c的取值变化,会直接影响回归模型的系数大小、标准误与统计显著性。在零值占比高、数据分布倾斜的样本中,c取值的变化,可能导致回归系数的符号发生改变,该情况仅出现在特定数据结构中,并非普遍现象,但足以说明变换结果的不稳定性。同时,log(y+c)变换后的回归系数,不再具备清晰的半弹性经济解释,破坏了原始对数模型的解释框架。
顶刊研究的复现案例
2021年发表于AER的研究《The Effect of High-Tech Clusters on the Productivity of Top Inventors》,作者为恩里科·莫雷蒂(Enrico Moretti),是该方法争议的典型案例(Moretti, 2021)。该研究以发明家的专利申请数量作为核心被解释变量,采用log(专利数+1)的方式处理零值观测。后续研究者迈克尔·维贝(Michael Wiebe)对该论文进行复现,发现原研究存在模型设定、工具变量构造的代码错误,同时指出log(y+1)变换带来的结果不稳健问题;修正相关问题后,原研究的核心结论不再成立。该复现研究形成的评论文章,已被AER正式接收(Wiebe, 2024)。
方法演进与替代方案
针对log(y+c)变换的局限,计量经济学领域已形成更成熟的处理方案。对于计数数据,适配其数据分布特征的泊松回归、负二项回归,是当前学界普遍推荐的基准方法,此类方法无需对零值进行额外变换,可直接适配非负整数型数据的分布特征。对于需要保留对数形式解释框架的研究,逆双曲正弦变换(Inverse Hyperbolic Sine, IHS)是替代方案之一,该变换可在零值处有定义,同时保留类似对数模型的解释性,且无需人为设定常数。
参考文献
Moretti, E. (2021). The effect of high-tech clusters on the productivity of top inventors. American Economic Review, 111(10), 3328-3375. https://doi.org/10.1257/aer.20190775
Wiebe, M. (2024). Comment on “The effect of high-tech clusters on the productivity of top inventors”. American Economic Review, Forthcoming.