校准：Log 零值变换争议：计数数据的处理与规范

计数数据为非负整数型数据，广泛出现在专利数量、交易频次、事件发生次数等实证研究场景中。此类数据普遍存在零值观测，早期实证研究中，log(y+c)变换是处理零值的常用方式，其中c为研究者设定的常数，核心目的是规避log(0)无数学定义的问题。该处理方式曾出现在多本顶级经济学期刊的研究中，包括《美国经济评论》（American Economic Review，AER）、《经济学季刊》（Quarterly Journal of Economics，QJE）等。

log(y+c)变换的核心局限

log(y+c)变换的核心局限集中在三个层面。

第一，常数c的选择无理论支撑，存在较强主观性。c的取值主要由研究者自行决定，现有理论体系未给出明确的取值标准。不同的c取值，会显著改变零值观测的变换后数值，对数运算对极小数值的高敏感性，会进一步放大这种差异。例如，当c取0.00001时，零值变换后结果约为-11.51；当c取0.1时，零值变换后结果约为-2.30，二者数值差异显著。

第二，变换过程扭曲零值观测的经济含义。计数数据中的零值，通常对应真实的经济行为，如未申请专利、未发生交易、未出现目标事件等，并非缺失值或测量误差。log(y+c)变换将零值强行转换为log(c)，等同于将未发生行为的观测，人为赋值为发生了极小规模的行为，改变了原始数据的行为内涵。

第三，估计结果的稳健性不足。c的取值变化，会直接影响回归模型的系数大小、标准误与统计显著性。在零值占比高、数据分布倾斜的样本中，c取值的变化，可能导致回归系数的符号发生改变，该情况仅出现在特定数据结构中，并非普遍现象，但足以说明变换结果的不稳定性。同时，log(y+c)变换后的回归系数，不再具备清晰的半弹性经济解释，破坏了原始对数模型的解释框架。

顶刊研究的复现案例

2021年发表于AER的研究《The Effect of High-Tech Clusters on the Productivity of Top Inventors》，作者为恩里科·莫雷蒂（Enrico Moretti），是该方法争议的典型案例（Moretti, 2021）。该研究以发明家的专利申请数量作为核心被解释变量，采用log(专利数+1)的方式处理零值观测。后续研究者迈克尔·维贝（Michael Wiebe）对该论文进行复现，发现原研究存在模型设定、工具变量构造的代码错误，同时指出log(y+1)变换带来的结果不稳健问题；修正相关问题后，原研究的核心结论不再成立。该复现研究形成的评论文章，已被AER正式接收（Wiebe, 2024）。

方法演进与替代方案

针对log(y+c)变换的局限，计量经济学领域已形成更成熟的处理方案。对于计数数据，适配其数据分布特征的泊松回归、负二项回归，是当前学界普遍推荐的基准方法，此类方法无需对零值进行额外变换，可直接适配非负整数型数据的分布特征。对于需要保留对数形式解释框架的研究，逆双曲正弦变换（Inverse Hyperbolic Sine, IHS）是替代方案之一，该变换可在零值处有定义，同时保留类似对数模型的解释性，且无需人为设定常数。

参考文献

Moretti, E. (2021). The effect of high-tech clusters on the productivity of top inventors. American Economic Review, 111(10), 3328-3375. https://doi.org/10.1257/aer.20190775

Wiebe, M. (2024). Comment on “The effect of high-tech clusters on the productivity of top inventors”. American Economic Review, Forthcoming.

校准：Log 零值变换争议：计数数据的处理与规范

校准系列导航

log(y+c)变换的核心局限

顶刊研究的复现案例

方法演进与替代方案

参考文献

校准系列导航

校准：Log 零值变换争议：计数数据的处理与规范

校准 系列导航

log(y+c)变换的核心局限

顶刊研究的复现案例

方法演进与替代方案

参考文献

校准 系列导航

校准系列导航

校准系列导航