校准：Log 零值变换争议：计数数据与计量方法选择

系列内容围绕计数数据零值处理的log(y+c)变换，讨论了该方法的核心局限与学界争议。本文作为该主题的跟进内容，基于 Cohn 等人2022年关于计数结果变量计量方法的研究，系统梳理不同处理方法的偏差来源、适用场景与实践规范，同时结合顶刊研究的复现案例，明确实证研究中方法选择的核心原则。

log(1+Y)回归的系统性偏差

计数数据通常呈现高度右偏分布，且存在大量零值，学界将零值占比极高的分布特征称为mass。早期实证研究中，log(1+Y)变换是处理此类数据的常用方式，核心目的是规避log(0)无数学定义的问题，同时保留对数模型的解释框架。Cohn等人2022年的研究证明，log(1+Y)回归在实践中会生成无自然解释的估计量，甚至可能出现估计系数符号与真实效应相反的情况。

该方法的估计偏差主要来自两个核心渠道。第一是模型误差的异方差性。log(1+Y)回归隐含同方差常数弹性的误差假设，但该类模型的误差通常呈现与自变量相关的特殊异方差性。当误差项的异方差性与自变量存在相关性时，回归的误差项会引入与自变量相关的额外成分，导致系数估计出现偏差，这种偏差足以改变系数的符号方向。第二是变量间的非线性关系。核心解释变量与控制变量之间的非线性关系，会影响平均效应的估计。该问题并非log(1+Y)回归独有，但在实际经济模型的变量设定中，该问题在log(1+Y)回归框架下的出现频率更高，进一步放大了估计偏差。

泊松回归的核心优势与适配性

泊松回归是针对计数数据的广义线性模型，其核心假设是因变量服从泊松分布，该分布的均值与方差相等，天然适配计数数据的分布特征，也自然满足条件均值-方差相等约束（conditional mean-variance equality restriction）。Cohn等人2022年的研究显示，固定效应泊松回归可以生成一致且具备合理有效性的估计值，是处理计数结果变量的更适配方法。

泊松回归的基础设定为：

Y_i ∣ X_i = x_i～Poisson(λ_i)

其中，i表示第i个观测值， X_i 表示自变量， Y_i 表示计数型因变量， λ_i 表示因变量的条件均值。

对应的对数线性形式为：

Ln(λ_i) = β₀ + β₁X_i1 + β₂X_i2 + ... + β_kX_ik + u_i

其中， β₁, β₂, ..., β_k 为待估计系数， u_i 为误差项。

该方法的核心优势集中在三个层面。

第一，估计量具备清晰的经济解释。泊松回归的系数可直接解释为半弹性，对应自变量变动带来的因变量期望的百分比变化，与对数线性模型的解释逻辑一致，且无需对零值进行人为变换，保留了零值观测的真实经济含义。

第二，适配乘性固定效应。泊松回归中的固定效应为乘性形式，而非加性形式，乘性固定效应可同时作用于因变量的均值与标准差，符合计数数据的波动特征——均值更高的观测，通常对应更高的波动水平。以公司年度专利数量预测为例，年度平均专利数量为10的公司，其专利数量的年度波动幅度，显著高于年度平均专利数量为1的公司，这种特征仅能通过乘性固定效应捕捉，无法通过加性固定效应实现。同时，泊松回归可轻松容纳可分离的分组固定效应，适配公司金融等高频使用固定效应的研究场景。

第三，对不同数据特征的兼容性较强。当数据存在过度离散现象，即条件方差显著大于条件均值时，可通过泊松回归搭配稳健标准误处理，也可选择负二项式回归作为替代。但负二项式回归、零膨胀模型、Tobit Type I模型，虽在特定条件下可生成更有效的估计结果，却无法支持可分离的固定效应，在需要控制个体、时间、组别固定效应的研究场景中存在明显局限。

替代方法的适用边界

逆双曲正弦（IHS）变换

该变换可在零值处有定义，无人为设定常数，可保留零值观测，是log(y+c)变换的常见替代方案。但现有研究尚未对该变换所得估计量的经济解释与计量特性形成统一共识，其估计结果也无法映射到自然的经济模型中，实证应用中需谨慎使用。

普通最小二乘法（OLS）

OLS框架对高度右偏的因变量数据拟合能力有限，即使假设误差项呈现偏斜分布，也无法解决因变量偏斜带来的系数估计偏差。偏斜分布的因变量通常伴随大量离群值，OLS的最小二乘估计逻辑会放大离群值的影响，导致估计结果偏离真实效应。针对偏斜分布的因变量，需选择适配其分布特征的广义线性模型，而非单纯调整OLS的误差假设。

参考文献

Cohn, J. B., Liu, Y., & Wardlaw, M. I. (2022). Count on it: Regression models for count-based outcome variables in corporate finance. Journal of Financial Economics, 146(2), 580-601. https://doi.org/10.1016/j.jfineco.2022.05.006

校准：Log 零值变换争议：计数数据与计量方法选择

校准系列导航

log(1+Y)回归的系统性偏差

泊松回归的核心优势与适配性

替代方法的适用边界

逆双曲正弦（IHS）变换

普通最小二乘法（OLS）

参考文献

校准系列导航

校准：Log 零值变换争议：计数数据与计量方法选择

校准 系列导航

log(1+Y)回归的系统性偏差

泊松回归的核心优势与适配性

替代方法的适用边界

逆双曲正弦（IHS）变换

普通最小二乘法（OLS）

参考文献

校准 系列导航

校准系列导航

校准系列导航