1 min read

风控建模:从传统判断到算法规则挖掘

信用风险评估从传统人工判断到算法可解释,始终是金融领域的核心议题。神经网络凭借拟合能力在该领域崭露头角,但黑箱特性既难以满足解释性要求,也无法为信贷决策提供容易理解的可追溯的依据。Baesens等人(2003)在《Using Neural Network Rule Extraction and Decision Tables for Credit-Risk Evaluation》一文中,通过三种规则提取算法与决策表可视化的结合,成功解决了这一难题,实现了准确性与可解释性的统一。

数据预处理:为算法提供高质量输入

算法的有效性离不开规范的预处理,论文针对不同类型变量设计了针对性方案:

  • 连续变量采用χ²分箱算法离散化,例如将收入划分为≤1000欧元、1000<收入≤2000欧元等区间,既保留关键信息又简化计算;

  • 有序变量使用温度计编码:该编码方式起源于神经网络发展初期,核心是解决“有序信息丢失”问题。早期信用评估中,有序变量(如收入等级、信用年限)常被直接当作连续值输入,易忽略层级差异;而独热编码则会割裂变量的顺序关联。温度计编码通过“类别越靠后,激活的二进制位越多”的设计(如收入等级1对应[1,0,0],等级2对应[1,1,0]),既适配神经网络的二进制输入需求,又完整保留顺序特征,在2000年后的信贷建模中逐渐成为有序变量处理的主流方案之一,将离散化后的收入值转化为I₁、I₂、I₃等二进制输入,兼顾顺序特征与算法适配性;

  • 名义变量采用哑变量编码,如贷款用途等无顺序属性被转化为二进制输入,避免人为赋予不合理顺序权重。

核心模型:多层感知器的数学基础

论文的基础模型为多层感知器(MLP),结构由输入层、隐藏层、输出层构成,核心公式如下:

  • 隐藏层激活值:hᵢ = f⁽¹⁾(bᵢ⁽¹⁾ + ∑ⱼ=¹ⁿ W(i,j)xⱼ),其中W为输入到隐藏层的权重矩阵,bᵢ⁽¹⁾为隐藏层神经元偏置,f⁽¹⁾为双曲正切激活函数(数学表达式为tanh(x) = (eˣ - e⁻ˣ)/(eˣ + e⁻ˣ))。该函数取值范围为[-1,1],相比早期常用的Sigmoid函数,能有效缓解梯度消失问题,且输出均值接近0,使隐藏层特征分布更稳定,适合信贷数据中多变量复杂关联的学习;

  • 输出层输出值:zᵢ = f⁽²⁾(bᵢ⁽²⁾ + ∑ⱼ=¹ⁿʰ V(i,j)hⱼ),其中V为隐藏层到输出层的权重矩阵,nₕ为隐藏层神经元数量,f⁽²⁾为线性激活函数。

通过BFGS算法训练后,模型能高效区分好、坏付款人,但内部权重与激活值的复杂性构成了黑箱。

规则提取算法:打开“黑箱”的三种路径

论文评估了三种核心规则提取算法,各有侧重与表现差异:

  • Neurorule(分解式算法):流程为训练MLP→剪枝冗余连接→χ²离散化隐藏层激活值→提取隐藏层到输出层、输入层到隐藏层规则→合并为IF-THEN规则,在真实数据集上表现最优;

  • Trepan(教学式算法):将训练好的MLP视为黑箱,通过生成人工数据补充训练集,构建含M-of-N分裂的决策树规则,准确率尚可但可读性较弱;

  • Nefclass(神经模糊算法):融合神经网络与模糊逻辑,生成模糊规则,但在德国信贷、Bene 1、Bene 2等真实数据集上表现较差,实用性有限。

评估体系:三维度衡量算法性能

论文从三个核心维度评估算法效果,确保结果全面可靠:

  • 分类准确率(PCC):以正确分类样本占比为指标,Neurorule表现优于逻辑回归、C4.5等传统方法;

  • 保真度(Fid):规则与原神经网络决策的一致性百分比,公式为Fid = 一致分类样本数/总样本数 × 100%,Neurorule保真度达98.80%-100%,远超Trepan;

  • 复杂度:通过规则数(适用于Neurorule、C4.5rules)或节点数(适用于Trepan、C4.5)衡量,Neurorule提取的规则仅4-7条,远少于C4.5rules的17-27条。

实践关键:规则生成的核心逻辑

论文明确了规则生成的核心逻辑,实际操作可以以看头部流量选哑变量来实现:

  • 卡方分箱后的变量处理后形成的离散约束是规则的基础,例如收入≤1000欧元、Checking account≠4等,构成规则条件的输入(1);
规则约束条件示例

Figure 1: 规则约束条件示例

  • 最终IF-THEN规则本质是多个离散约束通过AND连接,例如条件A AND 条件B → 结果(2);
规则组合逻辑

Figure 2: 规则组合逻辑

  • 约束组合并非人工筛选或流量统计所得,而是算法从MLP权重中自动推导的有效组合,完全无需人工干预,确保规则的客观性与有效性。

引用格式

Baesens, B., Setiono, R., Mues, C., & Vanthienen, J. (2003). Using neural network rule extraction and decision tables for credit-risk evaluation. Management Science, 49(3), 312–329. https://doi.org/10.1287/mnsc.49.3.312.12739