2 min read

评分卡:概念回归——理论溯源与风控建模应用

核心定义

概念回归(Concept Regression)是零样本概念瓶颈模型框架中的核心模块,指基于检索得到的可解释概念集合,通过带L1正则的线性回归学习概念权重,以概念加权和完成最终标签预测的方法。

其核心预测公式为:

$$\hat{y} = \sum_{c \in C_x} w_c \cdot \phi(c)$$

其中:

  • $C_x$ 为检索得到的与输入相关的概念集合
  • $w_c$ 为对应概念的学习权重
  • $\phi(c)$ 为概念的特征表示

简单说:先检索出"这个样本和哪些概念相关",再用线性回归算出"每个概念有多重要",最后加权求和得到预测结果。


理论溯源与发展脉络

概念瓶颈模型(Concept Bottleneck Models, CBMs)- 2020

概念回归的思想起点,来自 Koh 等人提出的概念瓶颈模型。该模型将预测流程拆分为两个阶段:

  1. 输入到可解释概念的映射
  2. 概念到最终标签的线性映射

CBMs 的第二阶段(线性层)提供了概念回归的基础框架——用线性关系建模概念与预测结果之间的关系,而不是用复杂黑箱网络。

概念激活向量(Concept Activation Vectors, CAVs)- 2018

Kim 等人提出 CAVs,通过岭回归学习概念在模型隐层空间中的方向向量。这一研究奠定了用线性回归方法建模"概念-预测结果"关系的技术基础,也为概念回归的稀疏化筛选提供了方法论的支撑。

零样本概念瓶颈模型- 2025

Shinozaki 等人正式提出零样本概念瓶颈模型,首次将"概念回归"这一术语作为完整方法纳入框架内。该模型用概念检索 + 线性回归的组合,实现了零样本场景下的可解释建模。


核心方法逻辑

概念回归的执行流程分为两个核心环节:

第一环节:概念检索

从预定义的通用概念库中,筛选出与当前输入相关的可解释概念集合。例如:

  • 输入:用户的交易行为特征
  • 检索:从概念库中返回"大额转账"、“频繁夜间交易”、“新设备"等概念

概念库本身是预定义的通用概念,不需要针对特定场景重新训练。

第二环节:线性回归建模

基于筛选后的概念集合,通过带L1正则的线性回归学习各概念的权重。

L1正则的关键作用是实现稀疏化筛选——自动保留对预测结果高贡献的概念,剔除噪声因子。其优化目标为:

$$\min_{w} \frac{1}{n} \sum_{i=1}^n (y_i - \sum_{c \in C_{x_i}} w_c \cdot \phi(c))^2 + \lambda \sum_{c} |w_c|$$

其中 $\lambda$ 控制正则化强度,$w_c$ 被压缩为 0 表示该概念被筛除。

最终预测结果是筛选后概念的线性加权和。


对风控建模的应用价值

1. 可解释性适配监管要求

概念回归的预测结果是"可解释概念的线性加权”,决策逻辑可直接转化为标准化规则——例如:

$$\hat{y} = 0.35 \times \text{“大额转账”} + 0.28 \times \text{“夜间活跃”} - 0.02 \times \text{“新设备”} + 0.01 \times \text{“小额频繁”}$$

这种表达方式在信贷、反欺诈等强监管场景下,可以直接通过审计。模型不再是黑箱,而是"为什么是这个分数"的显式表达。

2. 稀疏化筛选核心风险因子

L1正则的稀疏性特征,帮助模型自动保留高贡献概念、剔除噪声因子。这不仅降低了模型复杂度,也为业务提供了"哪些概念真正有用"的决策依据——对应传统风控中的"特征重要性"分析,但无需额外计算。

3. 与业务语言体系对齐

概念回归的决策单元是"概念",而概念本身就是业务可理解的术语——“大额转账”、“频繁夜间交易”、“设备异常"等。这种对齐减少了技术与业务环节的沟通成本,缩短策略迭代周期。

4. 适配新场景的冷启动需求

依托概念检索的通用概念库,概念回归可以在无标注数据或标注数据极少的场景下完成模型搭建。新客群、新产品线、新地区——只要有概念库覆盖,即可完成零样本或小样本建模。


与传统风控评分体系的对应

概念回归与传统评分卡的结构高度一致,但用"学习"替代"人工”:

概念回归 传统评分卡
单个概念 子评分或子维度分
概念检索 + L1回归筛选 人工定义维度 + 专家判断
概念权重(自动学习) 维度权重(人工设定)
线性加权预测 多维度子分加权融合

本质上,概念回归实现了"评分卡:的自动化构建"——模型自动学习概念与标签的关系,自动筛选关键概念,同时保留了评分卡的可解释性与稳定性。

这与之前写的《评分卡:Partial Gini/局部AUC衡量尾部风险》可以形成"方法论 + 评估指标"的组合:概念回归是"如何构建评分卡",Partial Gini 是"如何评估评分卡在关键区间的性能"。


抗概念漂移的机制说明

概念回归对概念漂移有更强的抵御能力,核心原因是它基于"稳定概念"建模,而非"隐层特征"。

稳定概念:对应现实世界固定的业务逻辑,语义与业务含义长期稳定。例如:

  • “大额转账” = 欺诈行为常见模式,这个语义不会随数据分布变化
  • “夜间活跃” = 高风险行为特征,语义独立于具体模型与数据

隐层特征:模型自动学习的黑箱向量,语义不固定。数据分布变化后,原本表示"欺诈"的特征可能偏移到新含义,导致决策逻辑失效。

概念回归通过锚定在稳定概念上,减少了模型对隐层特征分布的依赖,从而在数据分布变化时保持决策逻辑的稳定性。


参考文献

Shinozaki, Y., Matsui, Y., & Kataoka, H. (2025). Zero-shot concept bottleneck models. arXiv preprint arXiv:2502.09018.

Koh, P. W., Nguyen, T., Tang, Y. S., Mussmann, S., Pierson, E., Kim, B., & Liang, P. (2020). Concept bottleneck models. Proceedings of the 37th International Conference on Machine Learning, 5338-5348.

Kim, B., Wattenberg, M., Gilmer, J., Cai, C., Wexler, J., Viegas, F., & Sayres, R. (2018). Interpretability beyond feature attribution: Quantitative testing with concept activation vectors. Proceedings of the 35th International Conference on Machine Learning, 2668-2677.