评分卡：概念回归——理论溯源与风控建模应用

核心定义

概念回归（Concept Regression）是零样本概念瓶颈模型框架中的核心模块，指基于检索得到的可解释概念集合，通过带L1正则的线性回归学习概念权重，以概念加权和完成最终标签预测的方法。

其核心预测公式为：

$$\hat{y} = \sum_{c \in C_x} w_c \cdot \phi(c)$$

其中：

$C_x$ 为检索得到的与输入相关的概念集合
$w_c$ 为对应概念的学习权重
$\phi(c)$ 为概念的特征表示

简单说：先检索出"这个样本和哪些概念相关"，再用线性回归算出"每个概念有多重要"，最后加权求和得到预测结果。

理论溯源与发展脉络

概念瓶颈模型（Concept Bottleneck Models, CBMs）- 2020

概念回归的思想起点，来自 Koh 等人提出的概念瓶颈模型。该模型将预测流程拆分为两个阶段：

输入到可解释概念的映射
概念到最终标签的线性映射

CBMs 的第二阶段（线性层）提供了概念回归的基础框架——用线性关系建模概念与预测结果之间的关系，而不是用复杂黑箱网络。

概念激活向量（Concept Activation Vectors, CAVs）- 2018

Kim 等人提出 CAVs，通过岭回归学习概念在模型隐层空间中的方向向量。这一研究奠定了用线性回归方法建模"概念-预测结果"关系的技术基础，也为概念回归的稀疏化筛选提供了方法论的支撑。

零样本概念瓶颈模型- 2025

Shinozaki 等人正式提出零样本概念瓶颈模型，首次将"概念回归"这一术语作为完整方法纳入框架内。该模型用概念检索 + 线性回归的组合，实现了零样本场景下的可解释建模。

核心方法逻辑

概念回归的执行流程分为两个核心环节：

第一环节：概念检索

从预定义的通用概念库中，筛选出与当前输入相关的可解释概念集合。例如：

输入：用户的交易行为特征
检索：从概念库中返回"大额转账"、“频繁夜间交易”、“新设备"等概念

概念库本身是预定义的通用概念，不需要针对特定场景重新训练。

第二环节：线性回归建模

基于筛选后的概念集合，通过带L1正则的线性回归学习各概念的权重。

L1正则的关键作用是实现稀疏化筛选——自动保留对预测结果高贡献的概念，剔除噪声因子。其优化目标为：

$$\min_{w} \frac{1}{n} \sum_{i=1}^n (y_i - \sum_{c \in C_{x_i}} w_c \cdot \phi(c))^2 + \lambda \sum_{c} |w_c|$$

其中 $\lambda$ 控制正则化强度，$w_c$ 被压缩为 0 表示该概念被筛除。

最终预测结果是筛选后概念的线性加权和。

对风控建模的应用价值

1. 可解释性适配监管要求

概念回归的预测结果是"可解释概念的线性加权”，决策逻辑可直接转化为标准化规则——例如：

$$\hat{y} = 0.35 \times \text{“大额转账”} + 0.28 \times \text{“夜间活跃”} - 0.02 \times \text{“新设备”} + 0.01 \times \text{“小额频繁”}$$

这种表达方式在信贷、反欺诈等强监管场景下，可以直接通过审计。模型不再是黑箱，而是"为什么是这个分数"的显式表达。

2. 稀疏化筛选核心风险因子

L1正则的稀疏性特征，帮助模型自动保留高贡献概念、剔除噪声因子。这不仅降低了模型复杂度，也为业务提供了"哪些概念真正有用"的决策依据——对应传统风控中的"特征重要性"分析，但无需额外计算。

3. 与业务语言体系对齐

概念回归的决策单元是"概念"，而概念本身就是业务可理解的术语——“大额转账”、“频繁夜间交易”、“设备异常"等。这种对齐减少了技术与业务环节的沟通成本，缩短策略迭代周期。

4. 适配新场景的冷启动需求

依托概念检索的通用概念库，概念回归可以在无标注数据或标注数据极少的场景下完成模型搭建。新客群、新产品线、新地区——只要有概念库覆盖，即可完成零样本或小样本建模。

与传统风控评分体系的对应

概念回归与传统评分卡的结构高度一致，但用"学习"替代"人工”:

概念回归	传统评分卡
单个概念	子评分或子维度分
概念检索 + L1回归筛选	人工定义维度 + 专家判断
概念权重（自动学习）	维度权重（人工设定）
线性加权预测	多维度子分加权融合

本质上，概念回归实现了"评分卡：的自动化构建"——模型自动学习概念与标签的关系，自动筛选关键概念，同时保留了评分卡的可解释性与稳定性。

这与之前写的《评分卡：Partial Gini/局部AUC衡量尾部风险》可以形成"方法论 + 评估指标"的组合：概念回归是"如何构建评分卡"，Partial Gini 是"如何评估评分卡在关键区间的性能"。

抗概念漂移的机制说明

概念回归对概念漂移有更强的抵御能力，核心原因是它基于"稳定概念"建模，而非"隐层特征"。

稳定概念：对应现实世界固定的业务逻辑，语义与业务含义长期稳定。例如：

“大额转账” = 欺诈行为常见模式，这个语义不会随数据分布变化
“夜间活跃” = 高风险行为特征，语义独立于具体模型与数据

隐层特征：模型自动学习的黑箱向量，语义不固定。数据分布变化后，原本表示"欺诈"的特征可能偏移到新含义，导致决策逻辑失效。

概念回归通过锚定在稳定概念上，减少了模型对隐层特征分布的依赖，从而在数据分布变化时保持决策逻辑的稳定性。

参考文献

Shinozaki, Y., Matsui, Y., & Kataoka, H. (2025). Zero-shot concept bottleneck models. arXiv preprint arXiv:2502.09018.

Koh, P. W., Nguyen, T., Tang, Y. S., Mussmann, S., Pierson, E., Kim, B., & Liang, P. (2020). Concept bottleneck models. Proceedings of the 37th International Conference on Machine Learning, 5338-5348.

Kim, B., Wattenberg, M., Gilmer, J., Cai, C., Wexler, J., Viegas, F., & Sayres, R. (2018). Interpretability beyond feature attribution: Quantitative testing with concept activation vectors. Proceedings of the 35th International Conference on Machine Learning, 2668-2677.

评分卡：概念回归——理论溯源与风控建模应用

评分卡系列导航

核心定义

理论溯源与发展脉络

概念瓶颈模型（Concept Bottleneck Models, CBMs）- 2020

概念激活向量（Concept Activation Vectors, CAVs）- 2018

零样本概念瓶颈模型- 2025

核心方法逻辑

第一环节：概念检索

第二环节：线性回归建模

对风控建模的应用价值

1. 可解释性适配监管要求

2. 稀疏化筛选核心风险因子

3. 与业务语言体系对齐

4. 适配新场景的冷启动需求

与传统风控评分体系的对应

抗概念漂移的机制说明

参考文献

评分卡系列导航

评分卡：概念回归——理论溯源与风控建模应用

评分卡 系列导航

核心定义

理论溯源与发展脉络

概念瓶颈模型（Concept Bottleneck Models, CBMs）- 2020

概念激活向量（Concept Activation Vectors, CAVs）- 2018

零样本概念瓶颈模型- 2025

核心方法逻辑

第一环节：概念检索

第二环节：线性回归建模

对风控建模的应用价值

1. 可解释性适配监管要求

2. 稀疏化筛选核心风险因子

3. 与业务语言体系对齐

4. 适配新场景的冷启动需求

与传统风控评分体系的对应

抗概念漂移的机制说明

参考文献

评分卡 系列导航

评分卡系列导航

评分卡系列导航