风控建模：xRFM的分层视角

表格数据建模，经历了从单一模型覆盖全客群的同质化应用，到分层评估管理、定制模型适配异质数据的精准化实践，xRFM（Beaglehole, 2025）正是这一演进中的代表性工具——作为表格数据预测模型，它融合特征学习核机器与自适应二叉树结构，实现了高精度、可扩展性与原生可解释性的结合。

表格模型的演进背景

早期风控表格建模依赖线性回归、逻辑回归等简单模型，虽高效但无法捕捉非线性关系；核机器（如核岭回归）可拟合复杂关联，却因超二次复杂度难以处理大规模数据（如百万级用户授信记录）。此后，梯度提升决策树（GBDT）系列模型（如XGBoost）成为主流，通过多树集成提升精度，但全局规则适配所有数据的局限，使高/低风险客群的特征差异无法被充分捕捉，易导致预测偏差。xRFM的出现，正是针对这一痛点的分层适配方案。

xRFM的核心架构与技术特点

二叉树分裂
- 划分逻辑：按特征向量投影划分数据，公式为 \(\boldsymbol{x} \cdot \boldsymbol{v}_i \lessgtr c_i\) （ \(\boldsymbol{v}\) 为AGOP（平均梯度外积）的Top特征向量， \(c\) 为阈（yù）值）；
- 节点约束：叶子节点样本量 \(\mathrm{size} \leq C\) （默认 \(C=60000\) ），保证节点内数据同质性。
Leaf RFM核函数
- 采用广义核函数： \(K_{\mathrm{p,q}}(\boldsymbol{x},\boldsymbol{x}') = \exp\left(-\frac{\left|\boldsymbol{x}-\boldsymbol{x}'\right|_{\mathrm{q}}^{\mathrm{p}}}{L^{\mathrm{p}}}\right)\) （ \(0<\mathrm{p}\leq\mathrm{q}\leq2\) ），适配表格数据的非线性关系。
复杂度
- 训练复杂度： \(O(n \log n)\) ；推理复杂度： \(O(\log n)\) ，可支持500k级样本的风控数据处理。

可解释性与性能表现

可解释性：基于AGOP矩阵实现原生解析——矩阵对角线代表单特征重要性，Top特征向量代表特征联合作用，可直接明确风控场景中“哪些特征驱动用户违约”。
性能：在TALENT基准中，100个回归数据集指标最优，200个分类数据集竞争力强；在Meta-test大规模数据集上，性能优于GBDT系列模型。

风控场景的业务映射

xRFM的架构对应风控客群分层管理：二叉树分裂等价于客群划分（如按收入、征信记录拆分高/中/低风险客群），Leaf RFM等价于分层定制策略（如对高风险客群采用更严格的授信模型）。

引用

Beaglehole, D. M. (2025). xRFM: Scalable, Interpretable Tabular Prediction via Partitioned Feature Learning Kernel Machines. Advances in Neural Information Processing Systems. https://github.com/dmbeaglehole/xRFM

风控建模：xRFM的分层视角

风控建模系列导航

表格模型的演进背景

xRFM的核心架构与技术特点

可解释性与性能表现

风控场景的业务映射

引用

风控建模系列导航

风控建模：xRFM的分层视角

风控建模 系列导航

表格模型的演进背景

xRFM的核心架构与技术特点

可解释性与性能表现

风控场景的业务映射

引用

风控建模 系列导航

风控建模系列导航

风控建模系列导航