表格数据建模,经历了从单一模型覆盖全客群的同质化应用,到分层评估管理、定制模型适配异质数据的精准化实践,xRFM(Beaglehole, 2025)正是这一演进中的代表性工具——作为表格数据预测模型,它融合特征学习核机器与自适应二叉树结构,实现了高精度、可扩展性与原生可解释性的结合。
表格模型的演进背景
早期风控表格建模依赖线性回归、逻辑回归等简单模型,虽高效但无法捕捉非线性关系;核机器(如核岭回归)可拟合复杂关联,却因超二次复杂度难以处理大规模数据(如百万级用户授信记录)。此后,梯度提升决策树(GBDT)系列模型(如XGBoost)成为主流,通过多树集成提升精度,但全局规则适配所有数据的局限,使高/低风险客群的特征差异无法被充分捕捉,易导致预测偏差。xRFM的出现,正是针对这一痛点的分层适配方案。
xRFM的核心架构与技术特点
二叉树分裂
划分逻辑:按特征向量投影划分数据,公式为 \(\boldsymbol{x} \cdot \boldsymbol{v}_i \lessgtr c_i\) ( \(\boldsymbol{v}\) 为AGOP(平均梯度外积)的Top特征向量, \(c\) 为阈(yù)值);
节点约束:叶子节点样本量 \(\mathrm{size} \leq C\) (默认 \(C=60000\) ),保证节点内数据同质性。
Leaf RFM核函数
- 采用广义核函数: \(K_{\mathrm{p,q}}(\boldsymbol{x},\boldsymbol{x}') = \exp\left(-\frac{\left|\boldsymbol{x}-\boldsymbol{x}'\right|_{\mathrm{q}}^{\mathrm{p}}}{L^{\mathrm{p}}}\right)\) ( \(0<\mathrm{p}\leq\mathrm{q}\leq2\) ),适配表格数据的非线性关系。
复杂度
- 训练复杂度: \(O(n \log n)\) ;推理复杂度: \(O(\log n)\) ,可支持500k级样本的风控数据处理。
可解释性与性能表现
可解释性:基于AGOP矩阵实现原生解析——矩阵对角线代表单特征重要性,Top特征向量代表特征联合作用,可直接明确风控场景中“哪些特征驱动用户违约”。
性能:在TALENT基准中,100个回归数据集指标最优,200个分类数据集竞争力强;在Meta-test大规模数据集上,性能优于GBDT系列模型。
风控场景的业务映射
xRFM的架构对应风控客群分层管理:二叉树分裂等价于客群划分(如按收入、征信记录拆分高/中/低风险客群),Leaf RFM等价于分层定制策略(如对高风险客群采用更严格的授信模型)。
引用
Beaglehole, D. M. (2025). xRFM: Scalable, Interpretable Tabular Prediction via Partitioned Feature Learning Kernel Machines. Advances in Neural Information Processing Systems. https://github.com/dmbeaglehole/xRFM