在信贷业务中,评分卡已成为评估贷款申请人违约风险的核心工具。它通过分析申请人的收入、征信、职业等特征,给出违约概率评分,为放款决策提供依据。但看似客观的算法,却可能难以校准的隐患——有的群体不违约却被评高风险,有的群体违约却被评低风险。这背后,是算法公平性的三个核心条件难以同时满足的固有权衡,而这一结论在2016年的研究中通过严谨推导证实(Kleinberg, J., Mullainathan, S., & Raghavan, M., 2016)。
一、信贷场景下的三重公平要求
算法风控的公平性,本质上要满足三个核心条件,每一个都对应着信贷业务中不偏不倚的基本诉求:
1. 组内校准:避免出现评分与实际风险脱节的情况
组内校准要求,对任意群体(如上班族、个体户)和任意风险评分区间,该群体中被分到这个区间的申请人,实际违约的比例必须等于区间的评分值。比如给某群体一批申请人评20%违约风险,那这组人里最终违约的比例就得约20%,且这个规则要在每个群体内单独成立。
从数学上看,这意味着一个群体的所有申请人的风险评分总和,必须等于该群体实际违约的人数。假设群体A有100名申请人,其中20人违约,那么这100人的评分总和就该是20(Kleinberg et al., 2016)。这一条件保证了评分的可靠性,避免出现评分与实际风险脱节的情况。
2. 负类平衡:不违约者待遇一致
负类平衡要求,两个不同群体中,实际没有违约的申请人,他们的平均风险评分必须相等。比如上班族中不违约的人和个体户中不违约的人,不能因为职业不同,平均风险分就一个高一个低。
这一条件的核心是无辜者不受歧视,同样是按时还款的申请人,算法不应因他们所属群体不同而给出差异化评分,否则就会导致部分群体明明信用良好,却因群体身份被低估信用等级。
3. 正类平衡:违约者评判一致
正类平衡与负类平衡对称,要求两个不同群体中,实际发生违约的申请人,他们的平均风险评分必须相等。比如上班族中违约的人和个体户中违约的人,平均风险分不能有显著差异,避免出现同样违约,某一群体被过度惩罚的情况。
这三个条件看似都合情合理,都是信贷风控中公平的要求,但现实中,它们却很难同时实现。
二、矛盾的根源:基准率差异与完美预测的不可能
三个条件之所以冲突,核心原因有两个:一是不同群体的违约基准率往往不同,二是现实中不存在100%精准的预测算法。
1. 基准率差异:矛盾的起点
违约基准率,即某个群体中实际违约人数占总人数的比例。在信贷场景中,不同群体的基准率差异普遍存在,比如上班族的违约基准率可能是20%,而个体户因收入波动大,违约基准率可能达到40%。
结合三个公平条件可得出一个核心方程:μₜ = x·(Nₜ - μₜ) + y·μₜ(Kleinberg et al., 2016)。其中,μₜ是群体t的违约人数,Nₜ是群体t总人数,x是负类平均评分,y是正类平均评分。
我们以两组具体数据代入:
群体1(上班族):N₁=100,μ₁=20(基准率20%),方程简化为1=4x + y;
群体2(个体户):N₂=100,μ₂=40(基准率40%),方程简化为2=3x + 2y。
解这个方程组,得到的结果是x=0,y=1。这意味着,只有当所有不违约的人都得0分(100%确定不违约),所有违约的人都得1分(100%确定违约)时,两个方程才能同时成立,三个公平条件才能同时满足。
2. 完美预测:现实中不存在的前提
x=0、y=1对应的是完美预测,算法能100%精准判断每个申请人是否会违约。但在实际信贷业务中,这是不可能实现的:申请人的未来还款行为受收入变化、突发状况等多种不确定因素影响,再先进的算法也只能基于历史数据做概率推断,无法做到绝对精准。
一旦无法实现完美预测,x就不可能是0,y也不可能是1。此时,满足了组内校准,就会违反负类平衡或正类平衡;满足了两个平衡条件,又会违反组内校准。比如强行让上班族和个体户的不违约者平均评分都是0.05,违约者平均评分都是0.8,那么上班族的总评分会是20(满足组内校准),但个体户的总评分会是35,与实际违约人数40不符(违反组内校准)。
三、现实抉择:没有绝对公平,只有相对权衡
Kleinberg 等人的研究表明,除了完美预测或两组基准率完全相等这两种极端情况,三个公平条件的冲突是不可避免的(Kleinberg et al., 2016)。这意味着,信贷风控中的算法公平,不是全有或全无的选择,而是基于业务目标的权衡。
1. 优先组内校准:保证评分的可靠性
很多会优先选择满足组内校准,因为这是算法风控的基础——如果评分不能反映实际违约风险,不仅会导致放款决策失误(放过高风险申请人、拒掉低风险申请人),还会造成资金损失。这种选择下,可能会出现不同群体的违约者或不违约者平均评分有差异,但能保证每个群体的评分是校准的。
2. 优先平衡条件:追求群体间的待遇公平
在监管要求或社会公平诉求较强的场景下,机构可能会优先满足负类平衡和正类平衡,通过调整评分模型,让不同群体的违约者、不违约者获得相近的平均评分。但这种调整可能会牺牲部分组内校准的准确性,比如某个群体的30%违约风险评分,实际违约比例可能是25%或35%。
3. 动态调整:结合场景优化权衡
更灵活的方式是动态调整权衡策略。比如对于基准率差异较小的群体(如不同行业的上班族),尽量同时满足三个条件;对于基准率差异较大的群体(如上班族和个体户),根据业务重点调整权重,如果是普惠金融业务,可适当向平衡条件倾斜;如果是风险控制优先级极高的业务,可适当向组内校准倾斜。
结语
算法公平是风控无法回避的重要问题,而Kleinberg 等人的研究证明,公平的实现往往伴随着取舍。不存在能满足所有公平条件的完美预测,机构能做的,是在理解不可能三角的基础上,结合业务目标、监管要求和公平诉求,找到最适合自身的权衡点。
参考文献
Kleinberg, J., Mullainathan, S., & Raghavan, M. (2017). Inherent trade-offs in the fair determination of risk scores. Conference on Innovations in Theoretical Computer Science.