1 min read

支付风控:电诈场景的特征与样本选择

支付场景中,电信网络诈骗相关的风险识别,对动态交易行为特征的依赖度,高于静态用户属性标签。

一、静态主体特征的适用边界

静态人口属性标签,包括年龄、收入区间、房产状态等,仅能反映群体层面的受骗概率分布,无法捕捉用户实时的被诱导状态。刷单类诈骗的受害群体,集中在中等收入区间;交友类诱导代付的受害群体,集中在年轻男性。这类群体分布规律,仅可用于离线客群分层与触达,无法作为单用户实时风险判断的核心依据。在新用户无历史行为数据的冷启动场景中,这类标签可作为兜底防控的补充维度。

二、电诈风险场景的特征应用边界

电诈风险场景中,两类核心特征均能发挥一定识别作用,但在最棘手的头部高风险样本识别上,仍存在明显难度,效果有限。

第一,交易关联的收益地址、手机号等信息的黑产关联度,确实能有效区分交易与黑产的关联程度,对全量电诈样本的风险区分具备实际价值,但针对头部高风险样本的召回能力不足,识别难度较大。头部欺诈行为会刻意使用未被标记的全新地址与手机号,通过分散操作降低单主体的黑产关联度,以此规避基于历史标记的识别逻辑,该现象在刷单、交友诱导、仿冒客服等各类电诈场景中均普遍存在。

第二,以用户是否发起客诉作为辅助任务的多任务学习,在电诈风险识别中也能起到一定辅助作用,但同样难以应对头部高风险样本的识别需求,甚至对头部高风险样本的召回存在负向影响。电诈受害用户的客诉意愿与风险等级存在负向关联,该规律适用于各类电诈场景:小额被骗用户维权成本高于损失,客诉意愿低;被深度诱导的用户不认为自身操作存在风险,不会发起客诉;大额被骗用户可能因羞于启齿、担心追责等原因不选择客诉。高频客诉的主体多为风险等级更低的交易纠纷用户,与电诈核心风险无强关联,导致这类辅助特征难以捕捉头部高风险。

三、训练集的样本治理逻辑

模型训练的效果,受训练集样本质量的显著影响。历史代付时长较长的用户,不可直接统一标记为白样本纳入训练集。这类群体包含两类差异显著的主体,一类是正常亲友代付、个人分期代付的低风险用户,另一类是职业代付、黑产试探、交易纠纷高发的高风险用户。将高风险用户作为白样本纳入训练集,会导致模型学习到错误的特征关联,干扰对核心风险的识别。对这类样本,需先完成分层标记,仅移除高风险的伪白样本,保留正常低风险样本,避免训练集的样本分布与线上真实流量出现偏差。

四、多风险域合并建模的判断标准

支付风控体系中,不同风险域常采用独立建模的方式,对应的维护成本较高。不同风险域能否合并建模,取决于是否存在可复用的稳定共性特征。盗号与手机丢失场景,共性为非本人操作的账户行为,核心特征集中在设备、IP异常,操作行为与历史基线的偏离度。赌博与诱导转账场景,共性为资金流向非历史关联的高风险账户,核心特征集中在资金流转速度、交易对手关联度。这类存在稳定共性特征的场景,可合并建模,降低维护成本。二次放号、电诈中的代付场景,欺诈手法迭代速度快,样本特殊性高,单独建模的识别效果更优。

五、刷单类电诈的核心风险信号

刷单类诈骗是电诈场景中占比较高的类型,受害用户的核心特征为存在额外收入需求,对灰色收益存在接受度,与用户注册时长、是否开通信用服务无直接关联。对应的核心风险信号,集中在动态交易行为,包括开通信用付服务后短时间内出现大额代付、团购场景与代付的组合交易、短时间内代付频次异常升高、支付账号与下单账号不一致。这类动态特征,可直接反映用户当前的异常交易状态,是实时风险识别的主要依据。

电诈相关的支付风险识别,需匹配场景特性选择对应特征,明确不同特征的适用边界,同时保障训练集的样本质量,在模型维护成本与识别效果之间找到平衡。

六、刷单与裸聊威胁的场景区分

金额模式

刷单诈骗中,单笔金额高度集中,如 100 元、200 元整数,节奏均匀,像是在完成 KPI。裸聊威胁的金额则不规律,因谈判过程产生跳变,且往往通过固定账户收款。

账户模式

刷单诈骗涉及多个账户轮换收款,资金流向分散。裸聊威胁则依赖固定账户收款,资金集中度更高。

用户表现

刷单诈骗的受害者往往主动解释在做兼职,申诉时提供较详细的背景信息。裸聊威胁的受害者则相对沉默,拒绝解释具体细节。

操作节奏

刷单诈骗的操作节奏均匀连续,像在完成 KPI。裸聊威胁的操作节奏急促,带有压迫感。

行为突变特征

策略干预后的用户反应是重要的识别维度。同一用户在被拦截后,若主动调整金额(如从 100 元改为 50 元或 200 元),或者换支付方式、换绑银行卡,这类突变行为与正常用户的调整逻辑不同。受骗用户的调整行为更急促,缺乏正常操作的自然节奏。

策略变量

用户在策略干预后的真实反应可以构造为策略变量,用于模型训练。相比静态特征,这种基于动态行为的变量更能准确反映用户的受骗状态,尤其在受害者与欺诈者行为高度重叠的场景中。

电诈相关的支付风险识别,需匹配场景特性选择对应特征,明确不同特征的适用边界,同时保障训练集的样本质量,在模型维护成本与识别效果之间找到平衡。