1 min read

团伙挖掘:DBSCAN 基于聚类的相似行为检测算法

引言

在支付、电商、生活服务等场景中,团伙欺诈是风控领域的核心挑战之一。传统团伙发现方案依赖POI(空间位置标识)或设备、手机号等介质关联,然而实际业务中,大量隐性团伙通过”行为协同”作案——既无有效POI标识,也无直接介质关联,仅通过高度相似的行为模式规避风控规则,成为传统方案的覆盖盲区。

这类隐性团伙往往潜伏在正常用户中,通过批量注册、协同交易、集中套现等方式造成资金损失,且难以通过被动报案发现。基于DBSCAN密度聚类的无监督解决方案,以”用户行为相似性”为核心,主动挖掘隐性团伙,弥补传统方案的不足,实现”高召回、低误拦”的风控目标。

算法基础:为什么是DBSCAN?

DBSCAN核心原理

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的无监督聚类算法,核心思想是:簇是由密度相连的点组成的最大集合,噪声点则是密度过低的孤立点。其关键概念包括:

  • 核心点:在半径EPS范围内,包含至少MIN_PTS个样本的点(自身+邻域内其他样本);

  • 边界点:在核心点的EPS邻域内,但自身邻域样本数不足MIN_PTS的点;

  • 噪声点:既非核心点也非边界点的孤立样本;

  • 密度可达:从核心点出发,通过一系列核心点的EPS邻域可到达的点。

场景适配性分析

DBSCAN之所以成为团伙挖掘的选择,核心在于三大适配性:

  1. 无监督特性:无需依赖团伙标签,解决隐性团伙”无标注”的问题;

  2. 任意簇形状:不同于K-Means的球形簇假设,能适配团伙行为的多样化模式(如集中交易、分散操作等);

  3. 抗噪声能力:自动识别孤立的异常样本(非团伙的偶然异常用户),减少误判;

  4. 密度驱动:团伙本质是”高密度相似行为群体”,与DBSCAN的密度聚类逻辑天然契合。

与SynchroTrap的关联与差异

提到基于行为相似性的团伙检测,就不得不提及SynchroTrap算法。两者同为风控领域中挖掘协同行为的技术方案,核心目标都是识别潜在团伙风险,但因定位场景不同,形成了差异化的技术视角,可互为补充而非替代关系。

1. 共性特征:行为相似性为核心纽带

  • 核心逻辑一致:均以“用户行为模式的相似性/协同性”作为团伙识别的核心依据,突破了传统依赖设备、手机号等显性关联的局限,能发现隐性团伙。

  • 无监督属性适配:都适用于缺乏明确团伙标签的业务场景,通过无监督或半监督方式主动挖掘风险,无需依赖历史报案数据。

  • 风控目标统一:最终目的都是降低团伙欺诈带来的资金损失,提升风控体系的覆盖广度和精准度,适用于金融、电商等场景。

2. 核心差异:场景导向的视角分化

两者的核心差异源于“行为观测视角”的不同——SynchroTrap聚焦“短时同步性”,本方案聚焦“长时稳定性”,具体差异如下表所示:

对比维度 SynchroTrap算法 本方案(DBSCAN无POI团伙挖掘)
核心视角 短时行为同步性:关注特定时间窗口内(几秒到几分钟)的行为协同,如同时向同一账户转账 长时行为稳定性:聚焦7天等周期内的稳定行为模式,识别“行为特征趋同”的群体,不依赖短时同步
技术路径 行为集合构建→Jaccard相似度计算→相似度图构建→社区发现(Louvain算法等) 样本精准筛选→多维特征工程→DBSCAN密度聚类→异常分+轮廓系数双标准判定
适用场景 短时集中作案场景,如电商平台瞬时刷单团伙 长时隐性团伙,如分散时段套现、跨地域协同欺诈的稳定团伙
核心优势 对短时同步行为敏感,检测速度快,能快速响应突发集中攻击 抗噪声能力强,能过滤单日偶然异常,精准捕捉稳定行为团伙,适配POI缺失场景

简言之,SynchroTrap是即时监控,本方案是深度挖掘,两者结合可形成短时突发、长时隐性的团伙检测。

完整方案设计:从样本到策略

1. 样本设计:聚焦高风险群体

样本质量直接决定聚类效果,我们采用精准筛选、严谨定义的思路,确保输入数据的同质性:

  • 样本范围:近7天有交易的活跃用户,以”USERID+DT(日期)“为唯一颗粒度(避免同一用户多日行为干扰);

  • 筛选规则

    • 交易金额≥100元:聚焦高风险交易场景,过滤小额测试类行为;

    • 取用户异常分较低的日期:排除单日偶然异常(如临时跨设备登录),聚焦稳定行为模式;

    • 业务线过滤:剔除极端异常值(如单日交易1000+笔的测试账号),保证聚类群体的业务同质性;

  • 标签定义(仅用于效果校验):

    • 黑样本:业务线标记的团伙用户;

    • 白样本:无团伙关联的正常用户。

2. 特征工程:量化行为相似性

核心思路是从”交易、行为、关联”三大维度,构建可量化的行为特征,刻画用户行为模式,所有特征均通过t-score归一化消除量纲影响:

特征类别 核心特征(含设计逻辑)
交易特征 1. 7天交易频次(团伙通常高频操作)
2. 单笔交易金额集中度(标准差/均值,团伙交易金额趋于一致)
3. 交易时段集中度(熵值量化,如深夜集中交易的团伙特征)
行为特征 1. 7天跨设备登录次数(团伙多设备操作特性)
2. 操作路径相似度(基于序列匹配,如登录→下单→支付的固定流程)
3. 冲突行为次数(如同时异地登录、设备IP频繁切换)
关联特征 1. 7天关联商户数(团伙常集中于特定商户类型)
2. 交易对手方相似度(基于余弦相似度,如均与某类小微商户交易)

3. 模型设计:参数校准+双标准判定

核心参数校准

DBSCAN的效果依赖EPS(邻域半径)和MIN_PTS(最小簇大小)的合理选择,我们基于业务数据迭代校准:

  • EPS=1.x:通过计算特征空间中正常用户的距离分布,取”95%正常用户距离小于该值”的阈值,确保正常用户不会被误聚类;

  • MIN_PTS=10:结合业务中团伙的最小规模(通常≥10人),避免将少量相似用户误判为团伙。

判定逻辑

单一指标易导致误判,我们引入”异常分+轮廓系数”双标准,平衡召回率与精准度:

  • 异常分:衡量用户行为偏离大盘的程度(越低越异常),反映行为特殊性;

  • 轮廓系数:衡量样本与所在簇的聚集度(越高聚集性越强),反映”团伙协同性”。

异常分区间 异常程度 轮廓系数阈值 判定结果
<-0.01 ≥0.3 高风险团伙,触发强管控
-0.01 ~ 0.01 中等 ≥0.5 可疑团伙,二次校验
>0.01 ≥0.7 低风险群体,仅监控

逻辑说明:高异常+高聚集=明确团伙;中等异常需更高聚集度才能判定;低异常即使聚集也仅监控,避免误拦正常群体(如内部同事集中测试/交易)。

4. 策略落地:分层管控

根据判定结果,实施差异化管控策略,兼顾风险拦截与用户体验:

  • 高风险团伙:实时拦截交易、账户管制、人工处置(24小时内完成处置);

  • 可疑团伙:限制单日交易额度≤5000元+动态监控7天(无新增异常则解除限制);

  • 低风险群体:T+1离线监控,不影响正常交易;

迭代优化机制:持续适配业务变化

团伙攻击手法持续演进,方案需通过动态迭代保持有效性:

  • 周度更新:每周重新聚类,纳入新增用户行为数据,基于正常用户距离分布动态调整EPS参数(如节假日交易模式变化时优化);

  • 月度优化:基于误判案例优化特征维度(如新增”跨账户转账关联性”特征),调整异常分与轮廓系数的阈值区间;

  • 专项优化:针对新型攻击手法(如”分散时段+同路径”的隐蔽操作),补充对应的行为特征(如操作路径时序相似度)。

应用场景扩展

该方案已在多个C端场景落地,效果显著:

  1. 支付场景:挖掘套现团伙(如集中向某类商户转账);

  2. 电商场景:识别刷单团伙(高频下单、收货地址相似);

  3. 生活缴费场景:发现批量代缴费团伙(集中时段、相似金额缴费);

  4. 金融借贷场景:骗贷团伙(相似申请背景、操作行为)。

结论

隐性团伙挖掘,核心是用”行为相似性”替代传统的介质关联,而DBSCAN算法凭借其无监督、密度驱动的特性,适配这一需求。通过准确样本筛选、多维行为特征、双标准判定、分层策略的设计,既保证了团伙召回率,又将误拦率控制在极低水平。