1 min read

CASCADE Conformal Prediction:两级级联与不确定度自适应区间

摘要: 帕金森病用药是天然的两步决策:先判断要不要调药,再预测具体剂量。传统做法将两步完全拆开、独立处理,导致分类模型对高风险病人的犹豫态度被完全忽视。CASCADE 提出级联保形预测方案,用分类器的不确定度动态缩放回归模型的预测区间,让风险高的病人自动获得更宽的置信范围,风险低的病人获得更精准的剂量建议。本文梳理该方案的设计逻辑、核心技术组件以及两级级联的价值。

1. 背景问题:为什么两级必须联动?

传统 AI + 保形预测的标准做法是把分类和回归完全拆开:

  • 分类模型:只管判断「要不要调整帕金森药物」
  • 回归模型:只管预测具体剂量,并套上一层固定宽度的保形预测区间

这种做法存在一个根本缺陷:分类模型对不同病人的决策信心完全不同,但下游回归区间却一模一样宽。具体来说:

  • 对病人 A:模型 99% 确定必须调药
  • 对病人 B:模型刚好卡在分界线上,只有 55% 的把握建议调药

传统方法给两人完全相同的剂量不确定区间,这会掩盖 B 病人的极高决策风险(Baesens et al., 2026)。

CASCADE 的核心出发点,就是把分类器自身的决策不确定度,作为回归区间的动态调节信号。

2. Stage 1 分类器:不止做决策,还要报告自身靠谱程度

分类器的第一个职责是标准的二分类判断:给定病人临床特征,输出「需要干预」还是「病情稳定」。

CASCADE 的关键增强在于:它还额外输出自身决策的认知不确定性分数,使用 Venn-Abers 方法计算:

$$u_{VA}(x)$$

这个分数的几层含义:

  • 分数越高,分类器越拿不准、决策边界越模糊
  • 分数越低,分类决策越自信
  • 这个不确定分数不是模型输出概率,而是经过 Venn-Abers 校准的认知不确定度

这个分数通过级联传递给第二阶段的回归模型,构成整个系统的核心纽带(Baesens et al., 2026)。

3. Stage 2 回归器:跟着上游信心,动态调整区间宽度

回归模型只对「Stage 1 判定需要调药」的病人进行剂量预测,输出最优 LEDD(左旋多巴等效日剂量)的点预测 $f(x)$。

传统保形回归给出固定宽度的区间:

$$\hat{C}(x) = f(x) \pm Q_{1-\alpha}$$

CASCADE 的改造在于:拿到上游传来的不确定度 $u_{VA}(x)$,通过缩放函数 $\sigma(x)$ 动态调整区间宽度:

$$\hat{C}(x) = f(x) \pm \sigma(x) \cdot Q_{1-\alpha}$$

缩放逻辑直观对应医疗场景:

  • 低不确定度(分类器很自信)→ 缩窄回归区间,给医生精准可信的剂量范围
  • 高不确定度(分类器犹豫不决)→ 加宽回归区间,主动预警风险,提醒医生格外谨慎

这一区间同时满足保形预测的理论覆盖率保证(90% 或 95% 置信度在数学上一定达标)。

4. 级联效应:不是两条流水线,而是一条有反馈的链路

CASCADE 的核心价值在于打破了分类与回归之间的割裂。传统做法是两条平行流水线,分类结果和回归区间互不干扰;CASCADE 则让上游的决策质量直接塑造下游的输出精度。

效果体现在两个方面(Baesens et al., 2026):

  • 对信心足的病人:置信区间平均收窄 38.9%,同时仍满足严格的临床覆盖率要求
  • 对信心不足的病人:区间自动放大,变现为临床层面的风险预警

5. 两级分工总结

模块 角色 核心产出 级联价值
一级分类器 是否调药的判断者 + 不确定度计算者 是否需要调药 + 认知不确定性分数 向回归模型传递「当前判断的可信程度」
二级回归器 剂量预测 + 区间计算者 具体调药剂量 + 自适应不确定区间 根据上游信心,动态调整区间宽度

6. 参考文献

Baesens, A., Diaz-Rincon, R., Liang, M., Ramirez-Zamora, A., & Shickel, B. (2026). CASCADE conformal prediction: Uncertainty-adaptive prediction intervals for two-stage clinical decision support. arXiv Preprint arXiv:2605.20468. https://arxiv.org/abs/2605.20468