CASCADE Conformal Prediction：两级级联与不确定度自适应区间

摘要： 帕金森病用药是天然的两步决策：先判断要不要调药，再预测具体剂量。传统做法将两步完全拆开、独立处理，导致分类模型对高风险病人的犹豫态度被完全忽视。CASCADE 提出级联保形预测方案，用分类器的不确定度动态缩放回归模型的预测区间，让风险高的病人自动获得更宽的置信范围，风险低的病人获得更精准的剂量建议。本文梳理该方案的设计逻辑、核心技术组件以及两级级联的价值。

1. 背景问题：为什么两级必须联动？

传统 AI + 保形预测的标准做法是把分类和回归完全拆开：

分类模型：只管判断「要不要调整帕金森药物」
回归模型：只管预测具体剂量，并套上一层固定宽度的保形预测区间

这种做法存在一个根本缺陷：分类模型对不同病人的决策信心完全不同，但下游回归区间却一模一样宽。具体来说：

对病人 A：模型 99% 确定必须调药
对病人 B：模型刚好卡在分界线上，只有 55% 的把握建议调药

传统方法给两人完全相同的剂量不确定区间，这会掩盖 B 病人的极高决策风险（Baesens et al., 2026）。

CASCADE 的核心出发点，就是把分类器自身的决策不确定度，作为回归区间的动态调节信号。

2. Stage 1 分类器：不止做决策，还要报告自身靠谱程度

分类器的第一个职责是标准的二分类判断：给定病人临床特征，输出「需要干预」还是「病情稳定」。

CASCADE 的关键增强在于：它还额外输出自身决策的认知不确定性分数，使用 Venn-Abers 方法计算：

$$u_{VA}(x)$$

这个分数的几层含义：

分数越高，分类器越拿不准、决策边界越模糊
分数越低，分类决策越自信
这个不确定分数不是模型输出概率，而是经过 Venn-Abers 校准的认知不确定度

这个分数通过级联传递给第二阶段的回归模型，构成整个系统的核心纽带（Baesens et al., 2026）。

3. Stage 2 回归器：跟着上游信心，动态调整区间宽度

回归模型只对「Stage 1 判定需要调药」的病人进行剂量预测，输出最优 LEDD（左旋多巴等效日剂量）的点预测 $f(x)$。

传统保形回归给出固定宽度的区间：

$$\hat{C}(x) = f(x) \pm Q_{1-\alpha}$$

CASCADE 的改造在于：拿到上游传来的不确定度 $u_{VA}(x)$，通过缩放函数 $\sigma(x)$ 动态调整区间宽度：

$$\hat{C}(x) = f(x) \pm \sigma(x) \cdot Q_{1-\alpha}$$

缩放逻辑直观对应医疗场景：

低不确定度（分类器很自信）→ 缩窄回归区间，给医生精准可信的剂量范围
高不确定度（分类器犹豫不决）→ 加宽回归区间，主动预警风险，提醒医生格外谨慎

这一区间同时满足保形预测的理论覆盖率保证（90% 或 95% 置信度在数学上一定达标）。

4. 级联效应：不是两条流水线，而是一条有反馈的链路

CASCADE 的核心价值在于打破了分类与回归之间的割裂。传统做法是两条平行流水线，分类结果和回归区间互不干扰；CASCADE 则让上游的决策质量直接塑造下游的输出精度。

效果体现在两个方面（Baesens et al., 2026）：

对信心足的病人：置信区间平均收窄 38.9%，同时仍满足严格的临床覆盖率要求
对信心不足的病人：区间自动放大，变现为临床层面的风险预警

5. 两级分工总结

模块	角色	核心产出	级联价值
一级分类器	是否调药的判断者 + 不确定度计算者	是否需要调药 + 认知不确定性分数	向回归模型传递「当前判断的可信程度」
二级回归器	剂量预测 + 区间计算者	具体调药剂量 + 自适应不确定区间	根据上游信心，动态调整区间宽度

6. 参考文献

Baesens, A., Diaz-Rincon, R., Liang, M., Ramirez-Zamora, A., & Shickel, B. (2026). CASCADE conformal prediction: Uncertainty-adaptive prediction intervals for two-stage clinical decision support. arXiv Preprint arXiv:2605.20468. https://arxiv.org/abs/2605.20468