在大语言模型(LLM)的微调发展中,曾长期处于单一参考对齐的阶段:监督微调(SFT)强制模型在Token层面匹配唯一参考答案,却忽略了语言同一语义可多表达的特性。这一模式逐渐暴露出过拟合等问题,ProFit方法的出现,推动LLM微调进入概率引导高价值信号筛选的探索(Liu et al., 2026)。
一、传统SFT的核心困境
传统SFT的自回归训练目标,要求模型严格对齐单一参考的每个Token,但自然语言存在一对多的表达特性——比如”6乘7的结果是42”,可表述为”答案是42”“这题结果为42”等(图1)。这种刚性对齐会让模型过度拟合非核心的风格表达,而非学习语义逻辑(Liu et al., 2026)。
Figure 1: 同一语义的多种表达方式
为解决这一问题,研究者曾尝试多参考SFT(提供多个参考答案),但该方案存在三种缺陷:标注成本随参考数量线性增加;不同答案的梯度方向可能冲突,导致训练不稳定;在GPQA-Diamond等复杂任务中,性能甚至出现下降。
传统SFT的核心矛盾可归结为低价值的”琐碎Token”(如风格化连接词)梯度更大,会掩盖”核心Token”(如推理逻辑、关键数值)的优化方向,最终引发过拟合。
二、ProFit:Token概率与语义的关联
ProFit的核心依据是Token预测概率与语义重要性强相关这一发现,该结论经假设检验验证( \(p=1×10⁻⁶\) )(Liu et al., 2026)。LLM输出的Token可分为两类:
核心Token( \(\mathrm{Core\ Tokens}\) ):预测概率高,均值达0.768,承载关键推理逻辑或语义信息;
琐碎Token( \(\mathrm{Trivial\ Tokens}\) ):预测概率低,均值仅0.485,多为可替换的风格化表达。
这一差异可通过Token概率分布直方图直观体现(图2):琐碎Token集中在00.4的低概率区间,核心Token集中在0.81.0的高概率区间(Liu et al., 2026)。这一分布为ProFit的Token筛选提供了客观依据。
Figure 2: Token概率分布直方图:核心Token与琐碎Token的概率区间差异
三、ProFit的具体方法
ProFit的核心是概率引导的Token掩码策略,具体包含两部分(Liu et al., 2026):
掩码机制:通过停止梯度( \(s\mathrm{g}(\cdot)\) )操作获取Token的预测概率 \(\pi_{\theta}(\mathrm{y}_t^* | \mathrm{x}, \mathrm{y}_{<<<t}^*)\) ,再与静态阈值 \(\tau\) 对比,生成二进制掩码 \(\mathcal{M}_t = \mathbb{I}\left[sg\left(\pi_{\theta}(\mathrm{y}_t^* | \mathrm{x}, \mathrm{y}_{<<<t}^*)\right) > \tau\right]\) ——若Token概率高于 \(\tau\) ,则保留( \(\mathcal{M}_t=1\) ),否则掩码( \(\mathcal{M}_t=0\) )。
优化目标:仅对保留的Token计算损失,公式为 \(\mathcal{L}_{\mathrm{ProFit}}(\theta) = \mathbb{E}_{\mathcal{D}}\left[-\frac{1}{T} \sum_{t=1}^{T} \mathcal{M}_t \log \pi_{\theta}(\mathrm{y}_t^* | \mathrm{x}, \mathrm{y}_{<<<t}^*)\right]\) ,其中 \(T\) 是参考序列的长度。
其核心逻辑是:仅让高概率的核心Token参与梯度更新,过滤低价值的琐碎Token干扰。
四、实验验证结果
在0.6B到14B规模的模型(包括Qwen3、Llama-3.1等)及推理、数学类基准(如GPQA-Diamond、GSM8K)中,ProFit的表现全面优于传统SFT(Liu et al., 2026):
性能提升:Qwen3-4B的平均准确率提升10.94%;
修复负迁移:Qwen3-14B在传统SFT中出现性能下降,ProFit逆转该趋势并实现提升;
训练效率:首训练epoch的准确率达60.1%,超过传统SFT的峰值水平,且无灾难性遗忘问题;作为强化学习(RL)的初始化模型时,性能也处于最优水平。
在数学解题的实际文本中,ProFit通过”颜色+高亮”标记高概率核心Token(如公式、关键数值,见图3),进一步验证了其筛选逻辑的有效性:浅色未高亮的低概率Token多为”we are given”等可替换过渡语句(Liu et al., 2026)。
Figure 3: 数学解题文本中的核心Token高亮标记
五、落地价值:兼顾低成本与多样性
传统SFT方案中,低成本与表达多样性存在矛盾:Vanilla SFT仅用一个参考,成本低但表达单一;Multi-SFT用多个参考,多样性高但成本陡增。而ProFit通过聚焦核心Token训练,既保持了单一参考的低成本,又允许模型自主选择琐碎Token的表达,同时实现了低成本与多样性的兼顾(Liu et al., 2026)。
六、局限
ProFit的适用场景存在限制:仅适配推理、数学等逻辑密集型任务;在创意写作(如小说、广告)中,低概率Token可能是风格亮点,无法直接掩码。此外,ProFit采用静态阈值 \(\tau\) ,未根据样本难度动态调整,适配性有待提升(Liu et al., 2026)。
参考文献
Liu, T., Wu, T., Yang, R., Sun, S., Wang, J., & Yang, Y. (2026). ProFit: Leveraging high-value signals in SFT via probability-guided token selection. arXiv Preprint arXiv:2601.09195.