如何让AI更可靠?GRPO算法通过可验证奖励提升语言模型的推理能力

发布日期:June 10, 2025, 4:03 a.m.
摘要:

当人工智能系统需要做出复杂决策时,如何确保它的选择既符合目标又保持稳定?IBM研究团队近期分析的GRPO算法,通过一种独特的对比学习机制,让大型语言模型在可验证的奖励信号下逐步提升表现。

从策略优化到可验证奖励

在训练人工智能系统时,强化学习是一种常见方法,它通过奖励信号来引导模型行为。传统方法如近端策略优化(PPO)依赖于复杂的价值评估网络,而GRPO(Group Relative Policy Optimization)则采用了一种更直接的方式——利用可验证的奖励信号(例如二元判断“对/错”)来优化模型。这种方法的优势在于,奖励标准明确且易于验证,特别适合需要严格逻辑推理的任务,比如数学证明或事实核查。

GRPO的核心机制:对比学习与策略迭代

GRPO的本质可以理解为一种带有约束条件的对比学习。它将当前策略生成的响应与旧策略的样本进行对比,通过KL散度(一种衡量概率分布差异的指标)来确保更新后的策略不会偏离旧策略太远。具体来说,GRPO会计算两组数据:一组来自当前模型生成的响应,另一组是人工构造的“合成数据”。通过对比这两组数据在奖励信号下的表现,模型能够更稳定地调整参数。

研究发现,GRPO的最优策略可以通过数学公式明确表达,其中包含三个关键要素:二元奖励值、旧策略的统计特性(均值和方差),以及一个参考策略(通常是人类偏好或基线模型)。通过迭代这一过程,模型的成功概率会逐步提升,且这种提升可以通过数学证明收敛到一个稳定值。

为什么GRPO更稳定?

传统强化学习方法面临的一个主要问题是训练过程中的高方差,这会导致模型行为不稳定。GRPO通过两个关键设计缓解了这一问题:

  1. 蒙特卡洛采样替代价值评估:不同于PPO依赖额外训练的“评论家”网络,GRPO直接通过多次模拟(蒙特卡洛 rollout)估算优势函数,减少了训练复杂度。

  2. 优势函数白化:GRPO会对奖励信号进行标准化处理(即调整均值和方差),使得不同任务或不同阶段的奖励具有可比性。这种标准化类似于考试中的“分数标准化”,确保评估公平性。

成功概率的数学保证

研究中最引人注目的发现是GRPO能够严格提升模型的成功概率。通过数学推导,团队证明了一个递推关系:每一步策略迭代都会将成功概率推向一个更高的固定值。这意味着,只要初始策略有一定的基础能力(例如参考策略的成功概率),GRPO就能确保最终策略的表现优于起点。这种性质在需要高可靠性的应用中尤为重要,比如医疗诊断或法律咨询。

实际应用与局限性

GRPO已被成功应用于DeepSeek-R1等大型语言模型的训练中,特别是在需要严格逻辑推理的场景。然而,这种方法依赖于高质量的二元奖励信号——如果奖励设计存在偏差(例如过度简化问题),模型可能会学习到次优策略。此外,蒙特卡洛采样在复杂任务中可能带来较高的计算成本。