当人工智能系统需要做出复杂决策时,如何确保它的选择既符合目标又保持稳定?IBM研究团队近期分析的GRPO算法,通过一种独特的对比学习机制,让大型语言模型在可验证的奖励信号下逐步提升表现。
在训练人工智能系统时,强化学习是一种常见方法,它通过奖励信号来引导模型行为。传统方法如近端策略优化(PPO)依赖于复杂的价值评估网络,而GRPO(Group Relative Policy Optimization)则采用了一种更直接的方式——利用可验证的奖励信号(例如二元判断“对/错”)来优化模型。这种方法的优势在于,奖励标准明确且易于验证,特别适合需要严格逻辑推理的任务,比如数学证明或事实核查。
GRPO的本质可以理解为一种带有约束条件的对比学习。它将当前策略生成的响应与旧策略的样本进行对比,通过KL散度(一种衡量概率分布差异的指标)来确保更新后的策略不会偏离旧策略太远。具体来说,GRPO会计算两组数据:一组来自当前模型生成的响应,另一组是人工构造的“合成数据”。通过对比这两组数据在奖励信号下的表现,模型能够更稳定地调整参数。
研究发现,GRPO的最优策略可以通过数学公式明确表达,其中包含三个关键要素:二元奖励值、旧策略的统计特性(均值和方差),以及一个参考策略(通常是人类偏好或基线模型)。通过迭代这一过程,模型的成功概率会逐步提升,且这种提升可以通过数学证明收敛到一个稳定值。
传统强化学习方法面临的一个主要问题是训练过程中的高方差,这会导致模型行为不稳定。GRPO通过两个关键设计缓解了这一问题:
蒙特卡洛采样替代价值评估:不同于PPO依赖额外训练的“评论家”网络,GRPO直接通过多次模拟(蒙特卡洛 rollout)估算优势函数,减少了训练复杂度。
优势函数白化:GRPO会对奖励信号进行标准化处理(即调整均值和方差),使得不同任务或不同阶段的奖励具有可比性。这种标准化类似于考试中的“分数标准化”,确保评估公平性。
研究中最引人注目的发现是GRPO能够严格提升模型的成功概率。通过数学推导,团队证明了一个递推关系:每一步策略迭代都会将成功概率推向一个更高的固定值。这意味着,只要初始策略有一定的基础能力(例如参考策略的成功概率),GRPO就能确保最终策略的表现优于起点。这种性质在需要高可靠性的应用中尤为重要,比如医疗诊断或法律咨询。
GRPO已被成功应用于DeepSeek-R1等大型语言模型的训练中,特别是在需要严格逻辑推理的场景。然而,这种方法依赖于高质量的二元奖励信号——如果奖励设计存在偏差(例如过度简化问题),模型可能会学习到次优策略。此外,蒙特卡洛采样在复杂任务中可能带来较高的计算成本。