SWEET-RL-Meta：多轮强化学习框架

SWEET-RL是什么？

SWEET-RL（基于专家轨迹扩展的可扩展强化学习）是Meta开发的多轮强化学习框架，用于训练大语言模型（LLM）执行协同推理任务。该框架利用训练阶段额外信息（如参考答案）优化"评判者"模型，通过提供分步奖励机制实现更优的信用分配与策略优化。

SWEET-RL是什么？

在ColBench基准测试中，相较前沿方法成功率/胜率提升6%，尤其在后端编程与前端设计任务表现突出

使Llama-3.1-8B等模型达到或超越顶级模型（如GPT-4o）水平

技术原理

训练阶段额外信息：评判者模型通过参考答案生成奖励信号，指导执行者模型策略更新

Bradley-Terry目标函数：直接训练优势函数（评估动作有效性）而非价值函数，更好适配预训练LLM

非对称信息架构：评判者：访问额外训练数据执行者：依赖交互历史实现精准动作评估与策略优化

参数化优势函数：将优势建模为动作平均对数概率，通过轨迹级Bradley-Terry目标训练强化与LLM预训练目标的协同性