AReaL — 清华 x 蚂蚁开源异步强化学习框架,训练 LLM 推理能力
0 次浏览
2026/3/11
让 LLM 学会推理,不再靠蒸馏
AReaL 是清华 IIIS 和蚂蚁集团联合开源的 LLM 强化学习训练框架。核心创新是全异步架构——传统 RL 训练中,生成和更新是同步的,GPU 大量时间在等待。AReaL 让这两个阶段完全异步流水化,同等硬件实现 2.77 倍训练加速。
支持的算法
GRPO、PPO、REINFORCE++、RLOO、DAPO 等主流 RL 算法全覆盖,异步和同步模式均支持。
适用任务
- 数学推理:AIME/AMC 竞赛数学 SOTA
- 代码生成:用 RL 优化代码正确率
- Agentic 任务:复杂多步工具调用
训练脚本自动下载数据集和基础模型,模型发布在 HuggingFace。4.7k Stars,Python 实现。
下载地址
免责声明
本站内容主要用于信息整理、技术研究与经验分享,不对第三方产品或服务的可用性、完整性作出任何明示或暗示的保证。
- 本站所分享的资源、工具、教程等内容仅供学习与研究参考,请勿用于商业用途。
- 部分内容可能来源于公开网络或开源社区,如涉及版权或其他合法权益问题,请通过联系方式与我们联系,我们将在核实后及时处理。
- 如需将相关内容用于商业产品或盈利性业务,请自行联系权利方获取正式授权。
- 因不当使用引发的版权或合规风险,由使用者自行承担。
- 外部链接失效或无法访问属于正常现象,本站不保证所有链接的持续有效性。
转载或引用本文内容,请保留原文链接并注明来源。
评论
加载中...