标签 "推理" 的搜索结果:2 个资源
清华 IIIS 与蚂蚁集团联合开源的 LLM 强化学习训练系统,全异步架构较同步方案提速 2.77 倍,支持 GRPO/PPO/DAPO 等算法,专攻数学推理和 Agent 任务。
Sebastian Raschka 的教程,用 PyTorch 从零开始实现一个推理 LLM,逐步讲解每个组件。