【[88星]RLT:用强化学习训练“教师Agent”,提升大语言模型推理能力的创

爱生活爱珂珂 2025-06-24 23:24:45

【[88星]RLT:用强化学习训练“教师Agent”,提升大语言模型推理能力的创新项目。亮点:1. 提供高效代码,支持自定义数据集和基础模型;2. 预训练模型可在Hugging Face获取;3. 支持分布式训练,适配多种硬件配置】

'Reinforcement Learning Teachers of Test Time Scaling: Training teachers with reinforcement learning able to make LLMs learn how to reason for test time scaling.'

GitHub: github.com/SakanaAI/RLT

强化学习 大语言模型 推理能力 人工智能 ai兴趣创作计划

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注