当前位置: 首页 > news >正文

OctoThinker 通过改进 Llama 来支持强化学习,展示了中间学习的威力

概述

本文是一项研究,旨在强调中期训练(mid-training)在使 Llama 等一般基础模型通过强化学习(RL)获得高级推理能力方面的有效性。我们特别关注了基于 Qwen 的模型和基于 Llama 的模型在 RL 扩展行为上的差异,探讨了造成这种差异的原因,并提出了提高 Llama 模型 RL 性能的学习策略。

研究的重点是一种名为 "稳定-然后衰退 "的两阶段中期训练策略。第一阶段通过稳定学习培养稳健的推理能力,而第二阶段则使用不同类型的数据(短思维过程、长思维过程及其混合物)生成多分支(分支)模型。

因此,这套名为 OctoThinker 的新模型的性能可与 Qwen2.5 等 RL 友好型模型相媲美,并表明 RL 扩展甚至对 Llama 系列也是可行的。我们还建立并发布了一个大型数学推理语料库–MegaMath-Web-Pro-Max,为今后的研究奠定了基础。

建议的方法

我们提出了一种两阶段的中期训练策略–“稳定-衰减”(Stable-then-Decay),用于将不适合 RL 的模型(如 Llama)转化为 RL 可扩展的基础模型。

在第一阶段,即 "稳定 "阶段,使用 200B 个高质量数学数据(如 MegaMath-Web-Pro-Max)以恒定的学习率进行稳定的预训练。这一阶段是模型基本推理能力和数学知识的基础。

第二阶段为 "衰减 "阶段,学习速度逐渐减慢,并输入不同性质的数据(如短思维链、长思维链以及两者的混合),从而使模型的性质发生变化,并培养出多种推理风格。这一过程被命名为 “章鱼思维”,因为它像章鱼的多臂一样,向多个方向展开。

此外,在这一过程中,还对质量保证格式数据和指令跟踪数据的比例和组合进行了精细控制,并详细评估了每种数据的影响。此外,还设计了反应时长控制调度程序和提示模板,以稳定 RL 训练。

实验

实验以 Llama 和 Qwen 作为比较对象,以确定学习行为和 RL 性能的差异。初步观察结果表明,Qwen 模型在逐渐增加答案长度的过程中表现出稳定的性能提升,而 Llama 模型则表现出异常的学习行为,例如在过程中一直迭代到答案达到最大长度(4096 个字节)。

为了解决这个问题,作者对 Llama 采用了上述两阶段的中期训练。在第一阶段,在高质量数据(主要是 MegaMath-Web-Pro-Max)上进行了 200B 标记的稳定训练,然后在三种数据配置上进行了分支训练:短 CoT、长 CoT 和混合。

然后,在相同条件下对每个模型进行 RL 训练,并在 14 个数学推理基准测试中进行性能评估,包括 MATH500、GSM8K、OlympiadBench 和 AMC23。结果表明,OctoThinker 的每个分支模型的性能都比原始 Llama 高出 10-20%,尤其是在 "长 "分支中,其性能可与 Qwen2.5 相媲美。

通过这种方式,量化了中期训练策略对 RL 性能的影响,并证明了在 Llama 系列中可以实现高性能的 RL 适应。

http://www.cnnetsun.cn/news/15438.html

相关文章:

  • 活字格低代码平台:企业数字化转型的技术架构与实践剖析
  • NVIDIA CUDA 13.1权威指南:CUDA Tile驱动下一代GPU编程,性能全面提升
  • Figma中文界面完整指南:快速实现设计工具本地化
  • 重新定义AI视觉评估:多维度评分系统深度解析
  • Hap视频编解码器:专业级QuickTime硬件加速终极指南
  • 阿里Wan2.1开源:消费级GPU如何重塑视频创作生态
  • 40亿参数改写边缘AI规则:Qwen3-VL-4B-Thinking-FP8轻量化多模态革命
  • MATLAB图像导出专业指南:掌握export_fig的核心技术
  • AI浪潮下的新职业生态:技术角色的系统性演化
  • SQL优化实战:标量子查询改写外连接的真实案例
  • Claude Code 杀疯了!首创“后台实习生”模式,这才是真正的 AI 结对编程!
  • 多进程环境中解决 PHP 文件系统锁定问题指南
  • 浅谈InheritableThreadLocal---线程可继承的小书包
  • Jellyfin Android TV客户端音频播放异常问题深度解析
  • HFI高频方波注入方案stm32f405 无感FOC控制 直接闭环启动 永磁同步电机无感控制...
  • CTR预测系统构建实战:从FM到DeepFM的推荐算法演进之路
  • 从零玩转RT-Thread(22):定时器底层机制揭秘
  • B站缓存视频转换完整教程:m4s-converter高效管理本地视频
  • 解锁企业级后台管理:用Vue.js和Element-UI构建高效前端解决方案
  • WMS 和 ERP 先上哪个?行业内幕:仓库没打好地基,什么 ERP 都白搭
  • WiFi放大器小白指南:从选购到安装的完整教程
  • AI如何革新虚拟光驱开发?自动化代码生成实战
  • 2024年全国平均身高数据统计可视化分析
  • 1小时打造Mac专属SSH工具:快马平台实战
  • PIKE-RAG知识库本地化部署之分块
  • DREAM3D完整指南:从入门到精通的材料科学数据分析解决方案
  • 靠谱的自动供包环线分拣机生产厂家
  • 5分钟用VSCode在Ubuntu上搭建Web应用原型
  • 24小时挑战:用AI快速打造‘旺仔‘风格IP原型
  • 零基础搞定Umi项目自动化部署:从代码到上线的完整指南