当前位置: 首页 > news >正文

AI核心知识45——大语言模型之PPO(简洁且通俗易懂版)

PPOProximal Policy Optimization(近端策略优化)的缩写。

它是大语言模型在RLHF(基于人类反馈的强化学习)阶段中,用来具体执行“参数修改”的核心算法。

如果说RLHF是一个宏大的“教学方针”(用奖励来训练 AI),那么PPO就是执行这个方针的具体“教学手段”或“数学公式”。

它是 OpenAI 用来训练 ChatGPT 的功勋算法,曾被视为 AI 对齐领域的“黄金标准”


1. 🔍 名字拆解:它到底在干嘛?

为了理解 PPO,我们把这三个词拆开来看:

  1. Policy(策略)

    • 在强化学习里,“策略”指的就是AI 模型本身(即面对一个问题,它决定说什么话的概率分布)。

    • 优化策略 = 优化 AI 模型。

  2. Optimization(优化)

    • 这个很好理解,就是让模型得分更高(让奖励模型更喜欢它的回答)。

  3. Proximal(近端/邻近)—— 这是最核心的魔法!

    • 它的意思是:“不要改得太猛,要保持在原来的附近。”


2. 🐢 核心逻辑:为什么不能“改得太猛”?

在训练 AI 时,我们面临一个巨大的风险:模型很容易“学偏”或“崩溃”。

💡 形象的比喻:学高尔夫球

假设你是一个高尔夫球手(AI),教练(奖励模型)告诉你:“刚才那杆打得不好,扣分。”

  • 如果没有 PPO(普通强化学习):

    你会因为想要高分,彻底改变你的挥杆姿势,甚至尝试用脚踢球。结果就是动作完全变形,连球都碰不到了(模型崩溃)。

  • 有了 PPO(近端优化):

    算法会限制你:“你必须在原有姿势的基础上,只做微小的调整(Proximal)。”

    不管你怎么改,你的新姿势不能偏离旧姿势太远。这样虽然进步慢一点,但非常稳,不会突然都不会打球了。

在 LLM 训练中,PPO 的作用就是限制每一次参数更新的幅度(Clipping),防止 AI 为了刷分而彻底忘记了人话怎么说。


3. ⚙️ PPO 的工作流程(三步走)

PPO 在 RLHF 流程中是这样工作的:

  1. 生成:AI (Actor) 针对一个问题生成回答。

  2. 打分:奖励模型 (Critic) 给这个回答打个分(比如 7 分)。

  3. 更新 (PPO Step)

    • PPO 算法计算:为了下次能得 8 分,参数该怎么改?

    • 关键约束 (KL 散度):PPO 会检查一下,改完后的模型和没改之前的模型差别大不大?

    • 如果差别太小→ 大胆一点,多改点。

    • 如果差别太大(超过了安全区域/近端范围) →砍掉 (Clip)多余的修改量,只许改一点点。


4. ⚔️ PPO vs. DPO:新老之争

PPO 和 DPO 是目前两条主要的技术路线:

特性PPO (近端策略优化)DPO (直接偏好优化)
地位老牌霸主(ChatGPT, GPT-4 早期使用)。新晋网红(Llama 3 微调版, Qwen 等使用)。
复杂度极高。需要同时跑 4 个模型,显存占用大,训练极其不稳定,很难调参。。数学上绕过了奖励模型,像普通的微调一样简单稳定。
稳定性容易崩溃,需要极高的工程技巧。非常稳定,容易上手。
效果理论上限极高,如果调得好,效果通常最好。效果逼近 PPO,但胜在性价比高。

现在的趋势是:开源社区和中小企业疯狂拥抱 DPO,而像 OpenAI 这样的巨头可能仍在深度魔改 PPO,或者结合两者的优点。


总结

PPO 是一个“稳健派”的 AI 训练算法。

它在让 AI 追求高分(讨好人类)的同时,给 AI 戴上了一个“紧箍咒”(Proximal 约束),强迫 AI 只能一步一个脚印地改进,防止它因为步子迈得太大而“走火入魔”。

http://www.cnnetsun.cn/news/1203.html

相关文章:

  • AI核心知识46——大语言模型之DPO(简洁且通俗易懂版)
  • 原子变量:并发编程的无锁利器-deepseek
  • Logseq插件开发终极指南:从零到上架完整教程
  • Annotators项目完整部署指南:从环境配置到生产优化
  • 强力解锁:5个remark插件如何彻底改变你的Markdown工作流
  • ISO20000新版标准终极指南:深度解析与服务管理实践
  • 终极解决方案:如何恢复经典数学公式编辑功能
  • Java开发者必备:JDK 1.8中文API文档终极指南
  • 视频防抖终极指南:从手抖菜鸟到专业级拍摄高手
  • 揭秘编程语言新宠:Gleam如何用类型安全重构你的开发体验
  • 微服务容错监控实战:Resilience4j与Spring Boot Admin深度集成方案
  • OpenResume简历构建器完全指南:从零到精通的职业利器
  • 3分钟极速部署:打造专业级Emacs开发环境的终极方案
  • OpenTelemetry eBPF Profiler与OTel Collector集成:企业级性能监控的智能解决方案
  • Cracking the Coding Interview 第6版:程序员面试必备宝典完整指南
  • Layer弹层组件完整指南:快速掌握现代化Web弹层开发
  • 零基础玩转Protogen x3.4:AI绘画从入门到精通终极指南
  • 智能视频字幕生成技术深度解析:从原理到实战
  • 从SQL束缚中解放:ent4/ent如何重构你的Go数据层开发体验
  • Awesome Prompts 完整使用指南:解锁GPT无限潜能
  • MacDriver终极指南:如何用Go语言轻松开发macOS原生应用
  • PingFangSC字体包:跨平台Web字体性能优化完整解决方案
  • 系统设计必读:10本经典技术书籍深度解析与实战指南
  • 3分钟上手Diaspora:2024年最值得收藏的WordPress主题指南
  • Devtron:终极Electron开发工具快速上手指南
  • SongGeneration实战指南:从零开始构建AI音乐生成系统
  • 如何快速上手GitNext:OpenHarmony专属Git客户端完整指南
  • Media Player Classic硬件加速终极指南:一键解决播放卡顿难题
  • 揭秘PHP扩展开发:5大性能优化技巧与实战架构设计
  • GC5035 CSP图像传感器技术深度解析与集成指南