当前位置: 首页 > news >正文

大模型学习基础(五) 强化学习(Reinforcement Learning,RL)初步

前面的文章简单介绍过,传统的监督学习所使用的数据集是(特征,标签),有“标签”即明确的知晓正确的输出应该是什么。而强化学习所面临的问题并不一定有严格的正确答案,而只是知晓一个大概正确的方向:如在下围棋时,第一步下在哪里?显然这个问题没有一个明确答案,这个时候使用强化学习显然比监督学习更加合适,因为监督学习需要的是具有明确答案作为标签的数据集。

强化学习的结构逻辑模型可以用上图简单表示:

三要素:1.Actor,即模型;2.Environment,环境 3.Action,即模型的输出

Environment输入Observation给Actor,Actor输出一个Action给Environment,Environment回复一个Reward(奖励)分数给Actor,接着继续把Observation交给Actor,如此循环。模型训练的要求就是使得Reward最大,代表我们找到了最优的模型。

对于模型来说,Environment输入Observation给Actor,即代表模型从环境中提取到了状态信息,根据这个状态信息模型来判断下一步的动作;而模型输出的是一个分类的结果,即多个动作对应多个不同的概率;在输出概率分布以后要添加一定的随机性,使得每次的输出结果具有差异性,然后选择最大概率所对应的动作。

模型在选择一个动作之后,这个动作实际是对Environment发生,相应的Environment会给模型一个回馈Reward,然后再给模型一个新的Observation,模型继续选择新的动作,循环此过程。这个过程中的Reward会被累积下来,Reward越大,代表模型做出的动作越好。用表示reward累计,因为我们希望R越大越好,所以R取反可以直接作为损失函数,使得最小化损失和最大化奖励统一起来。

整个强化学习的过程逻辑图如下:

需要注意的是,只有Actor本身是神经网络结构,而Env和Reward都是黑盒子,这意味着我们只能优化Actor的参数,而Env和Reward中的参数是无法优化的。有了通过Reward定义的损失函数,有了模型Actor,显然我们可以通过常规的深度学习的方法来优化Actor中的参数。

那么如何使得在给定S1时,模型能输出指定的值a?

这个时候的输出是可以明确的,这样的训练可以使用监督学习完成。可以通过经典的多分类问题思路来处理,即用交叉熵定义损失函数。如果不想要模型输出指定的值a,只需要对损失函数取反。

而实际的情况是,环境的状态S是由多个Si构成的,每训练一组S-a即训练一个多分类问题,把这些问题的损失函数(交叉熵)加在一起,即可训练出在不同的状态下应该使用什么动作。这里读者可能会有疑问:上述介绍的问题似乎都是监督学习问题,即可以明确正确输出的标签,与reward又有什么关联呢?这个问题将在下一讲给出答案。

http://www.cnnetsun.cn/news/43030.html

相关文章:

  • matlab debug 调试程序
  • VibeVoice-Large-Q8:语音模型存储与性能的革命性突破——8位选择性量化技术深度解析
  • 腾讯开源双引擎AI模型:混元3D开创多模态创作新纪元,千倍效率革命重塑数字内容生产
  • Csharp学习笔记——常用类、集合框架、泛型、字典精华总结
  • 下载神器downkyi:5分钟掌握任务优先级管理技巧
  • 63.测试策略-领域模型测试集成测试实操方法-附测试框架选择
  • 1.2 主流大模型初探:解锁OpenAI、Gemini、Claude的强大能力
  • Ring-mini-linear-2.0:融合线性注意力与稀疏专家的下一代高效大语言模型
  • MFC消息处理机制
  • 商业级图像合成引擎6.0版本重磅发布:解锁跨场景视觉创作新范式
  • MyBatis-Plus与Spring整合(02--Service的代理)
  • 11、渗透测试实战:目标探索、利用与攻击行动
  • 16、攻击收尾:报告与撤离
  • 20、树莓派的替代项目探索
  • 事件查看器-事件ID
  • 单步出图革命:Consistency Model如何以100倍效率重构AI绘画产业格局
  • 搭建鸿蒙PC命令行适配环境测试hello程序
  • 编辑相似度(Edit Similarity):原理、演进与多模态扩展
  • 【深度解析】MiniCPM 2.0:端侧大模型的技术性进展与技术革新
  • ClickHouse 快速入门
  • 基于SpringBoot的人事管理系统设计与实现
  • 【论文阅读】Multi-modal Spatial Clustering for Spatial Transcriptomics Utilizing High-resolution Histology
  • Day36官方文档的阅读
  • Windows右键菜单终极优化指南:让你的右键菜单重获新生
  • ZTools v1.1.2:桌面应用启动器与搜索工具
  • Flutter Android APK 重命名 签名验证操作
  • MarchingCubes 网格数据体素化并提取等值面
  • 基于SpringBoot的餐厅推荐系统 计算机毕业设计选题 计算机毕设项目 前后端分离 【源码-文档报告-代码讲解】
  • 禁用MinIO后的7种企业级替代方案评测
  • document.querySelector在电商网站中的5个实战应用