当前位置：首页 > news >正文

数据挖掘05

news 2026/7/4 16:18:21

数据挖掘05

书接上回

1.包含动量的随机梯度下降算法

（1）定义

包含动量的随机梯度下降（Momentum Stochastic Gradient Descent, 简称 SGD with Momentum）是一种在标准随机梯度下降（SGD）基础上引入“动量”项的优化算法，旨在加速收敛、减少震荡，并帮助模型跳出局部极小值或鞍点。

（2）复习一下上一篇介绍过的SGD

标准 SGD 在每次迭代中使用一个样本（或一个小批量）来估计梯度并更新参数，公示如下：

缺点：

1）更新方向完全依赖当前梯度，容易产生高方差和震荡；

2）在狭窄峡谷或非凸地形中收敛缓慢；

3）容易陷入局部最优或鞍点。

(3)更新方向完全依赖当前梯度，为什么容易产生高方差和震荡?

因为每次根据样本估计的梯度可能与真实梯度方向相差很远，
所以会出现：

有时更新方向接近最优；

有时却几乎垂直甚至反向；

导致参数在最优解附近来回震荡，而不是平稳靠近。

举个例子：

假设你在一个嘈杂的房间里听人说话。每次只听一个词（SGD），这个词可能是“向左”也可能是“向右”，即使整体趋势是“向前”。你每一步都按听到的词走，就会左右乱晃。

（4）为什么SGD在狭窄峡谷或非凸地形中收敛缓慢？

狭窄峡谷：
例子：
在一条深而窄的山谷里想走到谷底最低点。每次你只看脚下最陡的方向往下跳，结果就是不断撞到左右岩壁，前进效率极低。

非凸地形：

存在大量鞍点（saddle points）和平坦区域（plateaus）；

SGD 在平坦区域梯度接近零导致更新几乎停滞；

复习完毕，我们看下带动量的SGD

（5）动量机制的引入

动量方法借鉴了物理学中的“惯性”概念：参数更新不仅考虑当前梯度，还累积过去梯度的方向，形成一种“速度”。

动量 SGD 的更新公式：

动量是历史梯度的加权和，形成一个惯性速度。

动量不是只记住“上一次”的梯度，而是综合了最近若干次梯度的方向和大小。

（6）动量的作用：

1）平滑更新方向：通过指数加权平均历史梯度，减少随机噪声的影响。

2）加速收敛：在一致方向上持续加速（如沿峡谷底部）。

3）帮助逃离平坦区域：即使当前梯度很小，若之前有动量，仍可继续移动。

2.Adagrad算法

（1）定义

AdaGrad（Adaptive Gradient Algorithm）是一种自适应学习率优化算法。

核心思想是：
为每个参数分配一个独立的学习率，根据该参数的历史梯度大小自动调整。
梯度大的参数学习率变小，梯度小的参数学习率变大。

（2）为什么需要自适应学习率？

我们知道，在标准 SGD 中：

所有参数都使用同一个全局学习率 η；

但不同参数的重要性、更新频率、梯度尺度可能差异巨大。

所以，为了解决这个问题，引入自适应学习率，让每个参数“按需调整步长”。

（3）公式

调节学习率的原理：

（4）性质

优点：

特别适合稀疏数据（如自然语言处理、推荐系统中的嵌入层），能显著提升收敛速度和性能。

缺点：

3.RMSprop算法

（1）定义

RMSProp（Root Mean Square Propagation）是一种自适应学习率优化算法。

核心思想是：

对 AdaGrad 进行改进，通过引入指数移动平均（EMA）来“遗忘”久远的梯度信息，从而避免学习率过早衰减到零的问题。

（2）回顾 AdaGrad：

它累积所有历史梯度的平方和：

这会导致学习率分母持续增大 → 学习率单调下降 → 训练后期几乎停止更新。

为了解决这个问题，我们提出了RMSprop。

（3）公式：

对每个参数（或整体向量形式），RMSProp 的更新规则如下：

（4）性质

1）指数移动平均（EMA）

这样就能更好的调节学习率：

2）避免学习率崩溃

因为旧梯度被遗忘，所以 vt 不会无限增长，分母不会趋于无穷；

学习率可以在训练后期保持一定活性，适合长时间训练。

查看全文

http://www.cnnetsun.cn/news/65289.html

【收藏必看】2025大模型技术岗位全景图：15大方向详解，助你成为AI人才

LobeChat支持GraphQL接口吗？API扩展能力分析

LobeChat能否实现对话分享功能？链接公开化实践

全球工程软件格局重塑：中国AI原生平台的机会窗口

【Dubbo】接口特性与开发注意事项

测试环境管理的最佳实践

Miniconda环境下安装PyTorch GPU版的完整流程

AI推理的“哥白尼革命”！何恺明团队推翻LLM，将抽象推理重新定义为视觉问题

深度学习训练器框架全面对比指南

火山引擎AI大模型新玩法：结合vLLM实现高效推理

16、GTK+ 样式定制全解析

LobeChat是否支持Service Worker？离线访问能力构建

重学计算机基础013：减法运算的底层逻辑——为什么没有“减法器”？

apk pure安全性争议下，本地大模型成新趋势

LobeChat能否支持NFT头像展示？个性化形象设定

LobeChat + Kubernetes：大规模部署AI前端界面的可行路径

20万以内家用新能源SUV怎么选？纯电动车型主动安全系统深度对比

基于28DR+VU13P的宽带高速信号处理板

AutoGPT镜像上线促销：限时赠送免费Token额度

达人内容乱+不合规？KOL/KOS/KOC/KOC/KOX内容协同+合规管控，品牌调性不跑偏

解锁优质创意素材：这四个专业平台值得收藏

毕设分享深度学习遮挡下的人脸识别（源码+论文）

Python UV搭配Miniconda：下一代包管理体验

实验室装修，怎样做更省心？

Redis多数据源配置指南

AutoGPT支持ONNX Runtime部署了吗？跨框架兼容测试

零基础小白网络安全入行清单：学技术前，先搞定这6件“小事”

计算机毕业设计springboot小区送货系统基于SpringBoot的社区末端智能配送平台面向住宅区的轻量级电商物流管理系统

GitHub组织账号管理Qwen3-32B项目协作开发流程

毕设项目分享基于大数据的招聘职业爬取与分析可视化

数据挖掘05

1.包含动量的随机梯度下降算法

（1）定义

（2）复习一下上一篇介绍过的SGD

(3)更新方向完全依赖当前梯度，为什么容易产生高方差和震荡?

（4）为什么SGD在狭窄峡谷或非凸地形中收敛缓慢？

（5） 动量机制的引入

（6）动量的作用：

2.Adagrad算法

（1）定义

（2）为什么需要自适应学习率？

（3）公式

3.RMSprop算法

（1）定义

（2）回顾 AdaGrad：

（3）公式：

（4）性质

1）指数移动平均（EMA）

2）避免学习率崩溃

相关文章：

（5）动量机制的引入