当前位置: 首页 > news >正文

YOLOv8改进策略【Conv和Transformer】| CVPR 2023:Super Token Attention 超级令牌注意力机制

一、本文介绍

本文记录的是利用Super Token Attention(STA)机制优化YOLOv8的目标检测网络模型

传统视觉Transformer的全局自注意力机制虽能捕捉长程依赖,但计算复杂度与令牌数量呈二次关系,资源占用极大;局部注意力或早期卷积虽降低了计算量,却牺牲了全局建模能力,且浅层存在高冗余。STA借鉴超像素思想,通过稀疏关联学习将视觉令牌聚合为语义紧凑的超令牌,在超令牌空间高效执行自注意力以捕捉全局依赖,再通过令牌上采样映射回原始令牌空间,将复杂的全局注意力分解为稀疏关联图与低维注意力的乘积,实现了高效且有效的全局上下文建模,同时保留局部特征表达能力


专栏目录:YOLOv8改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进

专栏地址:YOLOv8改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

文章目录

  • 一、本文介绍
  • 二、Super Token Attention介绍
    • 2.1 出发点
    • 2.2 原理
    • 2.3 结构
      • 2.3.1 Super Token Sampling (STS)
      • 2.3.2 Multi - Head Self - Attention (MHSA)
      • 2.3.3 Token Upsampling (TU)
    • 2.4 优势
  • 三、Super Token Attention的实现代码
  • 四、创新模块
    • 4.1 改进点1
    • 4.2 改进点2⭐
  • 五、添加步骤
    • 5.1 修改一
    • 5.2 修改二
    • 5.3 修改三
  • 六、yaml模型文件
    • 6.1 模型改进版本一⭐
    • 6.2 模型改进版本二⭐
  • 七、成功运行结果

二、Super Token Attention介绍

Vision Transformer with Super Token Sampling

2.1 出发点

  • Vision transformer在浅层捕获局部特征时可能存在高冗余,局部自注意力或早期卷积的使用会牺牲捕获长程依赖的能力。为了解决在神经网络早期阶段能否进行高效且有效的全局上下文建模这一挑战,受超像素设计的启发,将其引入到Vision transformer中,提出了Super Token Attention模块。

2.2 原理

  • 借鉴超像素减少后续处理中图像基元数量的思想,假设超令牌是视觉内容的一种语义上有意义的细分,从而减少自注意力中的令牌数量并保留全局建模能力。通过稀疏关联学习从视觉令牌中采样超令牌,对超令牌进行自注意力操作,然后将它们映射回原始令牌空间,将普通的全局注意力分解为稀疏关联映射和低维注意力的乘法,从而高效地捕获全局依赖关系。

2.3 结构

  • Super Token Attention模块由三个过程组成,即Super Token Sampling (STS)Multi - Head Self - Attention (MHSA)和<
http://www.cnnetsun.cn/news/87386.html

相关文章:

  • IDEA全局设置以及实用的配置
  • LobeChat能否用于构建心理陪伴机器人?人文关怀视角分析
  • LobeChat能否用于构建心理咨询机器人?伦理边界讨论
  • Excalidraw WebSocket连接优化,降低延迟抖动
  • Dify与Docker Run命令结合使用的最佳实践
  • 本地部署Qwen3-8b大模型:Docker与物理机实践
  • TensorRT-LLM快速入门:大模型推理优化指南
  • LobeChat能否用于撰写简历?求职材料优化助手
  • OpenSpec认证的TensorRT容器安全性检测报告
  • Qwen3-VL-8B与OCR结合实现智能图文理解
  • Wan2.2-T2V-A14B本地部署:从环境配置到多GPU推理
  • Kotaemon:开源RAG框架的混合检索突破
  • GPU算力平台部署Linly-Talker数字人教程
  • 全球USB设备厂商ID与产品型号大全
  • Qwen3-14B如何避免输出截断?关键在max_new_tokens设置
  • 16倍压缩+双专家架构重塑视频生成效率
  • 主机监控指标解析—内存篇
  • Keepalived详解:安装与高可用集群配置
  • LangChain与AutoGPT:AI工作流引擎深度对比
  • Excalidraw代码贡献指南:如何参与开源社区开发
  • LangChain-Chatchat本地部署与配置指南
  • shared_ptr 快照用于安全地并发读取,无需拷贝
  • 官方适配完的命令行ruby在鸿蒙PC上的使用方法
  • LobeChat能否接收语音指令?全双工对话体验
  • LangFlow快速入门:可视化构建AI应用
  • Langflow本地部署:隔离环境安装指南
  • 云端算力的进化:云服务器架构演进的三重范式变革
  • 解决facefusion报错No source face detected
  • PaddleOCR中英文文字识别实战与优化指南
  • LobeChat剪贴板交互优化:复制粘贴操作更加流畅自然