当前位置: 首页 > news >正文

启用 FlashAttention 的令牌压缩 “表象移动 “的工作原理和效果

摘要

本文提出了一种新方法来应对变压器模型计算成本增加的挑战。

近年来,变换器已被广泛应用于自然语言处理和图像/视频理解领域,但随着规模的扩大,处理效率已成为一个严重问题,因为自我注意机制的计算复杂度与输入词块数量的平方成正比增长。

传统上,人们试图从两个方向解决这一问题。

一种是以 FlashAttention 为代表的内存效率方法,另一种是基于标记压缩的计算量减少方法。

然而,标记压缩通常与 FlashAttention 等不建立注意力图谱的机制不兼容,因为它使用注意力图谱来估计标记的重要性。

因此,作者提出了一种新的指标–表征偏移。这可以衡量每个标记在通过各层时的表征发生了多大变化,也是定义重要性的一种方法。

该指标无需训练,与模型无关,可与 FlashAttention 结合使用。

实验结果表明,这种方法在效率和准确性方面都优于传统方法,推理速度提高了 5.5 倍。

建议的方法

所提出的方法 “表征偏移”(Representation Shift)可以测量每个标记在层的输入和输出中的嵌入表征之间的差异,从而量化标记在模型中被增强了多少信息。

具体来说,计算向量通过 MLP 层和注意力层前后的距离,并将此值作为重要性得分。L2 准则在测量距离方面表现最为稳定。

传统方法依赖于注意力图谱,而这种方法可以独立于注意力机制来估计标记的重要性,因此可以自然地与不构建注意力图谱的计算方法(如 FlashAttention)相结合。

该框架还具有足够的通用性,不仅适用于 Transformer,还适用于 CNN 和状态空间模型 (SSM)。

作者还详细研究了设计选择,如在哪一层测量表征偏移,以及基于哪种操作(注意力或 MLP)。
结果表明,使用 MLP 层的变化量最为有效。

这种设计可以将信息损失降到最低,同时消除标记冗余。

实验

作者对图像分类和视频理解任务进行了广泛的实验,以测试所提方法的有效性。

首先,在视频任务中,使用无掩码教师(UMT)对视频文本检索和视频质量保证进行了评估,每层标记减少了 20%。

结果表明,与现有的基于注意力分数的方法相比,表征转移与 FlashAttention 的结合更快、更准确,吞吐量最多提高了 5.5 倍。

与单纯的模型微型化相比,它还能更好地权衡速度/准确性。

接下来,使用 DeiT 序列在 ImageNet 上对图像分类进行了验证,与 FlashAttention 相结合,推理速度提高了 1.2 倍,同时准确率也高于传统的基于注意力的方法。

它还被应用于 CNN/SSM,如 ResNet 和 Vision Mamba,其有效性在这些非基于变换器的架构中得到了证实。

特别是,在 ResNet-50 上逐行标记剪枝的速度提高了 18% 以上,并在很大程度上保持了准确性。

这些实验表明,表征转换是一种通用而强大的标记压缩标准。

http://www.cnnetsun.cn/news/140758.html

相关文章:

  • vue和springboot框架开发的校园商店零售管理系统_pt87nuk3
  • vue和springboot框架开发的校园智能AI问答技术的快递物流管理系统_5kf8to85
  • 文件句柄数超限
  • 如何用 Oracle 的账号和权限来连接 ZooKeeper 的客户端认证、ACL 绑定到身份 2 个概念
  • 艾宝体案例 | 以人为本、灵活赋能:Spectris携手KnowBe4打造高效安全意识与合规培训体系
  • 面向2025:融合AI安全的网络安全学习路线与技能清单
  • 迎战2026:网络安全从业者必须掌握的核心技能与实战路线图
  • python-uniapp微信小程序的字典词韵查询系统的设计与实现_79zfkl8b
  • 7个免费网站帮你降低论文AI率,通过万方AIGC查重,亲测有效
  • 【Java毕设全套源码+文档】基于springboot的拍卖管理系统设计与实现(丰富项目+远程调试+讲解+定制)
  • 基于开源AI智能名片链动2+1模式多商户商城小程序的销售工作性质与能力要求研究
  • 科研人都懂的绘图痛:你是否还在为这些问题熬夜?
  • 传统vs智能:编辑分配效率对比实验报告
  • Watt Toolkit实战:构建电商价格监控系统
  • 技术演进中的开发沉思-258 Ajax:自定义事件
  • 幽冥大陆(五十三)人工智能开发语言选型指南——东方仙盟筑基期
  • 小程序python-uniapp巴山大峡谷景区酒店预定系统的设计与实现_98434fj3
  • 【Java毕设源码分享】基于springboot+vue的易家宜超市云购物系统设计与实现(程序+文档+代码讲解+一条龙定制)
  • 用AI一键识别网站技术栈:Wappalyzer的智能分析
  • 【Java毕设源码分享】基于springboot+vue的苹果批发销售管理平台设计与实现(程序+文档+代码讲解+一条龙定制)
  • 【Java毕设源码分享】基于springboot+vue的街道办管理系统设计与实现(程序+文档+代码讲解+一条龙定制)
  • 代码随想录算法训练营第三十八天:最长公共子序列,不相交的线,最大子序和,判断子序列
  • 电脑与手机互传工具--强大的Coolmuster Android Assistant
  • Nacos注册/配置中心
  • Vue-cli如何集成WebUploader完成百万文件分块上传?
  • HTML如何设计JQuery支持大文件上传的暂停与继续功能?
  • 35岁程序员失业,只能开滴滴?这五个大模型高价值转型方向,让你身价翻倍!
  • CSS margin(外边距)
  • 【计算机毕业设计案例】基于java+springboot+vue的流浪动物救助领养微信小程序基于springboot+微信小程序的宠物领养系统小程序(程序+文档+讲解+定制)
  • 宿主机net.ipv4.ip_forward设置 0 Docker网络直接“罢工”!