【大模型技术研究】什么是稀疏注意力机制?
一、引言:从密集到稀疏——注意力机制的效率革命
Transformer架构凭借强大的全局建模能力成为NLP、CV、多模态等领域的基础,但标准密集注意力(Dense Attention)存在无法回避的瓶颈:其时间/空间复杂度随序列长度n nn呈O ( n 2 d ) O(n^2d)
Transformer架构凭借强大的全局建模能力成为NLP、CV、多模态等领域的基础,但标准密集注意力(Dense Attention)存在无法回避的瓶颈:其时间/空间复杂度随序列长度n nn呈O ( n 2 d ) O(n^2d)