ICLR 2022 cosFormer：重新思考注意力機制中的Softmax

本文作者：嘉嘉

2022-03-24 16:26

專題：ICLR 2019

導語：Transformer在自然語言處理、計算機視覺和音頻處理方面取得了巨大成功。

導讀：Transformer在自然語言處理、計算機視覺和音頻處理方面取得了巨大成功。作為其核心組成部分之一，Softmax Attention模塊能夠捕捉長距離的依賴關系，但由于Softmax算子關于序列長度的二次空間和時間復雜性，使其很難擴展。針對這點，研究者提出利用核方法以及稀疏注意力機制的方法來近似Softmax算子，從而降低時間空間復雜度。但是，由于誤差的存在，效果往往不盡如人意。

我們（商湯多模態研究組）認為，近似操作本身存在的誤差使得其效果很難超越Softmax Attention。我們的觀點是，與其近似Softmax，不如設計一種方式代替Softmax，并且同時降低時間空間復雜度。因此，本文提出了名為cosFormer的方法，在時間空間復雜度關于序列長度為線性復雜度的同時，其性能接近或者超越Softmax Attention，并在LRA benchmark上取得SOTA結果。我們的設計核心理念基于兩點，首先是注意力矩陣的非負性，其次是對局部注意力的放大（非極大值抑制）。

本文主要介紹已收錄于ICLR 2022的一篇文章 cosFormer : Rethinking Softmax in Attention。

ICLR 2022 cosFormer：重新思考注意力機制中的Softmax