高性能计算多头注意力机制的多头指的是什么?

与使用单独的一个注意力不同,多头注意力机制可以独立学习得到 h 组不同的 线性投影(linear projections)来变换查询、键和值。然后,这 h 组变换后的查询、键和值将并行地进行注意力池化。最后,将这 h 个注意力池化的输出拼接在一起,并且通过另一个可以学习的线性投影进行变换,以产生最终输出。这种设计被称为多头注意力。


自注意力机制的缺陷就是:模型在对当前位置的信息进行编码时,会过度的将注意力集中于自身的位置, 因此作者提出了通过多头注意力机制来解决这一问题。


使用多头注意力机制能够给予注意力层的输出包含有不同子空间中的编码表示信息,从而增强模型的表达能力。


蓝海大脑 京ICP备18017748号-1