在前面我们学习过自注意力模型,自注意力模型拥有CNN并行运算和RNN挖掘序列中的关系两大优势。因此,使用自注意力模型来设计深度架构是很有吸引力的。对比之前仍然依赖RNN来实现输入表示的类似注意力模型,Transformer模型完全基于自注意
2022-04-11