如何从浅入深理解transformer？

如果说「从浅入深」理解 Transformer，逐渐要到深的那部分，我认为分三步：

第一步，了解 Transformer 出现之前的几个主流语言模型，包括 N 元文法（n-gram）、多层感知器（MLP）、卷积神经网（CNN）、循环神经网络（RNN）。

第二步，了解注意力机制（Attention Mechanism），然后基于第一部分对此前几大语言模型了解后，我们能更好地理解 Transformer 为什么会带来革命性的影响。

第三步，手动实现或精读一个 Transformer 的实现版本。