如何从浅入深理解transformer?

如果说「从浅入深」理解 Transformer,逐渐要到深的那部分,我认为分三步:


第一步,了解 Transformer 出现之前的几个主流语言模型,包括 N 元文法(n-gram)、多层感知器(MLP)、卷积神经网(CNN)、循环神经网络(RNN)。


第二步,了解注意力机制(Attention Mechanism),然后基于第一部分对此前几大语言模型了解后,我们能更好地理解 Transformer 为什么会带来革命性的影响。


第三步,手动实现或精读一个 Transformer 的实现版本。


蓝海大脑 京ICP备18017748号-1