15 Transformer 框架概述
博客配套视频链接: .1007.0.0 b 站直接看 配套 github 链接: 配套博客链接:.html1000*0.04=40–>10
5000*0.04=200–>20
预训练–》NNLM–》word2Vec–》ELMo–》Attention
NLP 中预训练的目的,其实就是为了生成词向量
顺水推舟,transformer 其实就是 attention 的一个堆叠
从一个宏观的角度,去看 transformer 到底在干嘛,然后在细分,再作总结
总分总
seq2seq
一句话,一个视频
序列(编码器)到序列(解码器