全球热讯:贪心Transformer与联邦学习高阶研修班

时间 : 2023-03-18 20:02:52 来源 : 哔哩哔哩

1000*0.04=40-->10


(资料图)

5000*0.04=200-->20

预训练--》NNLM--》word2Vec--》ELMo--》Attention

NLP 中预训练的目的,其实就是为了生成词向量

顺水推舟,transformer 其实就是 attention 的一个堆叠

从一个宏观的角度,去看 transformer 到底在干嘛,然后在细分,再作总结

总分总

seq2seq

一句话,一个视频

序列(编码器)到序列(解码器)

分成两部分,编码器和解码器

机器翻译流程(Transformer)

通过机器翻译来做解释

给一个输入,给出一个输出(输出是输入的翻译的结果)

“我是一个学生” --》(通过 Transformer) I am a student

标签:

相关阅读

热门文章