This commit is contained in:
erenup 2021-08-16 23:13:26 +08:00
parent 30364d2952
commit 74a8f3af63
2 changed files with 2 additions and 2 deletions

View File

@ -17,7 +17,7 @@
## Transformer的兴起
2017年[Attention Is All You Need](https://arxiv.org/pdf/1706.03762.pdf)论文首次提出了**Transformer**模型结构并在机器翻译任务上取得了The State of the Art(SOTA, 最好)的效果。2018年[BERT: Pre-training of Deep Bidirectional Transformers for
Language Understanding](https://arxiv.org/pdf/1810.04805.pdf)使用Transformer模型结构进行大规模语言模型language model预训练Pre-train再在多个NLP下游downstream任务中进行微调Finetune,一举刷新了各大NLP任务的榜单最高分轰动一时。2019年-2021年研究人员将Transformer这种模型结构和预训练+微调这种训练方式相结合提出了一系列Transformer模型结构、训练方式的改进比如transformer-xlXLnetRoberta等等下图所示各类Transformer的改进不断涌现。
Language Understanding](https://arxiv.org/pdf/1810.04805.pdf)使用Transformer模型结构进行大规模语言模型language model预训练Pre-train再在多个NLP下游downstream任务中进行微调Finetune,一举刷新了各大NLP任务的榜单最高分轰动一时。2019年-2021年研究人员将Transformer这种模型结构和预训练+微调这种训练方式相结合提出了一系列Transformer模型结构、训练方式的改进比如transformer-xlXLnetRoberta等等下图所示各类Transformer的改进不断涌现。
![放在一起](./pictures/1-x-formers.png)图各类Transformer改进来源[A Survey of Transformers](https://arxiv.org/pdf/2106.04554.pdf)

View File

@ -191,7 +191,7 @@ Transformer 的论文通过增加多头注意力机制(一组注意力称为
接下来就有点麻烦了,因为前馈神经网络层接收的是 1 个矩阵(其中每行的向量表示一个词),而不是 8 个矩阵。所以我们需要一种方法,把 8 个矩阵整合为一个矩阵。
怎么才能做到呢?我们把矩阵拼接起来,然后和另一个权重矩阵$W^Q$相乘。
怎么才能做到呢?我们把矩阵拼接起来,然后和另一个权重矩阵$W^O$相乘。
![整合矩阵](./pictures/2-to1.webp)
图:整合矩阵