fix typo
This commit is contained in:
parent
30364d2952
commit
74a8f3af63
|
@ -17,7 +17,7 @@
|
|||
## Transformer的兴起
|
||||
|
||||
2017年,[Attention Is All You Need](https://arxiv.org/pdf/1706.03762.pdf)论文首次提出了**Transformer**模型结构并在机器翻译任务上取得了The State of the Art(SOTA, 最好)的效果。2018年,[BERT: Pre-training of Deep Bidirectional Transformers for
|
||||
Language Understanding](https://arxiv.org/pdf/1810.04805.pdf)使用Transformer模型结构进行大规模语言模型(language model)预训练(Pre-train),再在多个NLP下游(downstream)任务中进行微调(Finetune),一举刷新了各大NLP任务的榜单最高分,轰动一时。2019年-2021年,研究人员将Transformer这种模型结构和预训练+微调这种训练方式相结合,提出了一系列Transformer模型结构、训练方式的改进(比如transformer-xl,XLnet,Roberta等等)。入下图所示,各类Transformer的改进不断涌现。
|
||||
Language Understanding](https://arxiv.org/pdf/1810.04805.pdf)使用Transformer模型结构进行大规模语言模型(language model)预训练(Pre-train),再在多个NLP下游(downstream)任务中进行微调(Finetune),一举刷新了各大NLP任务的榜单最高分,轰动一时。2019年-2021年,研究人员将Transformer这种模型结构和预训练+微调这种训练方式相结合,提出了一系列Transformer模型结构、训练方式的改进(比如transformer-xl,XLnet,Roberta等等)。如下图所示,各类Transformer的改进不断涌现。
|
||||
|
||||
图:各类Transformer改进,来源:[A Survey of Transformers](https://arxiv.org/pdf/2106.04554.pdf)
|
||||
|
||||
|
|
|
@ -191,7 +191,7 @@ Transformer 的论文通过增加多头注意力机制(一组注意力称为
|
|||
|
||||
接下来就有点麻烦了,因为前馈神经网络层接收的是 1 个矩阵(其中每行的向量表示一个词),而不是 8 个矩阵。所以我们需要一种方法,把 8 个矩阵整合为一个矩阵。
|
||||
|
||||
怎么才能做到呢?我们把矩阵拼接起来,然后和另一个权重矩阵$W^Q$相乘。
|
||||
怎么才能做到呢?我们把矩阵拼接起来,然后和另一个权重矩阵$W^O$相乘。
|
||||
|
||||

|
||||
图:整合矩阵
|
||||
|
|
Loading…
Reference in New Issue