fix typo

2021-08-16 23:13:26 +08:00 · 2021-08-16 23:13:26 +08:00 · 74a8f3af63
parent 30364d2952
commit 74a8f3af63
2 changed files with 2 additions and 2 deletions
--- a/docs/篇章1-前言/1.1-Transformers在NLP中的兴起.md
+++ b/docs/篇章1-前言/1.1-Transformers在NLP中的兴起.md
@ -17,7 +17,7 @@
 ## Transformer的兴起

 2017年，[Attention Is All You Need](https://arxiv.org/pdf/1706.03762.pdf)论文首次提出了**Transformer**模型结构并在机器翻译任务上取得了The State of the Art(SOTA, 最好)的效果。2018年，[BERT: Pre-training of Deep Bidirectional Transformers for
-Language Understanding](https://arxiv.org/pdf/1810.04805.pdf)使用Transformer模型结构进行大规模语言模型（language model）预训练（Pre-train），再在多个NLP下游（downstream）任务中进行微调（Finetune）,一举刷新了各大NLP任务的榜单最高分，轰动一时。2019年-2021年，研究人员将Transformer这种模型结构和预训练+微调这种训练方式相结合，提出了一系列Transformer模型结构、训练方式的改进（比如transformer-xl，XLnet，Roberta等等）。入下图所示，各类Transformer的改进不断涌现。
+Language Understanding](https://arxiv.org/pdf/1810.04805.pdf)使用Transformer模型结构进行大规模语言模型（language model）预训练（Pre-train），再在多个NLP下游（downstream）任务中进行微调（Finetune）,一举刷新了各大NLP任务的榜单最高分，轰动一时。2019年-2021年，研究人员将Transformer这种模型结构和预训练+微调这种训练方式相结合，提出了一系列Transformer模型结构、训练方式的改进（比如transformer-xl，XLnet，Roberta等等）。如下图所示，各类Transformer的改进不断涌现。

 ![放在一起](./pictures/1-x-formers.png)图：各类Transformer改进，来源：[A Survey of Transformers](https://arxiv.org/pdf/2106.04554.pdf)

--- a/docs/篇章2-Transformer相关原理/2.2-图解transformer.md
+++ b/docs/篇章2-Transformer相关原理/2.2-图解transformer.md
@ -191,7 +191,7 @@ Transformer 的论文通过增加多头注意力机制（一组注意力称为

 接下来就有点麻烦了，因为前馈神经网络层接收的是 1 个矩阵（其中每行的向量表示一个词），而不是 8 个矩阵。所以我们需要一种方法，把 8 个矩阵整合为一个矩阵。

-怎么才能做到呢？我们把矩阵拼接起来，然后和另一个权重矩阵$W^Q$相乘。
+怎么才能做到呢？我们把矩阵拼接起来，然后和另一个权重矩阵$W^O$相乘。

 ![整合矩阵](./pictures/2-to1.webp)
 图：整合矩阵