From 74a8f3af633da3d6cedf62401a1b574a61acec22 Mon Sep 17 00:00:00 2001
From: erenup <ping.nie@pku.edu.cn>
Date: Mon, 16 Aug 2021 23:13:26 +0800
Subject: [PATCH] fix typo

---
 docs/篇章1-前言/1.1-Transformers在NLP中的兴起.md      | 2 +-
 docs/篇章2-Transformer相关原理/2.2-图解transformer.md | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/docs/篇章1-前言/1.1-Transformers在NLP中的兴起.md b/docs/篇章1-前言/1.1-Transformers在NLP中的兴起.md
index 7b470fc..524c32c 100644
--- a/docs/篇章1-前言/1.1-Transformers在NLP中的兴起.md
+++ b/docs/篇章1-前言/1.1-Transformers在NLP中的兴起.md
@@ -17,7 +17,7 @@
 ## Transformer的兴起
 
 2017年，[Attention Is All You Need](https://arxiv.org/pdf/1706.03762.pdf)论文首次提出了**Transformer**模型结构并在机器翻译任务上取得了The State of the Art(SOTA, 最好)的效果。2018年，[BERT: Pre-training of Deep Bidirectional Transformers for
-Language Understanding](https://arxiv.org/pdf/1810.04805.pdf)使用Transformer模型结构进行大规模语言模型（language model）预训练（Pre-train），再在多个NLP下游（downstream）任务中进行微调（Finetune）,一举刷新了各大NLP任务的榜单最高分，轰动一时。2019年-2021年，研究人员将Transformer这种模型结构和预训练+微调这种训练方式相结合，提出了一系列Transformer模型结构、训练方式的改进（比如transformer-xl，XLnet，Roberta等等）。入下图所示，各类Transformer的改进不断涌现。
+Language Understanding](https://arxiv.org/pdf/1810.04805.pdf)使用Transformer模型结构进行大规模语言模型（language model）预训练（Pre-train），再在多个NLP下游（downstream）任务中进行微调（Finetune）,一举刷新了各大NLP任务的榜单最高分，轰动一时。2019年-2021年，研究人员将Transformer这种模型结构和预训练+微调这种训练方式相结合，提出了一系列Transformer模型结构、训练方式的改进（比如transformer-xl，XLnet，Roberta等等）。如下图所示，各类Transformer的改进不断涌现。
 
 ![放在一起](./pictures/1-x-formers.png)图：各类Transformer改进，来源：[A Survey of Transformers](https://arxiv.org/pdf/2106.04554.pdf)
 
diff --git a/docs/篇章2-Transformer相关原理/2.2-图解transformer.md b/docs/篇章2-Transformer相关原理/2.2-图解transformer.md
index 0117159..78fd189 100644
--- a/docs/篇章2-Transformer相关原理/2.2-图解transformer.md
+++ b/docs/篇章2-Transformer相关原理/2.2-图解transformer.md
@@ -191,7 +191,7 @@ Transformer 的论文通过增加多头注意力机制（一组注意力称为
 
 接下来就有点麻烦了，因为前馈神经网络层接收的是 1 个矩阵（其中每行的向量表示一个词），而不是 8 个矩阵。所以我们需要一种方法，把 8 个矩阵整合为一个矩阵。
 
-怎么才能做到呢？我们把矩阵拼接起来，然后和另一个权重矩阵$W^Q$相乘。
+怎么才能做到呢？我们把矩阵拼接起来，然后和另一个权重矩阵$W^O$相乘。
 
 ![整合矩阵](./pictures/2-to1.webp)
 图：整合矩阵