From 74a8f3af633da3d6cedf62401a1b574a61acec22 Mon Sep 17 00:00:00 2001 From: erenup Date: Mon, 16 Aug 2021 23:13:26 +0800 Subject: [PATCH] fix typo --- docs/篇章1-前言/1.1-Transformers在NLP中的兴起.md | 2 +- docs/篇章2-Transformer相关原理/2.2-图解transformer.md | 2 +- 2 files changed, 2 insertions(+), 2 deletions(-) diff --git a/docs/篇章1-前言/1.1-Transformers在NLP中的兴起.md b/docs/篇章1-前言/1.1-Transformers在NLP中的兴起.md index 7b470fc..524c32c 100644 --- a/docs/篇章1-前言/1.1-Transformers在NLP中的兴起.md +++ b/docs/篇章1-前言/1.1-Transformers在NLP中的兴起.md @@ -17,7 +17,7 @@ ## Transformer的兴起 2017年,[Attention Is All You Need](https://arxiv.org/pdf/1706.03762.pdf)论文首次提出了**Transformer**模型结构并在机器翻译任务上取得了The State of the Art(SOTA, 最好)的效果。2018年,[BERT: Pre-training of Deep Bidirectional Transformers for -Language Understanding](https://arxiv.org/pdf/1810.04805.pdf)使用Transformer模型结构进行大规模语言模型(language model)预训练(Pre-train),再在多个NLP下游(downstream)任务中进行微调(Finetune),一举刷新了各大NLP任务的榜单最高分,轰动一时。2019年-2021年,研究人员将Transformer这种模型结构和预训练+微调这种训练方式相结合,提出了一系列Transformer模型结构、训练方式的改进(比如transformer-xl,XLnet,Roberta等等)。入下图所示,各类Transformer的改进不断涌现。 +Language Understanding](https://arxiv.org/pdf/1810.04805.pdf)使用Transformer模型结构进行大规模语言模型(language model)预训练(Pre-train),再在多个NLP下游(downstream)任务中进行微调(Finetune),一举刷新了各大NLP任务的榜单最高分,轰动一时。2019年-2021年,研究人员将Transformer这种模型结构和预训练+微调这种训练方式相结合,提出了一系列Transformer模型结构、训练方式的改进(比如transformer-xl,XLnet,Roberta等等)。如下图所示,各类Transformer的改进不断涌现。 ![放在一起](./pictures/1-x-formers.png)图:各类Transformer改进,来源:[A Survey of Transformers](https://arxiv.org/pdf/2106.04554.pdf) diff --git a/docs/篇章2-Transformer相关原理/2.2-图解transformer.md b/docs/篇章2-Transformer相关原理/2.2-图解transformer.md index 0117159..78fd189 100644 --- a/docs/篇章2-Transformer相关原理/2.2-图解transformer.md +++ b/docs/篇章2-Transformer相关原理/2.2-图解transformer.md @@ -191,7 +191,7 @@ Transformer 的论文通过增加多头注意力机制(一组注意力称为 接下来就有点麻烦了,因为前馈神经网络层接收的是 1 个矩阵(其中每行的向量表示一个词),而不是 8 个矩阵。所以我们需要一种方法,把 8 个矩阵整合为一个矩阵。 -怎么才能做到呢?我们把矩阵拼接起来,然后和另一个权重矩阵$W^Q$相乘。 +怎么才能做到呢?我们把矩阵拼接起来,然后和另一个权重矩阵$W^O$相乘。 ![整合矩阵](./pictures/2-to1.webp) 图:整合矩阵