From c2894f679f52c4c8b331db02c53cb1d5fed7a599 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=E8=80=81=E5=BC=A0?= <zhxscutdnn@gmail.com>
Date: Fri, 17 Sep 2021 00:29:11 +0800
Subject: [PATCH] =?UTF-8?q?Update=202.4-=E5=9B=BE=E8=A7=A3GPT.md?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 docs/篇章2-Transformer相关原理/2.4-图解GPT.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/docs/篇章2-Transformer相关原理/2.4-图解GPT.md b/docs/篇章2-Transformer相关原理/2.4-图解GPT.md
index ed42b95..29685db 100644
--- a/docs/篇章2-Transformer相关原理/2.4-图解GPT.md
+++ b/docs/篇章2-Transformer相关原理/2.4-图解GPT.md
@@ -232,7 +232,7 @@ Self-Attention 沿着句子中每个 token 进行处理，主要组成部分包
 
 在这一节，我们会详细介绍如何实现这一点。请注意，我们会讲解清楚每个单词都发生了什么。这就是为什么我们会展示大量的单个向量，而实际的代码实现，是通过巨大的矩阵相乘来完成的。
 
-让我们看看一个简答的Transformer，假设它一次只能处理 4 个 token。
+让我们看看一个简单的Transformer，假设它一次只能处理 4 个 token。
 
 Self-Attention 主要通过 3 个步骤来实现：