Update 2.4-图解GPT.md
This commit is contained in:
parent
a961ed78d5
commit
c2894f679f
|
@ -232,7 +232,7 @@ Self-Attention 沿着句子中每个 token 进行处理,主要组成部分包
|
|||
|
||||
在这一节,我们会详细介绍如何实现这一点。请注意,我们会讲解清楚每个单词都发生了什么。这就是为什么我们会展示大量的单个向量,而实际的代码实现,是通过巨大的矩阵相乘来完成的。
|
||||
|
||||
让我们看看一个简答的Transformer,假设它一次只能处理 4 个 token。
|
||||
让我们看看一个简单的Transformer,假设它一次只能处理 4 个 token。
|
||||
|
||||
Self-Attention 主要通过 3 个步骤来实现:
|
||||
|
||||
|
|
Loading…
Reference in New Issue