Update 2.2-图解transformer.md

修正错别字
This commit is contained in:
luzixiao 2021-09-15 20:49:55 +08:00 committed by GitHub
parent 2b83ac11f7
commit 47daf5c0b8
No known key found for this signature in database
GPG Key ID: 4AEE18F83AFDEB23
1 changed files with 1 additions and 1 deletions

View File

@ -400,7 +400,7 @@ Transformer训练的时候需要将解码器的输出和label一同送入损
只要Transformer解码器预测了组概率我们就可以把这组概率和正确的输出概率做对比然后使用反向传播来调整模型的权重使得输出的概率分布更加接近整数输出。 只要Transformer解码器预测了组概率我们就可以把这组概率和正确的输出概率做对比然后使用反向传播来调整模型的权重使得输出的概率分布更加接近整数输出。
那我们要怎么比较两个概率分布呢我们可以简单的用两组概率向量的的空间距离作为loss向量相,然后求平方和,再开方),当然也可以使用交叉熵(cross-entropy)]和KL 散度(KullbackLeibler divergence)。读者可以进一步检索阅读相关知识,损失函数的知识不在本小节展开。 那我们要怎么比较两个概率分布呢我们可以简单的用两组概率向量的的空间距离作为loss向量相,然后求平方和,再开方),当然也可以使用交叉熵(cross-entropy)]和KL 散度(KullbackLeibler divergence)。读者可以进一步检索阅读相关知识,损失函数的知识不在本小节展开。
由于上面仅有一个单词的例子太简单了我们可以再看一个复杂一点的句子。句子输入是“je suis étudiant” 输出是“i am a student”。这意味着我们的transformer模型解码器要多次输出概率分布向量 由于上面仅有一个单词的例子太简单了我们可以再看一个复杂一点的句子。句子输入是“je suis étudiant” 输出是“i am a student”。这意味着我们的transformer模型解码器要多次输出概率分布向量