Update 2.2-图解transformer.md

修正错别字
2021-09-15 20:49:55 +08:00 · 2021-09-15 20:49:55 +08:00 · 47daf5c0b8
parent 2b83ac11f7
commit 47daf5c0b8
1 changed files with 1 additions and 1 deletions
--- a/docs/篇章2-Transformer相关原理/2.2-图解transformer.md
+++ b/docs/篇章2-Transformer相关原理/2.2-图解transformer.md
@ -400,7 +400,7 @@ Transformer训练的时候，需要将解码器的输出和label一同送入损

 只要Transformer解码器预测了组概率，我们就可以把这组概率和正确的输出概率做对比，然后使用反向传播来调整模型的权重，使得输出的概率分布更加接近整数输出。

-那我们要怎么比较两个概率分布呢？：我们可以简单的用两组概率向量的的空间距离作为loss（向量相剑，然后求平方和，再开方），当然也可以使用交叉熵(cross-entropy)]和KL 散度(Kullback–Leibler divergence)。读者可以进一步检索阅读相关知识，损失函数的知识不在本小节展开。
+那我们要怎么比较两个概率分布呢？：我们可以简单的用两组概率向量的的空间距离作为loss（向量相减，然后求平方和，再开方），当然也可以使用交叉熵(cross-entropy)]和KL 散度(Kullback–Leibler divergence)。读者可以进一步检索阅读相关知识，损失函数的知识不在本小节展开。

 由于上面仅有一个单词的例子太简单了，我们可以再看一个复杂一点的句子。句子输入是：“je suis étudiant” ，输出是：“i am a student”。这意味着，我们的transformer模型解码器要多次输出概率分布向量：