From 47daf5c0b8fc4b6e98c5d93144d3bdd54b78a814 Mon Sep 17 00:00:00 2001 From: luzixiao <1461349565@qq.com> Date: Wed, 15 Sep 2021 20:49:55 +0800 Subject: [PATCH] =?UTF-8?q?Update=202.2-=E5=9B=BE=E8=A7=A3transformer.md?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit 修正错别字 --- docs/篇章2-Transformer相关原理/2.2-图解transformer.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/篇章2-Transformer相关原理/2.2-图解transformer.md b/docs/篇章2-Transformer相关原理/2.2-图解transformer.md index 872635f..0f39ed4 100644 --- a/docs/篇章2-Transformer相关原理/2.2-图解transformer.md +++ b/docs/篇章2-Transformer相关原理/2.2-图解transformer.md @@ -400,7 +400,7 @@ Transformer训练的时候,需要将解码器的输出和label一同送入损 只要Transformer解码器预测了组概率,我们就可以把这组概率和正确的输出概率做对比,然后使用反向传播来调整模型的权重,使得输出的概率分布更加接近整数输出。 -那我们要怎么比较两个概率分布呢?:我们可以简单的用两组概率向量的的空间距离作为loss(向量相剑,然后求平方和,再开方),当然也可以使用交叉熵(cross-entropy)]和KL 散度(Kullback–Leibler divergence)。读者可以进一步检索阅读相关知识,损失函数的知识不在本小节展开。 +那我们要怎么比较两个概率分布呢?:我们可以简单的用两组概率向量的的空间距离作为loss(向量相减,然后求平方和,再开方),当然也可以使用交叉熵(cross-entropy)]和KL 散度(Kullback–Leibler divergence)。读者可以进一步检索阅读相关知识,损失函数的知识不在本小节展开。 由于上面仅有一个单词的例子太简单了,我们可以再看一个复杂一点的句子。句子输入是:“je suis étudiant” ,输出是:“i am a student”。这意味着,我们的transformer模型解码器要多次输出概率分布向量: