From 26d190a1950611c3fa95dfc862ac9b0fc98ab5bb Mon Sep 17 00:00:00 2001 From: erenup Date: Wed, 18 Aug 2021 00:52:54 +0800 Subject: [PATCH] fix typo --- docs/篇章2-Transformer相关原理/2.2-图解transformer.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/篇章2-Transformer相关原理/2.2-图解transformer.md b/docs/篇章2-Transformer相关原理/2.2-图解transformer.md index b6b4461..02772b3 100644 --- a/docs/篇章2-Transformer相关原理/2.2-图解transformer.md +++ b/docs/篇章2-Transformer相关原理/2.2-图解transformer.md @@ -531,7 +531,7 @@ Decoder 最终的输出是一个向量,其中每个元素是浮点数。我们 - 每个概率分布都是一个向量,长度是 vocab_size(我们的例子中,向量长度是 6,但实际中更可能是 30000 或者 50000) - 第一个概率分布中,最高概率对应的单词是 “i” - 第二个概率分布中,最高概率对应的单词是 “am” -- 以此类推,直到第 5 个概率分布中,最高概率对应的单词是 “”,表示没有下一个单词了 +- 以此类推,直到第 5 个概率分布中,最高概率对应的单词是 “\”,表示没有下一个单词了 ![概率分布](./pictures/2-target.png)