diff --git a/docs/篇章2-Transformer相关原理/2.2-图解transformer.md b/docs/篇章2-Transformer相关原理/2.2-图解transformer.md index b6b4461..02772b3 100644 --- a/docs/篇章2-Transformer相关原理/2.2-图解transformer.md +++ b/docs/篇章2-Transformer相关原理/2.2-图解transformer.md @@ -531,7 +531,7 @@ Decoder 最终的输出是一个向量,其中每个元素是浮点数。我们 - 每个概率分布都是一个向量,长度是 vocab_size(我们的例子中,向量长度是 6,但实际中更可能是 30000 或者 50000) - 第一个概率分布中,最高概率对应的单词是 “i” - 第二个概率分布中,最高概率对应的单词是 “am” -- 以此类推,直到第 5 个概率分布中,最高概率对应的单词是 “”,表示没有下一个单词了 +- 以此类推,直到第 5 个概率分布中,最高概率对应的单词是 “\”,表示没有下一个单词了 ![概率分布](./pictures/2-target.png)