fix typo

2021-08-18 21:51:08 +08:00 · 2021-08-18 21:51:08 +08:00 · 2d5e217df7
parent 463b18a221
commit 2d5e217df7
1 changed files with 1 additions and 1 deletions
--- a/docs/篇章2-Transformer相关原理/2.2-图解transformer.md
+++ b/docs/篇章2-Transformer相关原理/2.2-图解transformer.md
@ -234,7 +234,7 @@ torch.nn.MultiheadAttention(embed_dim, num_heads, dropout=0.0, bias=True, add_bi

 现在来解释一下，为什么  num_heads 的值需要能够被 embed_dim 整除。这是为了把词的隐向量长度平分到每一组，这样多组注意力也能够放到一个矩阵里，从而并行计算多头注意力。

-例如，我们前面说到，8 组注意力可以得到 8 组 Z 矩阵，然后把这些矩阵拼接起来，得到最终的输出。如果最终输出的每个词的向量维度是 512，那么每组注意力的向量维度应该是 。
+例如，我们前面说到，8 组注意力可以得到 8 组 Z 矩阵，然后把这些矩阵拼接起来，得到最终的输出。如果最终输出的每个词的向量维度是 512，那么每组注意力的向量维度应该是64。

 如果不能够整除，那么这些向量的长度就无法平均分配。