This commit is contained in:
erenup 2021-08-18 21:51:08 +08:00
parent 463b18a221
commit 2d5e217df7
1 changed files with 1 additions and 1 deletions

View File

@ -234,7 +234,7 @@ torch.nn.MultiheadAttention(embed_dim, num_heads, dropout=0.0, bias=True, add_bi
现在来解释一下,为什么 num_heads 的值需要能够被 embed_dim 整除。这是为了把词的隐向量长度平分到每一组,这样多组注意力也能够放到一个矩阵里,从而并行计算多头注意力。
例如我们前面说到8 组注意力可以得到 8 组 Z 矩阵,然后把这些矩阵拼接起来,得到最终的输出。如果最终输出的每个词的向量维度是 512那么每组注意力的向量维度应该是
例如我们前面说到8 组注意力可以得到 8 组 Z 矩阵,然后把这些矩阵拼接起来,得到最终的输出。如果最终输出的每个词的向量维度是 512那么每组注意力的向量维度应该是64
如果不能够整除,那么这些向量的长度就无法平均分配。