diff --git a/docs/篇章2-Transformer相关原理/2.2-图解transformer.md b/docs/篇章2-Transformer相关原理/2.2-图解transformer.md
index b6b4461..02772b3 100644
--- a/docs/篇章2-Transformer相关原理/2.2-图解transformer.md
+++ b/docs/篇章2-Transformer相关原理/2.2-图解transformer.md
@@ -531,7 +531,7 @@ Decoder 最终的输出是一个向量，其中每个元素是浮点数。我们
 - 每个概率分布都是一个向量，长度是 vocab_size（我们的例子中，向量长度是 6，但实际中更可能是 30000 或者 50000）
 - 第一个概率分布中，最高概率对应的单词是 “i”
 - 第二个概率分布中，最高概率对应的单词是 “am”
-- 以此类推，直到第 5 个概率分布中，最高概率对应的单词是 “<eos>”，表示没有下一个单词了
+- 以此类推，直到第 5 个概率分布中，最高概率对应的单词是 “\<eos>”，表示没有下一个单词了
 
 
 ![概率分布](./pictures/2-target.png)