diff --git a/docs/篇章2-Transformer相关原理/2.5-篇章小测.md b/docs/篇章2-Transformer相关原理/2.5-篇章小测.md
index d7ff8eb..b11d957 100644
--- a/docs/篇章2-Transformer相关原理/2.5-篇章小测.md
+++ b/docs/篇章2-Transformer相关原理/2.5-篇章小测.md
@@ -5,4 +5,9 @@
 * 问题4: BERT预训练时mask的比例，可以mask更大的比例吗？
 * 问题5: BERT如何进行tokenize操作？有什么好处？
 * 问题6: GPT如何进行tokenize操作？和BERT的区别是什么？
-* 问题7: BERT模型特别大，单张GPU训练仅仅只能放入1个batch的时候，怎么训练？
\ No newline at end of file
+* 问题7: BERT模型特别大，单张GPU训练仅仅只能放入1个batch的时候，怎么训练？
+* 问题8: Transformer为什么需要一个position embedding？
+* 问题9: Transformer中的残差网络结构作用是什么？
+* 问题10: BERT训练的时候mask单词的比例可以特别大（大于80%）吗？
+* 问题11: BERT预训练是如何做mask的？
+* 问题11: word2vec到BERT改进了什么？
\ No newline at end of file
diff --git a/docs/篇章3-编写一个Transformer模型：BERT/3.3-篇章小测.md b/docs/篇章3-编写一个Transformer模型：BERT/3.3-篇章小测.md
index 229fe1d..fce1162 100644
--- a/docs/篇章3-编写一个Transformer模型：BERT/3.3-篇章小测.md
+++ b/docs/篇章3-编写一个Transformer模型：BERT/3.3-篇章小测.md
@@ -1,4 +1,7 @@
 ## 篇章小测
 * 问题1: BERT训练时候的学习率learning rate如何设置?
 * 问题2: BERT模型使用哪种分词方式？
-* 问题3: 如何理解BERT模型输入的type ids？
\ No newline at end of file
+* 问题3: 如何理解BERT模型输入的type ids？
+* 问题4: Hugginface代码中的BasicTokenizer作用是？
+* 问题5: WordPiece分词的好处是什么？
+* 问题6: BERT中的warmup作用是什么？
\ No newline at end of file