Update ch4.1.md
更新错别字
This commit is contained in:
@@ -830,7 +830,7 @@
|
||||
- embedding如何设置维度?越大越好还是越小越好?
|
||||
|
||||
- 维度越低越粗糙,拟合能力就有限;
|
||||
- 阅读越高越细致,但是需要更多数据集才能训练,但是容易维度灾难,而且容易过拟合;
|
||||
- 维度越高越细致,但是需要更多数据集才能训练,但是容易维度灾难,而且容易过拟合;
|
||||
- 个人经验是需要结合特征的取值和分布、特征实际的业务意义、问题规模、经验参数,反复调参迭代、优化得到;
|
||||
|
||||
- transformer中计算attention除于根号d的作用
|
||||
|
||||
Reference in New Issue
Block a user