From 5a81fb57f9fe686007ee6c8a00c944e33efa87c8 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E8=80=81=E5=BC=A0?= Date: Sun, 12 Sep 2021 21:42:23 +0800 Subject: [PATCH] =?UTF-8?q?Update=204.0=20=E5=9F=BA=E4=BA=8EHugging=20Face?= =?UTF-8?q?=20-Transformers=E7=9A=84=E9=A2=84=E8=AE=AD=E7=BB=83=E6=A8=A1?= =?UTF-8?q?=E5=9E=8B=E5=BE=AE=E8=B0=83.md?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- .../4.0 基于Hugging Face -Transformers的预训练模型微调.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/篇章4-使用Transformers解决NLP任务/4.0 基于Hugging Face -Transformers的预训练模型微调.md b/docs/篇章4-使用Transformers解决NLP任务/4.0 基于Hugging Face -Transformers的预训练模型微调.md index 15b7fd6..abb0e64 100644 --- a/docs/篇章4-使用Transformers解决NLP任务/4.0 基于Hugging Face -Transformers的预训练模型微调.md +++ b/docs/篇章4-使用Transformers解决NLP任务/4.0 基于Hugging Face -Transformers的预训练模型微调.md @@ -654,7 +654,7 @@ TrainingArguments参数有几十个,后面章节用到的主要有: - “step”:每个 eval_steps 完成(并记录)评估 - “epoch”:在每个 epoch 结束时进行评估。 - learning_rate (float, 可选) – AdamW 优化器学习率,defaults to 5e-5 -- weight_decay (float, 可选,默认 0) :如果不是0,就是应用于所有层的权重衰减,除了 AdamW 优化器中的所有偏差和 LayerNorm 权重。关于weight decay可参考[知乎文章](https://zhuanlan.zhihu.com/p/63982470)。 +- weight_decay (float, 可选,默认 0) :如果不是0,就是应用于所有层的权重衰减,除了 AdamW 优化器中的所有偏差和 LayerNorm 权重。关于weight decay可参考知乎文章[都9102年了,别再用Adam + L2 regularization了](https://zhuanlan.zhihu.com/p/63982470)。 - save_strategy (str 或 IntervalStrategy, 可选, 默认为 "steps") :在训练期间采用的检查点保存策略。可能的值为: - “no”:训练期间不保存 - “epoch”:在每个epoch结束时进行保存