refactor

2021-08-28 18:36:26 +08:00 · 2021-08-28 18:36:26 +08:00 · 729d28a1f7
parent 70e1ff8212
commit 729d28a1f7
1 changed files with 4 additions and 4 deletions
--- a/docs/篇章4-使用Transformers解决NLP任务/4.2-序列标注.md
+++ b/docs/篇章4-使用Transformers解决NLP任务/4.2-序列标注.md
@ -354,7 +354,7 @@ print(tokens)

 单词"Zwingmann" 和 "sheepmeat"继续被切分成了3个subtokens。

-由于标注数据通常是在word级别进行标注的，既然word还会被切分成subtokens，那么意味着我们还需要对标注数据进行subtokens的对齐。同时，由于预训练模型输入格式的要求，往往还需要加上一些特殊符号比如： `[CLS]` 和 a `[SEP]`。
+由于标注数据通常是在word级别进行标注的，既然word还会被切分成subtokens，那么意味着我们还需要对标注数据进行subtokens的对齐。同时，由于预训练模型输入格式的要求，往往还需要加上一些特殊符号比如： `[CLS]` 和  `[SEP]`。


 ```python
@ -379,7 +379,7 @@ print(tokenized_input.word_ids())



-我们可以看到，word_ids将每一个subtokens位置都对应了一个word的下标。比如第1个位置对应第0个word，然后第2、3个位置对应第1个word。特殊字符对应了NOne。有了这个list，我们就能将subtokens和words还有标注的labels对齐啦。
+我们可以看到，word_ids将每一个subtokens位置都对应了一个word的下标。比如第1个位置对应第0个word，然后第2、3个位置对应第1个word。特殊字符对应了None。有了这个list，我们就能将subtokens和words还有标注的labels对齐啦。


 ```python
@ -461,7 +461,7 @@ tokenize_and_align_labels(datasets['train'][:5])
 tokenized_datasets = datasets.map(tokenize_and_align_labels, batched=True)
 ```

-更好的是，返回的结果会自动被缓存，避免下次处理的时候重新计算（但是也要注意，如果输入有改动，可能会被缓存影响！）。datasets库函数会对输入的参数进行检测，判断是否有变化，如果没有变化就使用缓存数据，如果有变化就重新处理。但如果输入参数不变，想改变输入的时候，最好清理调这个缓存。清理的方式是使用`load_from_cache_file=False`参数。另外，上面使用到的`batched=True`这个参数是tokenizer的特点，以为这会使用多线程同时并行对输入进行处理。
+更好的是，返回的结果会自动被缓存，避免下次处理的时候重新计算（但是也要注意，如果输入有改动，可能会被缓存影响！）。datasets库函数会对输入的参数进行检测，判断是否有变化，如果没有变化就使用缓存数据，如果有变化就重新处理。但如果输入参数不变，想改变输入的时候，最好清理调这个缓存。清理的方式是使用`load_from_cache_file=False`参数。另外，上面使用到的`batched=True`这个参数是tokenizer的特点，因为这会使用多线程同时并行对输入进行处理。

 ## 微调预训练模型

@ -759,7 +759,7 @@ results



-最后别忘了，查看如何上传模型 ，上传模型到](https://huggingface.co/transformers/model_sharing.html) 到[🤗 Model Hub](https://huggingface.co/models)。随后您就可以像这个notebook一开始一样，直接用模型名字就能使用您自己上传的模型啦。
+最后别忘了，上传模型到[🤗 Model Hub](https://huggingface.co/models)（点击[这里](https://huggingface.co/transformers/model_sharing.html)来查看如何上传）。随后您就可以像这个notebook一开始一样，直接用模型名字就能使用您自己上传的模型啦。