This commit is contained in:
erenup 2021-08-28 18:36:26 +08:00
parent 70e1ff8212
commit 729d28a1f7
1 changed files with 4 additions and 4 deletions

View File

@ -354,7 +354,7 @@ print(tokens)
单词"Zwingmann" 和 "sheepmeat"继续被切分成了3个subtokens。
由于标注数据通常是在word级别进行标注的既然word还会被切分成subtokens那么意味着我们还需要对标注数据进行subtokens的对齐。同时由于预训练模型输入格式的要求往往还需要加上一些特殊符号比如 `[CLS]`a `[SEP]`
由于标注数据通常是在word级别进行标注的既然word还会被切分成subtokens那么意味着我们还需要对标注数据进行subtokens的对齐。同时由于预训练模型输入格式的要求往往还需要加上一些特殊符号比如 `[CLS]``[SEP]`
```python
@ -379,7 +379,7 @@ print(tokenized_input.word_ids())
我们可以看到word_ids将每一个subtokens位置都对应了一个word的下标。比如第1个位置对应第0个word然后第2、3个位置对应第1个word。特殊字符对应了NOne。有了这个list我们就能将subtokens和words还有标注的labels对齐啦。
我们可以看到word_ids将每一个subtokens位置都对应了一个word的下标。比如第1个位置对应第0个word然后第2、3个位置对应第1个word。特殊字符对应了None。有了这个list我们就能将subtokens和words还有标注的labels对齐啦。
```python
@ -461,7 +461,7 @@ tokenize_and_align_labels(datasets['train'][:5])
tokenized_datasets = datasets.map(tokenize_and_align_labels, batched=True)
```
更好的是返回的结果会自动被缓存避免下次处理的时候重新计算但是也要注意如果输入有改动可能会被缓存影响。datasets库函数会对输入的参数进行检测判断是否有变化如果没有变化就使用缓存数据如果有变化就重新处理。但如果输入参数不变想改变输入的时候最好清理调这个缓存。清理的方式是使用`load_from_cache_file=False`参数。另外,上面使用到的`batched=True`这个参数是tokenizer的特点为这会使用多线程同时并行对输入进行处理。
更好的是返回的结果会自动被缓存避免下次处理的时候重新计算但是也要注意如果输入有改动可能会被缓存影响。datasets库函数会对输入的参数进行检测判断是否有变化如果没有变化就使用缓存数据如果有变化就重新处理。但如果输入参数不变想改变输入的时候最好清理调这个缓存。清理的方式是使用`load_from_cache_file=False`参数。另外,上面使用到的`batched=True`这个参数是tokenizer的特点为这会使用多线程同时并行对输入进行处理。
## 微调预训练模型
@ -759,7 +759,7 @@ results
最后别忘了,查看如何上传模型 ,上传模型到](https://huggingface.co/transformers/model_sharing.html) 到[🤗 Model Hub](https://huggingface.co/models)。随后您就可以像这个notebook一开始一样直接用模型名字就能使用您自己上传的模型啦。
最后别忘了,上传模型到[🤗 Model Hub](https://huggingface.co/models)(点击[这里](https://huggingface.co/transformers/model_sharing.html)来查看如何上传)。随后您就可以像这个notebook一开始一样直接用模型名字就能使用您自己上传的模型啦。