Update 4.2-序列标注.ipynb
This commit is contained in:
parent
70fd51a868
commit
07baec80ce
|
@ -703,7 +703,7 @@
|
|||
"source": [
|
||||
"单词\"Zwingmann\" 和 \"sheepmeat\"继续被切分成了3个subtokens。\n",
|
||||
"\n",
|
||||
"由于标注数据通常是在word级别进行标注的,既然word还会被切分成subtokens,那么意味着我们还需要对标注数据进行subtokens的对齐。同时,由于预训练模型输入格式的要求,往往还需要加上一些特殊符号比如: `[CLS]` 和 a `[SEP]`。"
|
||||
"由于标注数据通常是在word级别进行标注的,既然word还会被切分成subtokens,那么意味着我们还需要对标注数据进行subtokens的对齐。同时,由于预训练模型输入格式的要求,往往还需要加上一些特殊符号比如: `[CLS]` 和 `[SEP]`。"
|
||||
]
|
||||
},
|
||||
{
|
||||
|
@ -773,7 +773,7 @@
|
|||
},
|
||||
"source": [
|
||||
"\n",
|
||||
"我们可以看到,word_ids将每一个subtokens位置都对应了一个word的下标。比如第1个位置对应第0个word,然后第2、3个位置对应第1个word。特殊字符对应了NOne。有了这个list,我们就能将subtokens和words还有标注的labels对齐啦。"
|
||||
"我们可以看到,word_ids将每一个subtokens位置都对应了一个word的下标。比如第1个位置对应第0个word,然后第2、3个位置对应第1个word。特殊字符对应了None。有了这个list,我们就能将subtokens和words还有标注的labels对齐啦。"
|
||||
]
|
||||
},
|
||||
{
|
||||
|
@ -937,7 +937,7 @@
|
|||
"id": "voWiw8C7IrJV"
|
||||
},
|
||||
"source": [
|
||||
"更好的是,返回的结果会自动被缓存,避免下次处理的时候重新计算(但是也要注意,如果输入有改动,可能会被缓存影响!)。datasets库函数会对输入的参数进行检测,判断是否有变化,如果没有变化就使用缓存数据,如果有变化就重新处理。但如果输入参数不变,想改变输入的时候,最好清理调这个缓存。清理的方式是使用`load_from_cache_file=False`参数。另外,上面使用到的`batched=True`这个参数是tokenizer的特点,以为这会使用多线程同时并行对输入进行处理。"
|
||||
"更好的是,返回的结果会自动被缓存,避免下次处理的时候重新计算(但是也要注意,如果输入有改动,可能会被缓存影响!)。datasets库函数会对输入的参数进行检测,判断是否有变化,如果没有变化就使用缓存数据,如果有变化就重新处理。但如果输入参数不变,想改变输入的时候,最好清理调这个缓存。清理的方式是使用`load_from_cache_file=False`参数。另外,上面使用到的`batched=True`这个参数是tokenizer的特点,因为这会使用多线程同时并行对输入进行处理。"
|
||||
]
|
||||
},
|
||||
{
|
||||
|
@ -1470,7 +1470,7 @@
|
|||
"id": "2vuvfNwpIBvB"
|
||||
},
|
||||
"source": [
|
||||
"最后别忘了,查看如何上传模型 ,上传模型到](https://huggingface.co/transformers/model_sharing.html) 到[🤗 Model Hub](https://huggingface.co/models)。随后您就可以像这个notebook一开始一样,直接用模型名字就能使用您自己上传的模型啦。\n"
|
||||
"最后别忘了,上传模型到[🤗 Model Hub](https://huggingface.co/models)(点击[这里](https://huggingface.co/transformers/model_sharing.html)来查看如何上传)。随后您就可以像这个notebook一开始一样,直接用模型名字就能使用您自己上传的模型啦。\n"
|
||||
]
|
||||
},
|
||||
{
|
||||
|
@ -1843,4 +1843,4 @@
|
|||
},
|
||||
"nbformat": 4,
|
||||
"nbformat_minor": 0
|
||||
}
|
||||
}
|
||||
|
|
Loading…
Reference in New Issue