作者:mobiledu2502903113 | 来源:互联网 | 2023-06-09 17:27
1. OOV
是什么?
OOV
问题是NLP中常见的一个问题,其全称是Out-Of-Vocabulary
,下面简要的说了一下OOV
:
后来,我在其他论文中看到也有把其它类型的问题归为OOV
的,我就很纳闷儿,难道OOV
的定义都可以随便改的吗?有人是这么说的:
- 如果出现在test数据集中的词没有出现在train中,那么这就是一个
oov
2. 怎么解决?
下面说一下 Bert
中是怎么解决OOV
问题,如果一个单词不在词表中,则按照subword的方式逐个拆分token,如果连逐个token都找不到,则直接分配为[unknown]