自然语义处理造文本分类语料的小技巧
1.根据句式造模板生成语料。
2.里面的词语可以根据词向量计算的相似词进行替换生成新的语料。
3.可以通过语料先训练一个模型,然后再跑新的数据,然后对新的数据进行审核,进行标记。
4.新加一个类别的时候可以使用句向量计算新的类别是否跟前面的类别冲突。
5.统计各个类别语料中字和词的卡方检验找到对类别影响大的词语,可以针对性的造语料进行平衡。
6.对每一个batch进行语料平衡训练(一个batch里面语料有多个类别)
命名实体识别也可以使用前面的方法进行造语料。