作者:手机用户2502939177 | 来源:互联网 | 2023-07-30 17:58
搞了3个月,终于把CRF的中文分词标注工具做好了。算法很简单,只采用常用的B、M、E、S作为标注集,特征选择采用-1、0、1、-1&0、0&-1、-1&1六种特征。训练语料采用19
搞了3个月,终于把CRF的中文分词标注工具做好了。算法很简单,只采用常用的B、M、E、S作为标注集,特征选择采用-1、0、1、-1&0、0&-1、-1&1
六种特征。训练语料采用1998年《人民日报》1月份的公开语料。
分词见效果图:

标注如下:
