最近接触一个翻译系统的项目,里面的记忆库使用到了lucene,因此需要对要翻译的文本进行分词,
如果要翻译的源语言是英文,采用英文分词器
优点:支持中文采用的方法为单字切分。他会将词汇单元转换成小写形式,并去除停用词和标点符号。
如果要翻译的源语言是中文,采用中文分词器
网上百度了很多,但是都没有文章能具体说明两者的优缺点,两者的分词效果怎么样?几乎所有有关两者之间的区别都是类似“开源中文分词框架分词效果对比smartcn与IKanalyzer”这个标题的文章,内容都是一样的。在这里为了加深一下印象,也在这里敲一遍。
后期如果看到有更好的总结,再来这里补充........