热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

中文文本情感分析:基于机器学习方法的思路

1.常用步骤2.中文分词1)这是相对于英文文本情感分析,中文独有的预处理。2)常用方法:基于词典、基于规则、基于统计、基于字标注、基于人工智能。3)常用工具:哈工大

1.常用步骤


2.中文分词

1)这是相对于英文文本情感分析,中文独有的预处理。

2)常用方法:基于词典、基于规则、基于统计、基于字标注、基于人工智能。

3)常用工具:哈工大—语言云、东北大学NiuTrans统计机器翻译系统、中科院张华平博士ICTCLAS、波森科技、结巴分词、Ansj分词,HanLP。


3.特征提取

1)文本中拿什么作为特征。

2)常用方法:根据词性(adj、adv、v)、单词进行组合(unigram、bigram)、位置。

3)使用词的组合表示文本,两种方式:词出现与否、词出现的次数。


4.特征选择

1)选择哪些特征,如果把所有的特征都作为特征计算,那计算量非常大,高维稀疏矩阵。

2)常用方法:去停用词,卡方,互信息。

3)常用工具:word2vector ,doc2vec


5.分类模型

1)训练、测试。

2) 常用方法:朴素贝叶斯、最大熵、svm。


6.评价指标

1)准确率

Accuracy = (TP + TN)/(TP + FN + FP + TN) 反映了分类器统对整个样本的判定能力——能将正的判定为正,负的判定为负 。

2)精确率

Precision = TP/(TP+FP) 反映了被分类器判定的正例中真正的正例样本的比重

3)召回率

Recall = TP/(TP+FN) 反映了被正确判定的正例占总的正例的比重


7.可参考资料

1)中文分词基本算法介绍

2)ICTCLAS 汉语词性标注集

3)文本分类技术

4)文本分类与SVM

5)基于贝叶斯算法的文本分类算法

6)基于libsvm的中文文本分类原型

7)LDA-math-文本建模

8)情感分析资源

9)面向情感分析的特征抽取技术研究

9.1)斯坦福大学自然语言处理第七课-情感分析

10)深度学习、自然语言处理和表征方法

11)Deep Learning in NLP (一)词向量和语言模型





推荐阅读
author-avatar
手机用户2602906131
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有