1.常用步骤
2.中文分词
1)这是相对于英文文本情感分析,中文独有的预处理。 2)常用方法:基于词典、基于规则、基于统计、基于字标注、基于人工智能。 3)常用工具:哈工大—语言云、东北大学NiuTrans统计机器翻译系统、中科院张华平博士ICTCLAS、波森科技、结巴分词、Ansj分词,HanLP。
1)这是相对于英文文本情感分析,中文独有的预处理。
2)常用方法:基于词典、基于规则、基于统计、基于字标注、基于人工智能。
3)常用工具:哈工大—语言云、东北大学NiuTrans统计机器翻译系统、中科院张华平博士ICTCLAS、波森科技、结巴分词、Ansj分词,HanLP。
3.特征提取
1)文本中拿什么作为特征。 2)常用方法:根据词性(adj、adv、v)、单词进行组合(unigram、bigram)、位置。 3)使用词的组合表示文本,两种方式:词出现与否、词出现的次数。
1)文本中拿什么作为特征。
2)常用方法:根据词性(adj、adv、v)、单词进行组合(unigram、bigram)、位置。
3)使用词的组合表示文本,两种方式:词出现与否、词出现的次数。
4.特征选择
1)选择哪些特征,如果把所有的特征都作为特征计算,那计算量非常大,高维稀疏矩阵。 2)常用方法:去停用词,卡方,互信息。 3)常用工具:word2vector ,doc2vec
1)选择哪些特征,如果把所有的特征都作为特征计算,那计算量非常大,高维稀疏矩阵。
2)常用方法:去停用词,卡方,互信息。
3)常用工具:word2vector ,doc2vec
1)训练、测试。 2) 常用方法:朴素贝叶斯、最大熵、svm。
1)训练、测试。
2) 常用方法:朴素贝叶斯、最大熵、svm。
6.评价指标
1)准确率
Accuracy = (TP + TN)/(TP + FN + FP + TN) 反映了分类器统对整个样本的判定能力——能将正的判定为正,负的判定为负 。
2)精确率
Precision = TP/(TP+FP) 反映了被分类器判定的正例中真正的正例样本的比重
3)召回率
Recall = TP/(TP+FN) 反映了被正确判定的正例占总的正例的比重
7.可参考资料
1)中文分词基本算法介绍 2)ICTCLAS 汉语词性标注集 3)文本分类技术 4)文本分类与SVM 5)基于贝叶斯算法的文本分类算法 6)基于libsvm的中文文本分类原型 7)LDA-math-文本建模 8)情感分析资源 9)面向情感分析的特征抽取技术研究 9.1)斯坦福大学自然语言处理第七课-情感分析 10)深度学习、自然语言处理和表征方法 11)Deep Learning in NLP (一)词向量和语言模型
1)中文分词基本算法介绍
2)ICTCLAS 汉语词性标注集
3)文本分类技术
4)文本分类与SVM
5)基于贝叶斯算法的文本分类算法
6)基于libsvm的中文文本分类原型
7)LDA-math-文本建模
8)情感分析资源
9)面向情感分析的特征抽取技术研究
9.1)斯坦福大学自然语言处理第七课-情感分析
10)深度学习、自然语言处理和表征方法
11)Deep Learning in NLP (一)词向量和语言模型