中文文本情感分析：基于机器学习方法的思路

作者：手机用户2602906131 | 来源：互联网 | 2023-08-26 09:35

1.常用步骤2.中文分词1）这是相对于英文文本情感分析，中文独有的预处理。2）常用方法：基于词典、基于规则、基于统计、基于字标注、基于人工智能。3）常用工具：哈工大

1.常用步骤

2.中文分词

1）这是相对于英文文本情感分析，中文独有的预处理。

2）常用方法：基于词典、基于规则、基于统计、基于字标注、基于人工智能。

3）常用工具：哈工大—语言云、东北大学NiuTrans统计机器翻译系统、中科院张华平博士ICTCLAS、波森科技、结巴分词、Ansj分词，HanLP。

3.特征提取

1）文本中拿什么作为特征。

2）常用方法：根据词性（adj、adv、v）、单词进行组合（unigram、bigram）、位置。

3）使用词的组合表示文本，两种方式：词出现与否、词出现的次数。

4.特征选择

1）选择哪些特征，如果把所有的特征都作为特征计算，那计算量非常大，高维稀疏矩阵。

2）常用方法：去停用词，卡方，互信息。

3）常用工具：word2vector ，doc2vec

5.分类模型

1）训练、测试。

2) 常用方法：朴素贝叶斯、最大熵、svm。

6.评价指标

1）准确率

Accuracy = (TP + TN)/(TP + FN + FP + TN) 反映了分类器统对整个样本的判定能力——能将正的判定为正，负的判定为负。

2）精确率

Precision = TP/(TP+FP) 反映了被分类器判定的正例中真正的正例样本的比重

3）召回率

Recall = TP/(TP+FN) 反映了被正确判定的正例占总的正例的比重

7.可参考资料

1）中文分词基本算法介绍

2）ICTCLAS 汉语词性标注集

3）文本分类技术

4）文本分类与SVM

5）基于贝叶斯算法的文本分类算法

6）基于libsvm的中文文本分类原型

7）LDA-math-文本建模

8）情感分析资源

9）面向情感分析的特征抽取技术研究

9.1）斯坦福大学自然语言处理第七课-情感分析

10）深度学习、自然语言处理和表征方法

11）Deep Learning in NLP （一）词向量和语言模型

推荐阅读

process
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
process
顶尖AI技术人才稀缺，在校生还能追上这波浪潮吗？

作为机器学习最重要的一个分支，近年来深度学习(DeepLearning)发展势头迅猛，借助庞大的数据 ... [详细]

蜡笔小新 2023-10-12 16:30:34
process
「爆干7天7夜」入门AI人工智能学习路线一条龙，真的不能再透彻了

前言应广大粉丝要求，今天迪迦来和大家讲解一下如何去入门人工智能，也算是迪迦对自己学习人工智能这么多年的一个总结吧，本条学习路线并不会那么 ... [详细]

蜡笔小新 2023-10-16 12:17:31
process
【跨越鸿沟】学术界与工业界的GAP有多大？

来自：美团技术团队2020年7月31日，由中国图象图形学学会主办、视觉大数据专委会承办，北京智源人工智能研究院和美团协办的ECCV2020 ... [详细]

蜡笔小新 2023-10-12 16:28:53
chat
3年半巨亏242亿！商汤高估了深度学习，下错了棋？

转自：新智元三年半研发开支近70亿，累计亏损242亿。AI这门生意好像越来越不好做了。近日，商汤科技已向港交所递交IPO申请。招股书显示& ... [详细]

蜡笔小新 2023-10-17 16:41:52
char
推荐：以数据驱动的方式讲故事

直觉vs数据首先，你有思考过一个问题吗？当你的直觉与你所掌握的数据矛盾的时候，你是听从于直觉还是相信你所掌握的数据呢？201 ... [详细]

蜡笔小新 2023-10-16 17:51:26
char
干货 | 携程AI推理性能的自动化优化实践

作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品，其中性能优化组为AI模型提供全方位的优化方案，提升推理性能降低成本࿰ ... [详细]

蜡笔小新 2023-10-16 14:03:03
char
深度学习与神经网络——邱锡鹏

深度学习与神经网络——邱锡鹏-一、绪论人工智能的一个子领域神经网络：一种以（人工)）神经元为基本单元的模型深度学习：一类机器学习问题，主要解决贡献度分配问题知识结构：路线图：顶 ... [详细]

蜡笔小新 2023-10-16 05:57:42
import
机器学习之数据均衡算法种类大全+Python代码一文详解

目录前言一、为什么要做数据均衡？二、数据场景1.大数据分布不均衡2.小数据分布不均衡三、均衡算法类型1.过采样2.欠采样3.组合采样四、算法具体种类1 ... [详细]

蜡笔小新 2023-10-15 23:34:41
import
开源真香离线识别率高 Python 人脸识别系统

本文主要介绍关于python,人工智能,计算机视觉的知识点，对【开源真香离线识别率高Python人脸识别系统】和【】有兴趣的朋友可以看下由【000X000】投稿的技术文章，希望该技术和经验能帮到 ... [详细]

蜡笔小新 2023-10-14 15:43:38
import
必备核心算法神经网络通俗讲解

深度学习传统算法VS人工智能算法传统算法：都是人为去计算人工智能算法：部分人为需要做的事情交由机器去做【把更多的问题简单化】IT的发展比较高端的就是A ... [详细]

蜡笔小新 2023-10-13 13:37:46
import
聊聊中国人工智能科技产业区域竞争力分析及趋势

原文链接：聊聊中国人工智能科技产业区域竞争力分析及趋势最近看了一个关于国内AI的报告《中国新一代人工智能科技产业区域竞争力评价指数（2021ÿ ... [详细]

蜡笔小新 2023-10-13 11:56:40
import
【推荐算法】今日头条、抖音推荐算法原理全文详解！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要17分钟跟随小博主，每天进步一丢丢整理：良许Linux作 ... [详细]

蜡笔小新 2023-10-12 20:05:26
import
百度AI Studio人流密度常规赛火热进行中，快来报名！

早晨七点半。北京初秋的凉风叫醒了住在望京西的你，睁开眼睛，一想到又要为人类的信息化事业贡献满满的正能量，你不禁哼唱起那句“早晨起来 ... [详细]

蜡笔小新 2023-10-12 18:57:29
import
GPT-3发布，动动手指就能自动生成代码的神器来了！

近日，OpenAI发布了最新的NLP模型GPT-3，该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB，参数个数高达1750亿，训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站，用户只需用英语描述需求，前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年，OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型，在限定条件下以2:0完胜人类冠军。 ... [详细]

蜡笔小新 2023-12-11 11:04:43

手机用户2602906131

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章