热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Python爬完评论只会做词云?情感分析了解一下

Python实战社群Java实战社群长按识别下方二维码,按需求添加扫码关注添加客服进Python社群▲扫码关注添加客服进Java社群▲作者:叶庭云CSD

Python实战社群

Java实战社群

长按识别下方二维码,按需求添加

扫码关注添加客服

进Python社群▲

扫码关注添加客服

进Java社群

作者:叶庭云

CSDN:https://blog.csdn.net/fyfugoyfa

爬到的评论不要只做词云嘛,情感分析了解一下

一、SnowNLP 简介

SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。注意本程序都是处理的unicode编码,所以使用时请自行decode成unicode编码。

SnowNLP github地址:https://github.com/isnowfy/SnowNLP

# 安装
pip install SnowNLP

当然,我们也可以采用豆瓣源加速

pip install SnowNLP -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

二、SnowNLP 特性

简单说一下SnowNLP 的特性

  • 中文分词(Character-Based Generative Model)

  • 词性标注(TnT 3-gram 隐马)

  • 情感分析(官网没有介绍具体原理,但是指明购物类的评论的准确率较高,其实是因为它的语料库主要是购物方面的)

  • 文本分类(原理是朴素贝叶斯)

  • 转换成拼音 (Trie树实现的最大匹配)

  • 繁体转简体 (Trie树实现的最大匹配)

  • 提取文本关键词(TextRank算法)

  • 提取文本摘要(TextRank算法)

  • tf,idf

  • Tokenization(分割成句子)

  • 文本相似(BM25)

三、SnowNLP库的基本使用

from SnowNLP import SnowNLPword = u'这个姑娘真好看'
s = SnowNLP(word)
print(s.words)        # 分词
print(list(s.tags))   # 词性标注
print(s.sentiments)   # 情感分数
print(s.pinyin)       # 拼音
print(SnowNLP(u'蒹葭蒼蒼,白露為霜。所謂伊人,在水一方。').han)  # 繁体字转简体

运行结果如下:

['这个', '姑娘', '真', '好看']
[('这个', 'r'), ('姑娘', 'n'), ('真', 'd'), ('好看', 'a')]
0.9002381975487243
['zhe', 'ge', 'gu', 'niang', 'zhen', 'hao', 'kan']
蒹葭苍苍,白露为霜。所谓伊人,在水一方。

from SnowNLP import SnowNLPtext = u'''
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。
它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
自然语言处理是一门融语言学、计算机科学、数学于一体的科学。
因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,
所以它与语言学的研究有着密切的联系,但又有重要的区别。
自然语言处理并不是一般地研究自然语言,
而在于研制能有效地实现自然语言通信的计算机系统,
特别是其中的软件系统。因而它是计算机科学的一部分。
'''s = SnowNLP(text)print(s.keywords(limit=3))        # 关键词提取
print('--------------------------------')
summary = s.summary(limit=4)      # 文本概括
for i in summary:print(i)print('--------------------------------')print(s.sentences)        # 句子

运行结果如下:

['语言', '自然', '计算机']
--------------------------------
因而它是计算机科学的一部分
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向
自然语言处理是一门融语言学、计算机科学、数学于一体的科学
所以它与语言学的研究有着密切的联系
--------------------------------
['自然语言处理是计算机科学领域与人工智能领域中的一个重要方向', '它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法', '自然语言处理是一门融语言学、计算机科学、数学于一体的科学', '因此', '这一领域的研究将涉及自然语言', '即人们日常使用的语言', '所以它与语言学的研究有着密切的联系', '但又有重要的区别', '自然语言处理并不是一般地研究自然语言', '而在于研制能有效地实现自然语言通信的计算机系统', '特别是其中的软件系统', '因而它是计算机科学的一部分']Process finished with exit code 0

# 评价词语对文本的重要程度
# TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
# TF词频越大越重要,但是文中会的“的”,“你”等无意义词频很大,却信息量几乎为0,这种情况导致单纯看词频评价词语重要性是不准确的。因此加入了idf
# IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t越重要
# TF-IDF综合起来,才能准确的综合的评价一词对文本的重要性。from SnowNLP import SnowNLPs = SnowNLP([[u'这篇', u'文章', u'写得', u'不错'],[u'那篇', u'论文', u'好'],[u'这个', u'东西', u'好吃']])
print(s.tf)     # tf 意思是词频(Term Frequency)
print('---------------------------------------------------')
print(s.idf)    # idf 意思是逆文本频率指数(Inverse Document Frequency)
print('-----------------------------------------------------')
# 文本相似度
print(s.sim([u'文章']))
print(s.sim([u'好']))

运行结果如下:

[{'这篇': 1, '文章': 1, '写得': 1, '不错': 1}, {'那篇': 1, '论文': 1, '好': 1}, {'这个': 1, '东西': 1, '好吃': 1}]
---------------------------------------------------
{'这篇': 0.5108256237659907, '文章': 0.5108256237659907, '写得': 0.5108256237659907, '不错': 0.5108256237659907, '那篇': 0.5108256237659907, '论文': 0.5108256237659907, '好': 0.5108256237659907, '这个': 0.5108256237659907, '东西': 0.5108256237659907, '好吃': 0.5108256237659907}
-----------------------------------------------------
[0.4686473612532025, 0, 0]
[0, 0.5348959411162205, 0]

# 关于训练
# 现在提供训练的包括分词,词性标注,情感分析,都是用的SnowNLP库自带的原始文件 以分词为例 分词在SnowNLP/seg目录下from SnowNLP import segsentiment.train('neg.txt', 'pos.txt')
seg.save('seg.marshal')# 这样训练好的文件就保存为seg.marshal了,之后修改SnowNLP/seg/__init__.py里的data_path指向刚训练好的文件即可

四、NLP测试

1. 获取数据

URL:https://item.jd.com/100000499657.html#none

爬取部分好评、中评和差评数据,分别保存到三个txt里。

import asyncio
import aiohttp
import re
import logging
import datetimelogging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s: %(message)s')
start = datetime.datetime.now()class Spider(object):def __init__(self):# 设置最大信号量self.semaphore = asyncio.Semaphore(6)# 伪装请求头self.header = {"Host": "club.jd.com","COOKIE": "shshshfpa=c003ed54-a640-d73d-ba32-67b4db85fd3e-1594895561; shshshfpb=i5%20TzLvWAV56AeaK%20C9q5ew%3D%3D; __jdu=629096461; unpl=V2_ZzNtbUVRFkZ8DUddfRxcBGIEE1hKXhBGIQEVVnNLD1IwBkBeclRCFnQUR1JnGloUZwEZXkZcQxVFCEdkeR1ZAmYBEV1yZ0IXJQ4SXS9NVAZiChAJQAdGFnJfRFQrGlUAMFdACUtVcxZ1OEdkfBpUBG8EF1pCZ3MVfQ92ZDBMAGshQlBtQldEEXAKTlZyGGwEVwMTWUFXQxZ1DkFkMHddSGAAGlxKUEYSdThGVXoYXQVkBBVeclQ%3d; __jdv=122270672|baidu|-|organic|not set|1596847892017; areaId=0; ipLoc-djd=1-72-55653-0; PCSYCityID=CN_0_0_0; __jda=122270672.629096461.1595821561.1596847892.1597148792.3; __jdc=122270672; shshshfp=4866c0c0f31ebd5547336a334ca1ef1d; 3AB9D23F7A4B3C9B=DNFMQBTRNFJAYXVX2JODGAGXZBU3L2TIVL3I36BT56BKFQR3CNHE5ZTVA76S56HSJ2TX62VY7ZJ2TPKNIEQOE7RUGY; jwotest_product=99; shshshsID=ba4014acbd1aea969254534eef9cf0cc_5_1597149339335; __jdb=122270672.5.629096461|3.1597148792; JSESSIONID=99A8EA65B8D93A7F7E8DAEE494D345BE.s1","Connection": "keep-alive","Referer": "https://item.jd.com/4803334.html","User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36"}async def scrape(self, url):async with self.semaphore:session = aiohttp.ClientSession(headers=self.header)response = await session.get(url)result = await response.text()await session.close()return resultasync def scrape_page(self, page):# 分别手动改变score参数 score=3 score=2 score=1  爬取好评 中评 差评数据url = f'https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100000499657&score=3&sortType=6&page={page}&pageSize=10&isShadowSku=0&fold=1'text = await self.scrape(url)await self.parse(text)async def parse(self, text):# 正则匹配提取数据content = re.findall('"guid":".*?","content":"(.*?)"', text)# 保存到txtwith open('好评.txt', 'a+') as f:for con in content:f.write(con + '\n')logging.info(con)def main(self):# 爬取50页的数据scrape_index_tasks = [asyncio.ensure_future(self.scrape_page(page)) for page in range(0, 50)]loop = asyncio.get_event_loop()tasks = asyncio.gather(*scrape_index_tasks)loop.run_until_complete(tasks)if __name__ == '__main__':spider = Spider()spider.main()delta = (datetime.datetime.now() - start).total_seconds()print("用时:{:.3f}s".format(delta))

2. 处理数据

from pathlib import Path
import pandas as pd# 获取当前目录下 有好评 中评 差评数据的txt
p = Path(r'D:\python\pycharm2020\program\数据分析\中文情感分析')
review_txt = list(p.glob('**/*.txt'))
all_data = pd.DataFrame()
for item in review_txt:emotion = item.stem     # 获取文件名 除后缀的部分with Path(item).open(mode='r') as f:con = f.read().split('\n')data = pd.DataFrame({'评论内容': con, '标签': [emotion] * len(con)})all_data = all_data.append(data)all_data.to_excel('评论数据.xlsx', index=False)

3. NLP测试

from SnowNLP import SnowNLP
import pandas as pd
import re# 读取数据
df = pd.read_excel('评论数据.xlsx', encoding='utf-8')
# print(df.info())
# 去掉空值的列
df = df.dropna(axis=0)
content = df['评论内容']# 去除一些无用的字符   只提取出中文出来
content = [' '.join(re.findall('[\u4e00-\u9fa5]+', item, re.S)) for item in content]
scores = [SnowNLP(i).sentiments for i in content]
emotions = []
for i in scores:if i >&#61; 0.75:emotions.append(&#39;好评&#39;)elif 0.45 <&#61; i < 0.75:emotions.append(&#39;中评&#39;)else:emotions.append(&#39;差评&#39;)df[&#39;情感分数&#39;] &#61; scores
df[&#39;情感&#39;] &#61; emotions
df.to_excel(&#39;NLP测试后数据.xlsx&#39;)

import pandas as pddf &#61; pd.read_excel(&#39;NLP测试后数据.xlsx&#39;)
# 看准确率   通过SnowNLP情感打分 设置梯度得出的情感 好评 中评 差评 与实际标签相比较
data &#61; df[df[&#39;标签&#39;] &#61;&#61; df[&#39;情感&#39;]]
print(&#39;准确率为&#xff1a;{:.2%}&#39;.format(len(data) / len(df)))

运行结果

运行结果如下&#xff1a;
准确率为&#xff1a;71.56%Process finished with exit code 0

  • 准确率还可以&#xff0c;但还不算高&#xff0c;分析原因可能为如下方面&#xff1a;

  • 因为只是做练习、熟悉SnowNLP库的基本使用&#xff0c;通过情感打分和设置梯度来判断情感&#xff0c;没有自己构建该领域的语料库&#xff0c;如果构建了相关语料库&#xff0c;替换默认语料库&#xff0c;准确率会高很多。所以语料库是非常关键的&#xff0c;如果要正式进行文本挖掘&#xff0c;建议要构建自己的语料库。

  • 这个商品下的评论&#xff0c;中评、差评的界限比较模糊&#xff0c;每条评论的标签用的是爬取时默认标签&#xff1a;属于什么评论&#xff0c;没有人工去看&#xff0c;会有相当的误差&#xff0c;并且用于测试的数据量较小。

  • 对文本的处理也只是简单滤掉其他字符&#xff0c;提取中文。

作者&#xff1a;叶庭云
CSDN&#xff1a;https://blog.csdn.net/fyfugoyfa

本文相关源码&#43;数据下载

https://alltodata.cowtransfer.com/s/bf3dc2f3792144

程序员专栏 扫码关注填加客服 长按识别下方二维码进群

近期精彩内容推荐&#xff1a;  

 955.WLB不加班公司名单新增6家公司

 2020年10月程序员工资最新统计&#xff01;

 面试官问我创建线程有几种方式&#xff1f;我笑了

 python itchat库的使用


在看点这里好文分享给更多人↓↓


推荐阅读
  • Java 中 Writer flush()方法,示例 ... [详细]
  • 本文介绍了Java并发库中的阻塞队列(BlockingQueue)及其典型应用场景。通过具体实例,展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递,并结合线程池和原子类优化性能。 ... [详细]
  • 主要用了2个类来实现的,话不多说,直接看运行结果,然后在奉上源代码1.Index.javaimportjava.awt.Color;im ... [详细]
  • 前言--页数多了以后需要指定到某一页(只做了功能,样式没有细调)html ... [详细]
  • 本文详细介绍了Java编程语言中的核心概念和常见面试问题,包括集合类、数据结构、线程处理、Java虚拟机(JVM)、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题,帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]
  • 在金融和会计领域,准确无误地填写票据和结算凭证至关重要。这些文件不仅是支付结算和现金收付的重要依据,还直接关系到交易的安全性和准确性。本文介绍了一种使用C语言实现小写金额转换为大写金额的方法,确保数据的标准化和规范化。 ... [详细]
  • 本文探讨了如何在给定整数N的情况下,找到两个不同的整数a和b,使得它们的和最大,并且满足特定的数学条件。 ... [详细]
  • 2023年京东Android面试真题解析与经验分享
    本文由一位拥有6年Android开发经验的工程师撰写,详细解析了京东面试中常见的技术问题。涵盖引用传递、Handler机制、ListView优化、多线程控制及ANR处理等核心知识点。 ... [详细]
  • 本文作者分享了在阿里巴巴获得实习offer的经历,包括五轮面试的详细内容和经验总结。其中四轮为技术面试,一轮为HR面试,涵盖了大量的Java技术和项目实践经验。 ... [详细]
  • 本文探讨了如何通过一系列技术手段提升Spring Boot项目的并发处理能力,解决生产环境中因慢请求导致的系统性能下降问题。 ... [详细]
  • 洞态IAST Java Agent 实现AOP技术详解
    本文深入探讨了洞态IAST Java Agent如何通过AOP技术实现方法调用链和污点值传播等功能,为读者提供了详细的源码分析。 ... [详细]
  • Go 通过 Map/Filter/ForEach 等流式 API 高效处理数据
    go,通过,map,filter,foreach,等,流,式,ap ... [详细]
  • Jenkins 安装指南:Windows 平台详解
    本文详细介绍了如何在Windows平台上安装和配置Jenkins,包括安装步骤、启动方法及基本的系统配置,旨在帮助初次使用者顺利搭建持续集成环境。 ... [详细]
  • 本文详细探讨了Java中的24种设计模式及其应用,并介绍了七大面向对象设计原则。通过创建型、结构型和行为型模式的分类,帮助开发者更好地理解和应用这些模式,提升代码质量和可维护性。 ... [详细]
  • 本文深入探讨了Linux系统中网卡绑定(bonding)的七种工作模式。网卡绑定技术通过将多个物理网卡组合成一个逻辑网卡,实现网络冗余、带宽聚合和负载均衡,在生产环境中广泛应用。文章详细介绍了每种模式的特点、适用场景及配置方法。 ... [详细]
author-avatar
温倩0918
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有