热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

自然语言处理(NLP)——LDA模型:对电商购物评论进行情感分析

目录一、2020数学建模美赛C题简介需求评价内容提供数据二、解题思路三、LDA简介四、代码实现1.数据预处理1.1剔除无用信息1.1.1剔除掉不需要的列1.1.2找出无效评论并剔除


目录

    • 一、2020数学建模美赛C题简介
      • 需求
      • 评价内容
      • 提供数据
    • 二、解题思路
    • 三、LDA简介
    • 四、代码实现
      • 1. 数据预处理
        • 1.1剔除无用信息
          • 1.1.1 剔除掉不需要的列
          • 1.1.2 找出无效评论并剔除
        • 1.2 抽取评论
        • 1.3 词形还原
        • 1.4 去除停用词
        • 1.5 筛选词性
        • 1.3~1.5代码
      • 2. 使用LDA模型进行主题分析
    • 完整代码
    • 附录


一、2020数学建模美赛C题简介

从提供的亚马逊电商平台的商品评价数据中识别关键模式、关系、度量和参数。


需求


  1. 以此告知阳光公司在线销售策略
  2. 识别潜在的重要设计功能,以增强产品的满意度
  3. 阳光公司对数据基于时间的模式特别感兴趣

评价内容


  1. 个人评级,星级评价,1~5分
  2. 评论,文本信息
  3. 帮助评分, 其他用户对“评论”的作用的评价

提供数据

tsv格式的数据, 如下图
在这里插入图片描述


二、解题思路

使用LDA模型量化评论,再结合其他数据进行下一步数据挖掘。这里主要讨论LDA。


三、LDA简介

LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为:


  • 一篇文章以一定概率选择了某个主题
  • 这个主题以一定概率选择了某个词语得到。
  • 文档到主题服从多项式分布,主题到词服从多项式分布。
  • 每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。

应用


  • LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。

使用了词袋(bag of words)方法


  • 将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。
  • 但是词袋方法没有考虑词与词之间的顺序,这简化了问题的复杂性,同时也为模型的改进提供了契机。

四、代码实现

代码头部全局变量,方便理解后续的代码:

import re
import nltk
import pandas as pd
from nltk.corpus import stopwords
from nltk.stem.wordnet import WordNetLemmatizer
from gensim import corpora, modelsTOPIC_NUM = 1 # 主题数lmtzr = WordNetLemmatizer()m_files = [r"..\data\microwave.tsv",r"..\data\microwave_lda_1rmv_cols.tsv",r"..\data\microwave_lda_2dup_revs.tsv",r"..\data\microwave_lda_3rmv_invds.tsv",r"..\data\microwave_lda_4pos_revs.txt",r"..\data\microwave_lda_5neg_revs.txt",r"..\data\microwave_lda_6pos_rev_words.txt", # 文本进行了处理r"..\data\microwave_lda_7neg_rev_words.txt",r"..\data\microwave_lda_8pos_topic.tsv",r"..\data\microwave_lda_9neg_topic.tsv",r"..\data\microwave_lda_10pos_topic_words.txt",r"..\data\microwave_lda_11neg_topic_words.txt",r"..\data\microwave_lda_12rev_words.tsv",r"..\data\microwave_lda_13rev_score.tsv"]# 停用词集合
stop_words = set(stopwords.words('english'))
stop_words = [word for word in stop_words if word not in ['not']]
# print(stop_words)
# 自定义停用词
m_stop_words = ['would', 'br', 'microwave', 'use', 'get', 'old', 'new', 'look', 'work', 'could', 'oven','purchase', 'take', 'make', 'buy', 'go', 'come', 'say', 'not', 'bought', 'even', 'ge','also', 'ca', 'dry']
# 情感分析中重要的词性
m_tags = ['MD', 'UH', 'VB', 'VBD', 'VBG', 'VBN', 'VBP', 'VBZ', 'RP', 'RB', 'RBR', 'RBS', 'JJ', 'JJR', 'JJS']
# 正则表达式过滤特殊符号用空格符占位,双引号、单引号、句点、逗号
pat_letter = re.compile(r'[^a-zA-Z \']+')
# 还原常见缩写单词
pat_is = re.compile("(it|he|she|that|this|there|here)(\'s)", re.I)
pat_s &#61; re.compile("(?<&#61;[a-zA-Z])\&#39;s") # 找出字母后面的字母
pat_s2 &#61; re.compile("(?<&#61;s)\&#39;s?")
pat_not &#61; re.compile("(?<&#61;[a-zA-Z])n\&#39;t") # not的缩写
pat_would &#61; re.compile("(?<&#61;[a-zA-Z])\&#39;d") # would的缩写
pat_will &#61; re.compile("(?<&#61;[a-zA-Z])\&#39;ll") # will的缩写
pat_am &#61; re.compile("(?<&#61;[I|i])\&#39;m") # am的缩写
pat_are &#61; re.compile("(?<&#61;[a-zA-Z])\&#39;re") # are的缩写
pat_ve &#61; re.compile("(?<&#61;[a-zA-Z])\&#39;ve") # have的缩写

然后看下最后调用的函数代码&#xff0c;了解一下顺序:

# lda训练&#xff0c;得到主题词
def lda_step1():remove_cols() # 剔除多余列 file[0]->file[1]get_dup_revs() # 获取重复评论 file[1]->file[2]def lda_step2(): # 需要查看step1中获取的重复评论的信息invd_list &#61; [1, 2] # 无效评论的行号remvove_invds(*invd_list) # 剔除无效评论 file[1]->file[1],使用了file[2]get_pos_neg_revs() # 获取消极、积极评论 file[1]->file[4,5]def lda_step3(): # lda训练write_selected_words() # 预处理文本&#xff08;归一化&#xff0c;筛选词性&#xff0c;去停词表等) file[4]->file[6],file[5]->file[7]get_topic_words() # file[6]->file[8]->file[10],file[7]->file[9]-file[11]# lda_step1()
# lda_step2()
lda_step3()

1. 数据预处理


1.1剔除无用信息


1.1.1 剔除掉不需要的列

# 剔除冗余的列
def remove_cols():data &#61; pd.read_csv(m_files[0], sep&#61;&#39;\t&#39;, encoding&#61;&#39;utf-8&#39;)data &#61; data.drop([&#39;marketplace&#39;, &#39;product_category&#39;, &#39;product_parent&#39;, &#39;product_title&#39;], axis&#61;1) # 剔除了多列data.to_csv(m_files[1], sep&#61;&#39;\t&#39;, encoding&#61;&#39;utf-8&#39;)

1.1.2 找出无效评论并剔除

  1. 首先找到重复的评论

# 获取重复的评论
def get_dup_revs():m_df &#61; pd.read_csv(m_files[1], index_col&#61;0, sep&#61;&#39;\t&#39;, encoding&#61;&#39;utf-8&#39;)data_review &#61; m_df[&#39;review_body&#39;] # 获取评论这一列# 计算数组有哪些不同的值&#xff0c;并计算每个值有多少个重复值,原值变成了行索引dup_df &#61; pd.DataFrame(data_review.value_counts())m_review &#61; dup_df.index.values.tolist() # 获取评论值列表m_num &#61; dup_df[&#39;review_body&#39;].values.tolist() # 获取原来评论的重复值# 新建一个dfm_review_num &#61; pd.DataFrame([m_review, m_num])m_review_num &#61; pd.DataFrame(m_review_num.values.T) # 转置m_review_num.columns &#61; [&#39;review_body&#39;, &#39;num&#39;]# 筛选出重复的评论m_review_num &#61; m_review_num[m_review_num[&#39;num&#39;] > 1]m_review_num.to_csv(m_files[2], sep&#61;&#39;\t&#39;, index&#61;False, header&#61;True, encoding&#61;&#39;utf-8&#39;)# print(m_review_num)

结果:
在这里插入图片描述
2. 重复率过高的可能是系统自动评论
第一条可能为恶意评论:


I received a Danby Microwave for Christmas 2011. Less than 4 months later it stop working I called the Danby 800# and was told what to do. I did this and have not heard anything back. I have attempted numerous times with no success on getting my refund. Loss to my family of $85.00

I will never buy another Danby product or recommend one.


第二条为系统标记无效评论
其他评论较为正常
3. 剔除掉被认定为无参考意义的评论

# 去除无效评论
def remvove_invds(*invd_list): # 参数为无效评论在“重复评论”中的行号#print("remvove_invds", invd_list)m_df &#61; pd.read_csv(m_files[1], sep&#61;&#39;\t&#39;, encoding&#61;&#39;utf-8&#39;)m_invds &#61; pd.read_csv(m_files[2], sep&#61;&#39;\t&#39;, encoding&#61;&#39;utf-8&#39;)#print("m_invds",m_invds)m_invds &#61; m_invds[m_invds.index.isin(invd_list)]m_invd_revs &#61; m_invds[&#39;review_body&#39;].values.tolist()# print("m_invd_revs:" &#43; m_invd_revs)# 筛选出不在无效评论中的m_df &#61; m_df[~m_df.review_body.isin(m_invd_revs)]m_df.to_csv(m_files[3], sep&#61;&#39;\t&#39;, index&#61;False, header&#61;True, encoding&#61;&#39;utf-8&#39;)

1.2 抽取评论

抽取1,2星和4,5星的评论分别作为消极评论、积极评论的语料

# 抽取1、2,4、5星的评论
def get_pos_neg_revs():m_df &#61; pd.read_csv(m_files[3], sep&#61;&#39;\t&#39;, encoding&#61;&#39;utf-8&#39;)m_neg_df &#61; m_df[m_df.star_rating.isin([1, 2])]m_pos_df &#61; m_df[m_df.star_rating.isin([4, 5])]m_neg_revs &#61; m_neg_df[&#39;review_body&#39;]m_pos_revs &#61; m_pos_df[&#39;review_body&#39;]m_neg_revs.to_csv(m_files[5], sep&#61;&#39;\t&#39;, index&#61;False, header&#61;True, encoding&#61;&#39;utf-8&#39;)m_pos_revs.to_csv(m_files[4], sep&#61;&#39;\t&#39;, index&#61;False, header&#61;True, encoding&#61;&#39;utf-8&#39;)

1.3 词形还原

英语中同一个动词有多种形态&#xff0c;奖其还原成原形


1.4 去除停用词

去除无参考意义的词&#xff0c;如:

{&#39;to&#39;, &#39;there&#39;, &#39;nor&#39;, &#39;wouldn&#39;, &#39;shouldn&#39;, &#39;i&#39;, &#39;then&#39;, &#39;you&#39;, &#39;ain&#39;, "hasn&#39;t", &#39;she&#39;, &#39;not&#39;, &#39;such&#39;, &#39;those&#39;, &#39;so&#39;, &#39;over&#39;, &#39;the&#39;, &#39;y&#39;, &#39;d&#39;, &#39;most&#39;, &#39;m&#39;, &#39;should&#39;, &#39;both&#39;, &#39;weren&#39;, &#39;from&#39;, &#39;until&#39;, &#39;an&#39;, &#39;my&#39;, &#39;yours&#39;, &#39;in&#39;, &#39;here&#39;, &#39;them&#39;, &#39;have&#39;, &#39;didn&#39;, &#39;against&#39;, &#39;myself&#39;, &#39;of&#39;, &#39;her&#39;, &#39;had&#39;, "couldn&#39;t", "didn&#39;t", &#39;when&#39;, "should&#39;ve", &#39;is&#39;, &#39;very&#39;, "don&#39;t", &#39;has&#39;, &#39;these&#39;, &#39;will&#39;, &#39;re&#39;, &#39;now&#39;, "hadn&#39;t", &#39;were&#39;, &#39;again&#39;, &#39;same&#39;, &#39;itself&#39;, &#39;his&#39;, &#39;what&#39;, &#39;him&#39;, &#39;don&#39;, "you&#39;ll", &#39;how&#39;, &#39;couldn&#39;, &#39;other&#39;, &#39;doesn&#39;, &#39;out&#39;, &#39;no&#39;, &#39;while&#39;, &#39;your&#39;, &#39;do&#39;, &#39;this&#39;, &#39;if&#39;, "shouldn&#39;t", &#39;just&#39;, &#39;aren&#39;, &#39;shan&#39;, &#39;himself&#39;, &#39;on&#39;, &#39;further&#39;, &#39;themselves&#39;, &#39;ve&#39;, &#39;hers&#39;, &#39;t&#39;, &#39;me&#39;, &#39;s&#39;, &#39;that&#39;, &#39;and&#39;, &#39;which&#39;, &#39;or&#39;, &#39;our&#39;, "won&#39;t", &#39;above&#39;, &#39;off&#39;, &#39;we&#39;, "wasn&#39;t", "needn&#39;t", &#39;ours&#39;, &#39;who&#39;, &#39;all&#39;, &#39;wasn&#39;, &#39;through&#39;, &#39;be&#39;, &#39;ourselves&#39;, &#39;by&#39;, &#39;during&#39;, &#39;about&#39;, "mightn&#39;t", &#39;was&#39;, &#39;yourselves&#39;, &#39;before&#39;, &#39;because&#39;, &#39;ma&#39;, &#39;being&#39;, &#39;more&#39;, &#39;it&#39;, &#39;any&#39;, &#39;ll&#39;, "weren&#39;t", &#39;between&#39;, &#39;why&#39;, &#39;he&#39;, &#39;herself&#39;, &#39;whom&#39;, "wouldn&#39;t", &#39;o&#39;, "that&#39;ll", "you&#39;d", &#39;few&#39;, &#39;won&#39;, &#39;once&#39;, &#39;some&#39;, &#39;doing&#39;, "aren&#39;t", "you&#39;ve", &#39;with&#39;, &#39;under&#39;, "mustn&#39;t", &#39;too&#39;, &#39;needn&#39;, &#39;isn&#39;, &#39;yourself&#39;, "haven&#39;t", &#39;up&#39;, &#39;below&#39;, &#39;am&#39;, &#39;after&#39;, "it&#39;s", &#39;as&#39;, &#39;hadn&#39;, &#39;into&#39;, &#39;own&#39;, "you&#39;re", &#39;its&#39;, &#39;theirs&#39;, &#39;their&#39;, "isn&#39;t", "shan&#39;t", &#39;only&#39;, &#39;mightn&#39;, &#39;hasn&#39;, &#39;mustn&#39;, &#39;does&#39;, &#39;a&#39;, &#39;each&#39;, &#39;having&#39;, &#39;haven&#39;, &#39;they&#39;, "she&#39;s", &#39;at&#39;, &#39;can&#39;, &#39;but&#39;, &#39;been&#39;, &#39;did&#39;, "doesn&#39;t", &#39;down&#39;, &#39;than&#39;, &#39;are&#39;, &#39;for&#39;, &#39;where&#39;}

1.5 筛选词性

去除掉情感分析中无参考意义的词性, 保留有参考意义的词性。
有参考意义的词性&#xff1a;

m_tags &#61; [&#39;MD&#39;, &#39;UH&#39;, &#39;VB&#39;, &#39;VBD&#39;, &#39;VBG&#39;, &#39;VBN&#39;, &#39;VBP&#39;, &#39;VBZ&#39;, &#39;RP&#39;, &#39;RB&#39;, &#39;RBR&#39;, &#39;RBS&#39;, &#39;JJ&#39;, &#39;JJR&#39;, &#39;JJS&#39;]

1.3~1.5代码

# 从文本抽取单词
def extract_words(text, debug&#61;False):text &#61; replace_abbreviations(text)if debug:print(&#39;去除非字母符号:&#39;, text)m_words &#61; nltk.word_tokenize(text) # 分词if debug:print(&#39;分词:&#39;, m_words)m_word_tags &#61; nltk.pos_tag(m_words) # 获取单词词性if debug:print(&#39;获取词性:&#39;, m_word_tags)m_words &#61; [word for word, tag in m_word_tags if tag in m_tags] # 过滤词性if debug:print(&#39;过滤词性后:&#39;, m_words)m_words &#61; words_normalize(m_words) # 归一化if debug:print(&#39;归一化后:&#39;, m_words)m_words &#61; [word for word in m_words if word not in stop_words] # 过滤停词表m_words &#61; [word for word in m_words if word not in m_stop_words] # 过滤自定义停词表if debug:print(&#39;过滤停词表后:&#39;, m_words)return m_words

2. 使用LDA模型进行主题分析

抽取1,2星和4,5星的评论分别作为消极评论、积极评论的语料
分别对两份语料进行LDA训练得到主题词。

get_topics.py:

# 获取文章主题, 使用预处理后的评论文本(已经进行了归一化&#xff0c;筛选词性&#xff0c;去停词表等操作)
def get_topics2(input_file):fr &#61; open(input_file, &#39;r&#39;, encoding&#61;&#39;utf-8&#39;)words_list &#61; [] # 二维单词列表for line in fr.readlines():m_words &#61; nltk.word_tokenize(line)# m_words &#61; [word for word in m_words if word not in m_stop_words]words_list.append(m_words)# """构建词频矩阵&#xff0c;训练LDA模型"""dictionary &#61; corpora.Dictionary(words_list)# corpus[0]: [(0, 1), (1, 1), (2, 1), (3, 1), (4, 1),...]# corpus是把每条新闻ID化后的结果&#xff0c;每个元素是新闻中的每个词语&#xff0c;在字典中的ID和频率corpus &#61; [dictionary.doc2bow(words) for words in words_list] # text单篇文章lda &#61; models.LdaModel(corpus&#61;corpus, id2word&#61;dictionary, num_topics&#61;TOPIC_NUM) # lda训练topic_list &#61; lda.print_topics(TOPIC_NUM)print(len(topic_list), "个主题的单词分布为&#xff1a;\n")for topic in topic_list:print(topic)return topic_list

分析结果:

1 个主题的单词分布为&#xff1a;(积极)
(0, &#39;0.022*"great" &#43; 0.019*"well" &#43; 0.015*"small" &#43; 0.014*"good" &#43; 0.013*"easy" &#43; 0.011*"fit" &#43; 0.010*"love" &#43; 0.010*"need" &#43; 0.009*"little" &#43; 0.008*"much"&#39;)1 个主题的单词分布为&#xff1a;(消极)
(0, &#39;0.014*"replace" &#43; 0.009*"last" &#43; 0.008*"stop" &#43; 0.008*"start" &#43; 0.008*"back" &#43; 0.008*"well" &#43; 0.007*"never" &#43; 0.007*"call" &#43; 0.007*"turn" &#43; 0.007*"open"&#39;)[&#39;well&#39;, &#39;small&#39;, &#39;fit&#39;, &#39;good&#39;, &#39;great&#39;, &#39;easy&#39;, &#39;need&#39;, &#39;much&#39;, &#39;little&#39;, &#39;love&#39;][&#39;replace&#39;, &#39;well&#39;, &#39;turn&#39;, &#39;last&#39;, &#39;never&#39;, &#39;call&#39;, &#39;back&#39;, &#39;stop&#39;, &#39;open&#39;, &#39;start&#39;]

完整代码

gitee项目地址:https://gitee.com/Meloor/LDATest
文件目录:LDA/get_topics.py


附录

参考博客:https://www.jianshu.com/p/4a0bd8498561


推荐阅读
  • 探讨ChatGPT在法律和版权方面的潜在风险及影响,分析其作为内容创造工具的合法性和合规性。 ... [详细]
  • 深入浅出TensorFlow数据读写机制
    本文详细介绍TensorFlow中的数据读写操作,包括TFRecord文件的创建与读取,以及数据集(dataset)的相关概念和使用方法。 ... [详细]
  • 数据管理权威指南:《DAMA-DMBOK2 数据管理知识体系》
    本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释,构建了数据管理的总体框架,为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]
  • 本文介绍了如何使用JQuery实现省市二级联动和表单验证。首先,通过change事件监听用户选择的省份,并动态加载对应的城市列表。其次,详细讲解了使用Validation插件进行表单验证的方法,包括内置规则、自定义规则及实时验证功能。 ... [详细]
  • 深入解析:手把手教你构建决策树算法
    本文详细介绍了机器学习中广泛应用的决策树算法,通过天气数据集的实例演示了ID3和CART算法的手动推导过程。文章长度约2000字,建议阅读时间5分钟。 ... [详细]
  • 毕业设计:基于机器学习与深度学习的垃圾邮件(短信)分类算法实现
    本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程,并提供了具体的代码示例和实验结果。 ... [详细]
  • FinOps 与 Serverless 的结合:破解云成本难题
    本文探讨了如何通过 FinOps 实践优化 Serverless 应用的成本管理,提出了首个 Serverless 函数总成本估计模型,并分享了多种有效的成本优化策略。 ... [详细]
  • 尽管深度学习带来了广泛的应用前景,其训练通常需要强大的计算资源。然而,并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下(如ARM CPU)高效运行深度神经网络,特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]
  • 本文详细介绍了 org.apache.commons.io.IOCase 类中的 checkCompareTo() 方法,通过多个代码示例展示其在不同场景下的使用方法。 ... [详细]
  • 本文探讨了如何在iOS开发环境中,特别是在Xcode 6.1中,设置和应用自定义文本样式。我们将详细介绍实现方法,并提供一些实用的技巧。 ... [详细]
  • Coursera ML 机器学习
    2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]
  • Python 工具推荐 | PyHubWeekly 第二十一期:提升命令行体验的五大工具
    本期 PyHubWeekly 为大家精选了 GitHub 上五个优秀的 Python 工具,涵盖金融数据可视化、终端美化、国际化支持、图像增强和远程 Shell 环境配置。欢迎关注并参与项目。 ... [详细]
  • 本题要求在一组数中反复取出两个数相加,并将结果放回数组中,最终求出最小的总加法代价。这是一个经典的哈夫曼编码问题,利用贪心算法可以有效地解决。 ... [详细]
  • 本文旨在探讨如何利用决策树算法实现对男女性别的分类。通过引入信息熵和信息增益的概念,结合具体的数据集,详细介绍了决策树的构建过程,并展示了其在实际应用中的效果。 ... [详细]
  • 掌握Mosek矩阵运算,轻松应对优化挑战
    本篇文章继续深入探讨Mosek学习笔记系列,特别是矩阵运算部分,这对于优化问题的解决至关重要。通过本文,您将了解到如何高效地使用Mosek进行矩阵初始化、线性代数运算及约束域的设定。 ... [详细]
author-avatar
我家有13只妖孽_960
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有