python调包侠_python|sklearn，做一个调包侠来解决新闻文本分类问题

作者：jrvzx342841 | 来源：互联网 | 2023-07-23 10:35

本文介绍一下使用朴素贝叶斯算法来做文本分类任务。数据集是搜狗新闻数据集“corpus_6_4000”，它包含六大类新闻，每类新闻4000篇，

本文介绍一下使用朴素贝叶斯算法来做文本分类任务。

数据集是搜狗新闻数据集“corpus_6_4000”&＃xff0c;它包含六大类新闻&＃xff0c;每类新闻4000篇&＃xff0c;每篇新闻长度在几百到几千字不等。六类新闻分别是’Auto’, ‘Culture’, ‘Economy’, ‘Medicine’, ‘Military’, ‘Sports’。今天的任务就是使用监督学习算法(朴素贝叶斯)来实现文本自动分类问题。话不多说&＃xff0c;让我们开干吧&＃xff01;

1、数据探索分析和预处理

首先看看数据集是什么样的

file_dir &＃61; &＃39;./corpus_6_4000&＃39;

file_list &＃61; os.listdir(file_dir)

file_list[:5]

"""[&＃39;Auto_0.txt&＃39;, &＃39;Auto_1.txt&＃39;, &＃39;Auto_10.txt&＃39;, &＃39;Auto_100.txt&＃39;, &＃39;Auto_1000.txt&＃39;]"""

看一下文件名称&＃xff0c;从名称可以看出文件名称就是新闻的类别(标签)&＃xff0c;因此我们需要把这些标签提取出来&＃xff0c;让他们和文本组成一一对应的列表&＃xff0c;如[[doc1,label1],[doc2,label2],…]形式。

stop_word &＃61; []

with open(&＃39;stopwords_cn.txt&＃39;,&＃39;r&＃39;) as f:

for word in f.readlines():

stop_word.append(word.strip())

data_set &＃61; []

for file in file_list:

doc_label &＃61; []

file_path &＃61; file_dir &＃43; &＃39;/&＃39; &＃43; file

with open(file_path) as f:

data &＃61; f.read()

data &＃61; re.sub(&＃39;[a-zA-Z0-9]&＃43;&＃39;,&＃39;&＃39;,data.strip())

data &＃61; jieba.cut(data)

datas &＃61; [word for word in data if word not in stop_word and len(word)>1]

doc_label.append(datas)

label &＃61; file.split(&＃39;_&＃39;)[0]

doc_label.append(label)

data_set.append(doc_label)

stop_word为加载的停用词列表&＃xff0c;data_set存储新闻文档&＃xff0c;doc_label存储标签。在这里我们将文档中的数字字母都去掉了&＃xff0c;而且分词之后&＃xff0c;把单个的字也去掉了&＃xff1b;因为我觉得这些字对文档的特征表达意义不大。

接下来将数据集的顺序随机打乱&＃xff0c;并且保存下来&＃xff0c;供之后使用。

random.shuffle(data_set)

pickle.dump(data_set,open(&＃39;./data/data_set.pkl&＃39;,&＃39;wb&＃39;))

df &＃61; pd.DataFrame(data_set,columns&＃61;[&＃39;data&＃39;,&＃39;label&＃39;])

df[&＃39;label&＃39;] &＃61; df[&＃39;label&＃39;].map(map_list)

data &＃61; df[&＃39;data&＃39;].tolist()

label &＃61; df[&＃39;label&＃39;].tolist()

train_data &＃61; data[:16800]

test_data &＃61; data[16800:]

train_label &＃61; label[:16800]

test_label &＃61; label[16800:]

pickle.dump(train_data,open(&＃39;./data/train_data.pkl&＃39;,&＃39;wb&＃39;))

pickle.dump(test_data,open(&＃39;./data/test_data.pkl&＃39;,&＃39;wb&＃39;))

pickle.dump(train_label,open(&＃39;./data/train_label.pkl&＃39;,&＃39;wb&＃39;))

pickle.dump(test_label,open(&＃39;./data/test_label.pkl&＃39;,&＃39;wb&＃39;))

我将24000篇新闻的80%用于训练模型&＃xff0c;20%用于测试。

2、特征工程

老话说的好&＃xff0c;机器学习中&＃xff0c;特征的好坏决定了你的模型性能的上限&＃xff0c;而算法的好坏决定你能否逼近这个上限。因此&＃xff0c;特征工程非常重要。那么怎么对文本进行构造特征&＃xff1f;由于计算机是不能对字符串进行计算的&＃xff0c;因此我们需要将文本进行数字化&＃xff0c;也就向量化&＃xff0c;我们把每一篇新闻用一个向量表示&＃xff0c;那么怎样用向量表示呢&＃xff1f;

第一个思路是使用关键词词频&＃xff0c;也就是哪些词出现的次数多&＃xff0c;我就把他们作为关键词&＃xff0c;然后构造向量空间模型。经过对训练数据集的统计发现&＃xff1a;

[(‘中国’, 43812),

(‘一个’, 29356),

(‘市场’, 23137),

(‘汽车’, 22275),

(‘没有’, 20719),

(‘已经’, 17960),

(‘发展’, 17408),

(‘进行’, 16574),

(‘目前’, 15792),

(‘公司’, 15480),

(‘问题’, 15072),

(‘表示’, 14901),

(‘记者’, 14688),

(‘文化’, 14311),

(‘可能’, 13462),

(‘工作’, 13163),

(‘国家’, 13156),

(‘北京’, 12984),

(‘网易’, 12710),

(‘认为’, 11984),

(‘.%’, 11888),

(‘美国’, 11732),

(‘比赛’, 11615),

(‘经济’, 11422),

(‘成为’, 11016),

(‘企业’, 10861),

(‘方面’, 10685),

(‘车型’, 10465),

(‘现在’, 10403),

(‘医院’, 10308)]

我们看到有相当多高词频的词根本是对分类没有任何意义的&＃xff0c;比如”中国“&＃xff0c;”一个“&＃xff0c;”目前“等&＃xff0c;如果把词频最高的一些词作为特征去构造特征&＃xff0c;这样数据集中将有很大的噪声&＃xff0c;并且无法分类&＃xff0c;我选取了词频最高的5000个词&＃xff0c;10000个词&＃xff0c;15000个词分别作了实验&＃xff0c;准确率都只有16%左右。因此很明显&＃xff0c;选用词频构造特征完全不行。

于是我们把目光转向TF-IDF&＃xff0c;TF-IDF指词频和逆文档频率。词频计算公式如下&＃xff1a;

公式里除以文章总词数是为了消除不同文章的长短不同所带来的影响。词频也可以如下计算&＃xff1a;

逆文档频率计算公式如下&＃xff1a;

IF-IDF就是将两者相乘

TF-IDF的具体意思&＃xff0c;以及它为什么能做表示文章特征的原因&＃xff0c;参看这篇文章。

计算TF-IDF可以使用sklearn库里面的函数进行计算&＃xff0c;但是今天&＃xff0c;我自己动手实现了一下&＃xff0c;也让大家能更好的理解TF-IDF。

def make_idf_vocab(train_data):

if os.path.exists(&＃39;./data/idf.pkl&＃39;):

idf &＃61; pickle.load(open(&＃39;./data/idf.pkl&＃39;,&＃39;rb&＃39;))

vocab &＃61; pickle.load(open(&＃39;./data/vocab.pkl&＃39;,&＃39;rb&＃39;))

else:

word_to_doc &＃61; {}

idf &＃61; {}

total_doc_num &＃61; float(len(train_data))

for doc in train_data:

for word in set(doc):

if word not in word_to_doc.keys():

word_to_doc[word] &＃61; 1

else:

word_to_doc[word] &＃43;&＃61; 1

for word in word_to_doc.keys():

if word_to_doc[word] > 10:

idf[word] &＃61; np.log(total_doc_num/(word_to_doc[word]&＃43;1))

sort_idf &＃61; sorted(idf.items(),key&＃61;lambda x:x[1])

vocab &＃61; [x[0] for x in sort_idf]

pickle.dump(idf,open(&＃39;./data/idf.pkl&＃39;,&＃39;wb&＃39;))

pickle.dump(vocab,open(&＃39;./data/vocab.pkl&＃39;,&＃39;wb&＃39;))

return idf,vocab

word_to_doc字典存储每一个词在多少篇文章出现&＃xff0c;vocab存储经过idf值从大到小排序后的词的列表。本文中我将那些只在10篇及以下的新闻中出现的那些词排除掉了。

接下来实现计算文档词频的函数。

def cal_term_freq(doc):

term_freq &＃61; {}

for word in doc:

if word not in term_freq.keys():

term_freq[word] &＃61; 1

else:

term_freq[word] &＃43;&＃61; 1

for word in term_freq.keys():

term_freq[word] &＃61; term_freq[word]/float(len(doc))

return term_freq

计算单个文档的词频&＃xff0c;完全按照以上公式来的。

接下来实现构造文档特征的函数。

def make_doc_feature(vocab,idf,doc,topN):

doc_feature &＃61; [0.]*topN

vocab &＃61; vocab[:topN]

tf &＃61; cal_term_freq(doc)

for word in doc:

if word in vocab:

index &＃61; vocab.index(word)

doc_feature[index] &＃61; tf[word]*idf[word]

return doc_feature

topN确定构造多少维的特征向量&＃xff0c;维数越高&＃xff0c;包含的信息也越多&＃xff0c;但是噪声也会越多&＃xff0c;而且会增加计算难度。

将训练数据集矩阵转换成tfidf权重矩阵。

def make_tfidf(train_data,vocab,idf,topN):

tfidf_data &＃61; []

for doc in train_data:

doc_feature &＃61; make_doc_feature(vocab,idf,doc,topN)

tfidf_data.append(doc_feature)

return tfidf_data

到这里&＃xff0c;特征工程完成了&＃xff01;

3、训练模型

我先后使用了多项式朴素贝叶斯算法和K近邻算法来进行分类&＃xff0c;发现朴素贝爷效果更好&＃xff1b;这里使用多项式贝叶斯的原因是&＃xff0c;我们的tfidf特征值是0-1之间的实数&＃xff0c;是连续的&＃xff0c;而伯努利贝叶斯适合离散型的特征。

train_data &＃61; pickle.load(open(&＃39;./data/train_data.pkl&＃39;,&＃39;rb&＃39;))

train_label &＃61; pickle.load(open(&＃39;./data/train_label.pkl&＃39;,&＃39;rb&＃39;))

idf,vocab &＃61; make_idf_vocab(train_data)

tfidf_data &＃61; make_tfidf(train_data,vocab,idf,6000)

train_x &＃61; np.array(tfidf_data[:13500])

train_y &＃61; np.array(train_label[:13500])

val_x &＃61; np.array(tfidf_data[13500:])

val_y &＃61; np.array(train_label[13500:])

我使用13500个文本作为训练集&＃xff0c;剩下的3300个文本作为验证集。另外&＃xff0c;我topN取6000&＃xff0c;也就是我选6000个idf值排前的特征词来构文本造特征向量。

在验证集上准确率达到94%&＃xff0c;非常不错&＃xff0c;所以我就没有调参&＃xff0c;打算直接用这个模型去测试集上试试。

另外使用KNN的结果如下&＃xff0c;只有59%的准确率&＃xff0c;差很多。

朴素贝叶斯算法在测试集上的结果如下&＃xff1a;

和验证集上的结果差不多。

所以可以看到做文本分类时&＃xff0c;采用TF-IDF作为文本的特征效果是非常不错的。另外我们也可以采用互信息作为特征。。很晚了&＃xff0c;不说了&＃xff0c;睡觉去了。。。

推荐阅读

go
掌握DSP必备的56个核心问题，我已经将其收藏以备不时之需！

掌握DSP必备的56个核心问题，我已经将其收藏以备不时之需！ ... [详细]

蜡笔小新 2024-10-28 18:26:22
get
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
get
CentOS 7 中配置开机自动挂载 NFS 的解决方案

本文详细介绍了在 CentOS 7 系统中配置 fstab 文件以实现开机自动挂载 NFS 共享目录的方法，并解决了常见的配置失败问题。 ... [详细]

蜡笔小新 2024-11-13 12:05:24
get
Spring Boot 中配置全局文件上传路径并实现文件上传功能

本文介绍如何在 Spring Boot 项目中配置全局文件上传路径，并通过读取配置项实现文件上传功能。通过这种方式，可以更好地管理和维护文件路径。 ... [详细]

蜡笔小新 2024-11-13 11:19:38
get
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
go
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
go
window下的python安装插件

window下的python安装插件,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2024-11-12 15:14:05
get
PHP 对象生命周期与内存管理

本文详细介绍了 PHP 中对象的生命周期、内存管理和魔术方法的使用，包括对象的自动销毁、析构函数的作用以及各种魔术方法的具体应用场景。 ... [详细]

蜡笔小新 2024-11-12 13:35:26
get
开机自启动的几种方式

0x01快速自启动目录快速启动目录自启动方式源于Windows中的一个目录，这个目录一般叫启动或者Startup。位于该目录下的PE文件会在开机后进行自启动 ... [详细]

蜡笔小新 2024-11-12 11:16:30
php
MySQL 数据迁移时 .frm 文件报错问题

本文讨论了在进行 MySQL 数据迁移过程中遇到的所有 .frm 文件报错的问题，并提供了详细的解决方案和建议。 ... [详细]

蜡笔小新 2024-11-12 10:47:49
require
Mac上安装Jupyter Notebook的详细步骤与技巧

本文将详细介绍如何在Mac上安装Jupyter Notebook，并提供一些常见的问题解决方法。通过这些步骤，您将能够顺利地在Mac上运行Jupyter Notebook。 ... [详细]

蜡笔小新 2024-11-12 00:45:51
get
Python AlphaShape：基于点集估算图像区域的Alpha形状算法解析

本文探讨了基于点集估算图像区域的Alpha形状算法在Python中的应用。通过改进传统的Delaunay三角剖分方法，该算法能够生成更加灵活和精确的形状轮廓，避免了单纯使用Delaunay三角剖分时可能出现的过大三角形问题。这种“模糊Delaunay三角剖分”技术不仅提高了形状的准确性，还增强了对复杂图像区域的适应能力。 ... [详细]

蜡笔小新 2024-11-03 17:11:41
get
Python OpenCV中文指南：详解Python中调用OpenCV的方法与技巧

本文详细介绍了在 Python 中使用 OpenCV 进行图像处理的各种方法和技巧，重点讲解了腐蚀（erode）和膨胀（dilate）操作，以及开运算和闭运算的应用。腐蚀操作可以去除前景物体的边缘部分，而膨胀操作则可以扩展前景物体的边界。开运算和闭运算则是结合这两种基本操作，用于消除图像中的噪声和填充空洞，提高图像处理的效果。通过具体的代码示例和实际应用案例，读者可以深入理解这些技术在图像处理中的重要作用。 ... [详细]

蜡笔小新 2024-11-02 14:42:23
import
利用 Python 中的 Altair 库实现数据抖动的水平剥离分析

利用 Python 中的 Altair 库实现数据抖动的水平剥离分析 ... [详细]

蜡笔小新 2024-11-02 12:39:54
get
解决 Ubuntu 环境下 Hadoop 集群 SSH 密钥认证问题

本文详细介绍了在 Ubuntu 系统上搭建 Hadoop 集群时遇到的 SSH 密钥认证问题及其解决方案。通过本文，读者可以了解如何在多台虚拟机之间实现无密码 SSH 登录，从而顺利启动 Hadoop 集群。 ... [详细]

蜡笔小新 2024-11-13 09:14:02

jrvzx342841

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章