【ML学习笔记】朴素贝叶斯算法的demo（机器学习实战例子）

作者：玉米的跟屁虫 | 来源：互联网 | 2023-09-23 11:40

碍于这学期课程的紧迫，现在需要尽快从课本上掌握一些ML算法，我本不想经过dangerzone，现在看来却只能尽快进入dangerzone&

碍于这学期课程的紧迫&＃xff0c;现在需要尽快从课本上掌握一些ML算法&＃xff0c;我本不想经过danger zone&＃xff0c;现在看来却只能尽快进入danger zone&＃xff0c;数学理论上的缺陷只能后面找时间弥补了。

如果你在读这篇文章&＃xff0c;希望你不要走像我一样的道路&＃xff0c;此举实在是出于无奈&＃xff0c;尽量不要去做一个心急的程序员&＃xff0c;应当分清楚哪些资源是过了学生时期就不再容易获得的。

朴素贝叶斯算法简述

不同于前面说的k-近邻算法&＃xff0c;贝叶斯分类器是一种概率分类器&＃xff0c;而朴素贝叶斯则是建立在两个前提假设上的&＃xff1a;

①特征之间相互独立
②每个特征同等重要

如果要对一些对象分类&＃xff0c;如桶里有白球和黑球&＃xff0c;随机拿出一个球猜想拿出的是什么球。如果完全没有这个球的其它特征信息&＃xff0c;很难判断该猜是什么球&＃xff0c;如果通过先前的知识&＃xff0c;如先前拿出过100个球&＃xff0c;其中60个都是黑色的&＃xff0c;又不知道这个球的其它特征&＃xff0c;为了减少错误率&＃xff0c;肯定会猜这个球是黑球。这种基于标签取各个值的概率的判别方式&＃xff0c;就是在用先验概率做判别&＃xff1a;
这里写图片描述

而如果知道了一些特征&＃xff0c;如白色的球往往更粗糙(粗糙的球是白色的概率比粗糙的球是黑色的概率大)&＃xff0c;那如果摸到的是粗糙的球&＃xff0c;很显然就要判别为白色才会错误率最小了&＃xff0c;这种获得了特征以后对标签的判别&＃xff0c;就是在用后验概率做判别&＃xff1a;
这里写图片描述

如果特征只有粗糙程度这一个&＃xff0c;那么很好办&＃xff0c;如果有很多特征&＃xff0c;如大/小&＃xff0c;有缺口/无缺口&＃xff0c;重/轻…&＃xff0c;这里举的特征都只有布尔型取值即0或者1&＃xff0c;也就是在判决之前&＃xff0c;能获得n个特征信息&＃xff1a;
这里写图片描述

这时候这些特征的取值就可以组成一个向量了&＃xff1a;
这里写图片描述

而这时要做判别的方式&＃xff0c;也就是特征向量在这样的值下&＃xff0c;对象属于哪一个类的概率最高&＃xff0c;就判别为哪一类&＃xff1a;
这里写图片描述

根据贝叶斯公式&＃xff0c;对每个特征W而言&＃xff0c;在该特征取值为w时属于类Ci的概率(后验概率)可以这样计算&＃xff1a;
这里写图片描述

而对于多个特征信息的情况&＃xff0c;在这个特征向量取这样的值的情况下&＃xff0c;属于类Ci的概率(后验概率)也是一样的做法&＃xff1a;
这里写图片描述

因为最后是要拿后验概率比较大小&＃xff0c;找出最大的那个&＃xff0c;而对于已经获得的一个特征序列而言&＃xff0c;各个类在该特征下的后验概率与上式右边的分母——特征取该序列值的概率没有关系&＃xff0c;所以只要去比较分子上的类条件概率和先验概率&＃xff1a;
这里写图片描述

对于先验概率是比较容易求得的&＃xff0c;而这里的类条件概率是已知类为Ci的条件下&＃xff0c;特征向量取这个序列值的概率。

前面说了&＃xff0c;朴素贝叶斯假设特征之间是相互独立的&＃xff0c;因此特征的联合概率可以拆开来&＃xff1a;
这里写图片描述

从而在朴素贝叶斯假设下&＃xff0c;所要比较的类条件概率和类的先验概率乘积可以这样展开&＃xff1a;
这里写图片描述

在现实的情况下&＃xff0c;毕竟是用样本集中的频率去表征概率&＃xff0c;上面的式子中的某个特征的类条件概率有可能算出来是0(因为样本集总是有限的)&＃xff0c;这样乘起来整个式子就是0&＃xff0c;显然不应因为一个特征的值的出现而否决所有特征&＃xff0c;所以在实际做的时候&＃xff0c;会把每个特征的频数都初始化为1&＃xff0c;这样即便后面再也没出现过&＃xff0c;也不至于让这个频率变成0&＃xff1b;同时显然要把每个类中各个特征出现的总频数初始化为特征的数目n&＃xff0c;因为刚刚已经把每个特征的频数都初始化为1了。这是一件事。

另一件事是&＃xff0c;即便这些数相乘起来不该得到0了&＃xff0c;但是算法是在计算机上跑的&＃xff0c;概率总是<1的值&＃xff0c;太多很小的数相乘会造成下溢出。为了避免这件事&＃xff0c;对概率取对数&＃xff0c;因为对数和原来的数在相同的区域内同时增加或者减少&＃xff0c;在相同的点取到极值&＃xff0c;而我们要做的也仅仅是拿最后的概率去比较大小。对要比较大小的这块(类条件概率和先验概率的乘积)取对数得&＃xff1a;
这里写图片描述

也就是说朴素贝叶斯算法要做的事情是&＃xff1a;对每个类(标签的每种可能取值)而言&＃xff0c;对每个特征在这个类的类条件概率取对数&＃xff0c;然后全部加起来&＃xff0c;再加上该类的先验概率的对数&＃xff0c;对于所有类的这样的数&＃xff0c;去比较大小&＃xff0c;最大的那个所对应的类就成为朴素贝叶斯判别的那个类。

文本分类demo

问题描述

书上的例子是&＃xff0c;训练集给出了一个文档集合和一个标签向量。文档集合不是矩阵&＃xff0c;每一行的单词数目都不必一致。

文档集合中的每一行对应了一个文档&＃xff0c;也就是说&＃xff0c;这一行中有若干个单词&＃xff0c;或许是网上的某个论坛下的一条评论中的一些单词。

标签向量还是对应着特征矩阵中的每一行&＃xff0c;标签取值0表示那一行的言论是正当言论&＃xff0c;标签取值1表示那一行的言论是不正当的。

而要做的事情是&＃xff0c;对于给出的一个文档&＃xff0c;里面有若干个词&＃xff0c;要判别出它是正当言论还是不正当的。

①建立模块和加载数据集的函数

还是建立一个新的python模块&＃xff0c;导入必要的包&＃xff1a;

#-*-coding:utf-8-*- from numpy import * import operator from matplotlib import pyplot as plt

因为只是demo&＃xff0c;用6个样本作为样本集。直接返回文档集合和标签(实际上这不是一个矩阵&＃xff0c;每行的单词个数都不必一致)。

#加载数据集(一些实验样本) def loadDataSet():#进行词条切分后的文档集合postingList&＃61;[[&＃39;my&＃39;,&＃39;dog&＃39;,&＃39;has&＃39;,&＃39;flea&＃39;,&＃39;problems&＃39;,&＃39;help&＃39;,&＃39;please&＃39;],[&＃39;maybe&＃39;,&＃39;not&＃39;,&＃39;take&＃39;,&＃39;him&＃39;,&＃39;to&＃39;,&＃39;dog&＃39;,&＃39;park&＃39;,&＃39;stupid&＃39;],[&＃39;my&＃39;,&＃39;dalmation&＃39;,&＃39;is&＃39;,&＃39;so&＃39;,&＃39;cute&＃39;,&＃39;I&＃39;,&＃39;love&＃39;,&＃39;him&＃39;],[&＃39;stop&＃39;,&＃39;posting&＃39;,&＃39;stupid&＃39;,&＃39;worthless&＃39;,&＃39;garbage&＃39;],[&＃39;mr&＃39;,&＃39;licks&＃39;,&＃39;ate&＃39;,&＃39;my&＃39;,&＃39;steak&＃39;,&＃39;how&＃39;,&＃39;to&＃39;,&＃39;stop&＃39;,&＃39;him&＃39;],[&＃39;quit&＃39;,&＃39;buying&＃39;,&＃39;worthless&＃39;,&＃39;dog&＃39;,&＃39;food&＃39;,&＃39;stupid&＃39;]]classVec &＃61; [0,1,0,1,0,1] #标签向量:1是不正当言辞,0是正常言论return postingList,classVec #返回文档集合,和对应于每个文档的标签组成的向量

这里写图片描述

②创建词表的函数

创建词表的意义是&＃xff0c;把训练集中的所有词有序地排在一个列表中&＃xff0c;这样就为后面的词向量打下了基础。因为可以在后面用词向量的每个位置上用1或者0来代表词表中这个位置的词有没有在那个文档中出现了。

#创建一个包含输入的所有文档中的词的不重复词表 def createVocabList(dataSet):vocabSet&＃61;set([]) #先建立一个空集合vocabSet#对于数据集中的每个记录(文档集合中的每个词条)for document in dataSet:#将其打散为词的集合,然后并(|操作符)入这个集合vocabSet&＃61;vocabSet | set(document)return list(vocabSet) #返回的即是每个词出现一次的list

这里写图片描述

③建立词集模型的函数

建立词集模型&＃xff0c;也就是去建立用0/1表示不出现/出现的词向量。设定这个函数是很有用的&＃xff0c;因为在训练和使用分类器的时候都要把存了词汇的文档列表转化成和词表相关的词向量&＃xff0c;才能去做概率计算。

#[A]词集模型 #判定词汇表中的哪些词出现在文档中(词汇表vocabList,输入文档inputSet) #输出一个和词汇表等长的0/1向量,为1的位置表示词汇表中那个词在文档中出现了 def setOfWords2Vec(vocabList,inputSet):returnVec&＃61;[0]*len(vocabList) #先建立一个和词表等长的0向量#对于输入文档中的每个词for word in inputSet:#如果这个词在词汇表中if word in vocabList:#将0/1向量对应位置的值设置为1returnVec[vocabList.index(word)]&＃61;1else:print "词%s不在词表中!"%word #否则要提示出现了新词return returnVec #返回这个0/1向量

如利用前面的词表&＃xff0c;把样本集中的一行行文档转化为一行行词向量&＃xff1a;
这里写图片描述
这也就得到了特征矩阵。

④训练分类器的函数

训练分类器总是需要输入训练集的特征矩阵和标签向量&＃xff0c;在朴素贝叶斯算法中&＃xff0c;训练分类器的目的是得到每个类上每个词的类条件概率(不如把同一类的类条件概率放到一个向量里)&＃xff0c;即得到类条件概率p(w|c)向量&＃xff0c;还要知道各个类的先验概率的值&＃xff0c;因为这里是二分类问题&＃xff0c;所以只需要知道一个值就行了&＃xff0c;这里返回的是1号类的先验概率。

#朴素贝叶斯分类器的训练函数(特征矩阵,标签向量) #得到的是针对0/1类的每个词的类条件概率p(w|c)向量,和1类先验概率 #而0类的先验概率p(c0)就是1-p(c1) def TraPsBys(dataMat,labelVec):m&＃61;len(dataMat) #特征矩阵行数:样本集的样本数目n&＃61;len(dataMat[0]) #特征矩阵列数:特征数目#因为标签只有0/1故这个值是训练集中样本属于第1类的概率#即属于不正当言辞的先验概率p(c1)pClass1&＃61;sum(labelVec)/float(m)#现实改进①#当计算多个概率的乘积p(w0|c)p(w1|c)...p(wn|c)时#如果其中一个概率是0,最后的乘积也是0,为了避免这种影响#把所有词的出现次数初始化为1,分母初始化为2p0Num&＃61;ones(n) #存第0类(正常言辞)的各词出现频数向量p1Num&＃61;ones(n) #存第1类(不正言辞)的各词出现频数向量p0Denom&＃61;1.0*n #存词在第0类出现的总频数,初始化为np1Denom&＃61;1.0*n #存词在第1类出现的总频数,初始化为n#对训练集中的每个记录行,i表示其行号for i in range(m):#如果是第1类if labelVec[i]&＃61;&＃61;1:#把这行各个词出现情况加到1号类的向量上p1Num&＃43;&＃61;dataMat[i]#把这行词的总数目加到第1类频数上p1Denom&＃43;&＃61;sum(dataMat[i])#如果是第0类else:#把这行各个词出现情况加到0号类的向量上p0Num&＃43;&＃61;dataMat[i]#把这行词的总数目加到第0类频数上p0Denom&＃43;&＃61;sum(dataMat[i])#求特征的某值w出现于c类的类条件概率向量,即#P(w|c)&＃61;值w在c类中出现次数/各可能值在c类中出现总次数p0Vect&＃61;p0Num/p0Denom #第0类的各词,类条件概率密度&＃61;本词出现次数/总次数p1Vect&＃61;p1Num/p1Denom #第1类的各词,类条件概率密度&＃61;本词出现次数/总次数#现实改进②#太多很小的数相乘会下溢出,取对数来避免这种情况#对数和原来的数在相同的区域同时增减,而且在相同的点取极值#但要注意,原来数的相乘,就是取过对数数的相加p0Vect&＃61;log(p0Vect)p1Vect&＃61;log(p1Vect)#返回针对0/1类的每个词的类条件概率p(w|c)向量,和1类先验概率p(c1)return p0Vect,p1Vect,pClass1

如传入刚才的特征矩阵和标签向量&＃xff0c;这里得到的类条件概率向量是取过对数的了。而先验概率还没有取对数&＃xff0c;一方面是方便我们观察一下先验概率的取值&＃xff1b;另一方面&＃xff0c;要根据这个先验概率去计算另一类的先验概率&＃xff0c;这样暂时不取对数还是方便一些。
这里写图片描述
属于1号类的先验概率&＃xff1a;

⑤做分类用的函数

这个函数能够对输入的词向量&＃xff0c;用训练好的参数(类条件概率向量和先验概率)&＃xff0c;给出预测的结果值。

具体的做法就是&＃xff0c;对于这两个类(1号和0号类)&＃xff0c;分别把词向量表示的出现的各个特征取对数后的值全加起来&＃xff0c;再加上这一类的先验概率取对数后的值。

对于这两个类都这样做&＃xff0c;最后比较大小&＃xff0c;哪个大就输出哪个类的标号即可。

#朴素贝叶斯分类函数(要分类的词向量,0/1类条件概率向量,1类先验概率) def CsfPsBys(vec2Classify,p0Vec,p1Vec,pClass1):#因为0/1类条件概率向量在TraPsBys里取过对数了#所以类的条件概率在这里也要取一下对数p1&＃61;sum(vec2Classify*p1Vec)&＃43;log(pClass1)#同样求后验概率,第0类的先验概率p(c0)就是1-p(c1),因为是二分类问题p0&＃61;sum(vec2Classify*p0Vec)&＃43;log(1.0-pClass1)#用这两个求出来的描述后验概率的值做判别if p1>p0:return 1else:return 0

比如建立一个文档来测试一下&＃xff1a;
这里写图片描述
预测为1&＃xff0c;即预测为不正当言论。

⑥测试用的函数

一个封装好的便利函数&＃xff0c;可以用来理解整个分类器的使用流程。

#测试这个demo,封装了所有操作的函数可称为&＃39;便利函数&＃39; def TstPsBys():postingList,classVec&＃61;loadDataSet() #加载文档集合和标签向量vocabList&＃61;createVocabList(postingList) #用文档集创建不重复词表#以下要建立训练集,给出的文档集合需要转化成和词表相关的0/1向量集trainMat&＃61;[] #训练集初始化为空#对于文档集合中的每一行的文档postInDocfor postInDoc in postingList:#把这个文档用不重复词表vocabList转换成存在性的0/1向量#然后把这个表示词表上每个位置词出现情况的向量加入训练集#显然这个算法里丢失了文档中词汇的顺序信息!trainMat.append(setOfWords2Vec(vocabList,postInDoc))#用{有关词表的0/1式训练集,标签向量}做训练#得到p(w|c0)向量,p(w|c1)向量,p(c1)#即得到了类条件概率向量和先验概率,即贝叶斯公式的分子p0V,p1V,pC1&＃61;TraPsBys(trainMat,classVec)#测试①testEntry&＃61;[&＃39;love&＃39;,&＃39;my&＃39;,&＃39;dalmation&＃39;] #要分类的词向量#转化为与词表等长的0/1式存在性向量thisDoc&＃61;array(setOfWords2Vec(vocabList,testEntry))#分类并输出结果print testEntry,"分类为:",CsfPsBys(thisDoc,p0V,p1V,pC1)#测试②testEntry&＃61;[&＃39;stupid&＃39;,&＃39;garbage&＃39;]thisDoc&＃61;array(setOfWords2Vec(vocabList,testEntry))print testEntry,"分类为:",CsfPsBys(thisDoc,p0V,p1V,pC1)

这里写图片描述

⑦建立词袋模型的函数

和建立词集模型的函数功能上是类似的。因为朴素贝叶斯分类器有两种实现方式&＃xff0c;一种是基于伯努利模型实现&＃xff0c;一种是基于多项式模型实现。前者不考虑词在文档中出现的次数&＃xff0c;将没歌词的出现与否作为一个特征&＃xff0c;称为词集模型&＃xff1b;后者需要考虑词在文档中出现的次数&＃xff0c;这也就包含了更多的信息&＃xff0c;称为词袋模型。

#[B]词袋模型 #判定词汇表中的哪些词出现在文档中(词汇表vocabList,输入文档inputSet) #输出一个和词汇表等长的0/k向量,非0的位置表示词汇表中那个词在文档中出现了k次 def bagOfWords2Vec(vocabList,inputSet):returnVec&＃61;[0]*len(vocabList) #先建立一个和词表等长的0向量#对于输入文档中的每个词for word in inputSet:#如果这个词在词汇表中if word in vocabList:#将0/k向量对应位置的值加上1returnVec[vocabList.index(word)]&＃43;&＃61;1else:print "词%s不在词表中!"%word #否则要提示出现了新词return returnVec #返回这个0/k向量

这里写图片描述

推荐阅读

php
也就是|小窗_卷积的特征提取与参数计算

篇首语：本文由编程笔记#小编为大家整理，主要介绍了卷积的特征提取与参数计算相关的知识，希望对你有一定的参考价值。Dense和Conv2D根本区别在于，Den ... [详细]

蜡笔小新 2023-12-13 12:59:48
php
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
php
Open judge C16H: Magical Balls 快速幂+逆元问题解析

本文主要解析了Open judge C16H问题中涉及到的Magical Balls的快速幂和逆元算法，并给出了问题的解析和解决方法。详细介绍了问题的背景和规则，并给出了相应的算法解析和实现步骤。通过本文的解析，读者可以更好地理解和解决Open judge C16H问题中的Magical Balls部分。 ... [详细]

蜡笔小新 2023-12-14 12:03:27
ip
Perl的测试框架Test::Base简介及使用方法

本文介绍了Perl的测试框架Test::Base，它是一个数据驱动的测试框架，可以自动进行单元测试，省去手工编写测试程序的麻烦。与Test::More完全兼容，使用方法简单。以plural函数为例，展示了Test::Base的使用方法。 ... [详细]

蜡笔小新 2023-12-13 20:05:31
ip
推荐系统遇上深度学习(十七）详解推荐系统中的常用评测指标

原创：石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人，希望在平日的工作学习中，挖掘数据的价值， ... [详细]

蜡笔小新 2023-12-13 19:35:25
ip
java 模拟get post请求_Java后台模拟发送http的get和post请求，并测试

个人学习使用：谨慎参考1Client类importcom.thoughtworks.gauge.Step;importcom.thoughtworks.gauge.T ... [详细]

蜡笔小新 2023-12-13 14:20:23
数组
关于Linq to sql 实现模糊查询 string数组

前景：当UI一个查询条件为多项选择，或录入多个条件的时候，比如查询所有名称里面包含以下动态条件，需要模糊查询里面每一项时比如是这样一个数组条件：newstring[]{兴业银行, ... [详细]

蜡笔小新 2023-12-13 09:34:59
数组
3.223.28周学习总结中的贪心作业收获及困惑

本文是对3.223.28周学习总结中的贪心作业进行总结，作者在解题过程中参考了他人的代码，但前提是要先理解题目并有解题思路。作者分享了自己在贪心作业中的收获，同时提到了一道让他困惑的题目，即input details部分引发的疑惑。 ... [详细]

蜡笔小新 2023-12-13 03:42:02
数组
Swing组件及其用法，图标接口的定义和创建方法

本文介绍了Swing组件的用法，重点讲解了图标接口的定义和创建方法。图标接口用来将图标与各种组件相关联，可以是简单的绘画或使用磁盘上的GIF格式图像。文章详细介绍了图标接口的属性和绘制方法，并给出了一个菱形图标的实现示例。该示例可以配置图标的尺寸、颜色和填充状态。 ... [详细]

蜡笔小新 2023-12-11 21:03:59
spring
Spark实现高斯朴素贝叶斯模型的低配版

本文介绍了使用Spark实现低配版高斯朴素贝叶斯模型的原因和原理。随着数据量的增大，单机上运行高斯朴素贝叶斯模型会变得很慢，因此考虑使用Spark来加速运行。然而，Spark的MLlib并没有实现高斯朴素贝叶斯模型，因此需要自己动手实现。文章还介绍了朴素贝叶斯的原理和公式，并对具有多个特征和类别的模型进行了讨论。最后，作者总结了实现低配版高斯朴素贝叶斯模型的步骤。 ... [详细]

蜡笔小新 2023-12-10 21:42:37
ip
logistic回归（线性和非线性）的开发笔记

本文由编程笔记#小编为大家整理，主要介绍了logistic回归（线性和非线性）相关的知识，包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-14 21:40:43
ip
VB.NET在线急等问题解决方法，如何统计数据库字段下的数据并显示在文本框里？

本文介绍了一个在线急等问题解决方法，即如何统计数据库中某个字段下的所有数据，并将结果显示在文本框里。作者提到了自己是一个菜鸟，希望能够得到帮助。作者使用的是ACCESS数据库，并且给出了一个例子，希望得到的结果是560。作者还提到自己已经尝试了使用"select sum(字段2) from 表名"的语句，得到的结果是650，但不知道如何得到560。希望能够得到解决方案。 ... [详细]

蜡笔小新 2023-12-13 15:15:30
ip
Support Paged.JS for automatic hugo resume> PDF conversion.

FeatureRequestIsyourfeaturerequestrelatedtoaproblem?Please ... [详细]

蜡笔小新 2023-12-13 11:52:05
ip
如何更高效地使用IF函数来获取输出列表

本文讨论了如何使用IF函数从基于有限输入列表的有限输出列表中获取输出，并提出了是否有更快/更有效的执行代码的方法。作者希望了解是否有办法缩短代码，并从自我开发的角度来看是否有更好的方法。提供的代码可以按原样工作，但作者想知道是否有更好的方法来执行这样的任务。 ... [详细]

蜡笔小新 2023-12-12 17:32:28
ip
hdu 5439（找规律）的数列求和问题

本文讨论了一个数列求和问题，该数列按照一定规律生成。通过观察数列的规律，我们可以得出求解该问题的算法。具体算法为计算前n项i*f[i]的和，其中f[i]表示数列中有i个数字。根据参考的思路，我们可以将算法的时间复杂度控制在O(n)，即计算到5e5即可满足1e9的要求。 ... [详细]

蜡笔小新 2023-12-12 14:05:58

玉米的跟屁虫

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章