当前位置: 开发笔记 > 编程语言 > 正文

Spark贝叶斯分类算法

作者：mobiledu2502920413 | 来源：互联网 | 2024-09-28 21:04

一、贝叶斯定理数学基础我们都知道条件概率的数学公式形式为即B发生的条件下A发生的概率等于A和B同时发生的概率除以B发生的概率。根据此公式变换，得到贝叶斯公式：即贝叶斯定律是关于随机

　　一、贝叶斯定理数学基础

　　我们都知道条件概率的数学公式形式为

　　技术分享即B发生的条件下A发生的概率等于A和B同时发生的概率除以B发生的概率。

　　根据此公式变换，得到贝叶斯公式：技术分享即贝叶斯定律是关于随机事件A和B的条件概率（或边缘概率）的一则定律。通常，事件A在事件B发生的条件溪的概率，与事件B在事件A的条件下的概率是不一样的，而贝叶斯定律就是描述二者之间的关系的。

　　更进一步将贝叶斯公式进行推广，假设事件A发生的概率是由一系列的因素(A1,A2,A3,...An)决定的，则事件A的全概率公式为：

　　技术分享

　　二、朴素贝叶斯分类

　　朴素贝叶斯分类是一种十分简单的分类算法，其思想基础是：对于给定的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项就属于哪个类别。

　　假设V=(v1,v2,v3....vn)是一个待分项，而vn为V的每个特征向量；

　　 B=(b1,b2,b3...bn)是一个分类集合，bn为每个具体的分类；

　　　　如果需要测试某个Vn归属于B集合中的哪个具体分类，则需要计算P(bn|V)，即在V发生的条件下，归属于b1,b2,b3,....bn中哪个可能性最大。即：

　　　　技术分享

　　　　因此，这个问题转换成求每个待分项分配到集合中具体分类的概率是多少。而这个·具体概率的求法可以使用贝叶斯定律。

　　　　技术分享

　　　　经过变换得出：

　　　　技术分享

　　三、MLlib对应的API

　　1、贝叶斯分类伴生对象NativeBayes,原型：

object NaiveBayes extends scala.AnyRef with scala.Serializable {
  def train(input : org.apache.spark.rdd.RDD[org.apache.spark.mllib.regression.LabeledPoint]) : org.apache.spark.mllib.classification.NaiveBayesModel = { /* compiled code */ }
  def train(input : org.apache.spark.rdd.RDD[org.apache.spark.mllib.regression.LabeledPoint], lambda : scala.Double) : org.apache.spark.mllib.classification.NaiveBayesModel = { /* compiled code */ }
}

　　其主要定义了训练贝叶斯分类模型的train方法，其中input为训练样本，lambda为平滑因子参数。

　　2、train方法，其是NativeBayes对象的静态方法，根据设置的朴素贝叶斯分类参数新建朴素贝叶斯分类类，并执行run方法进行训练。

　　3、朴素贝叶斯分类类NaiveBayes,原型：

class NaiveBayes private (private var lambda : scala.Double) extends scala.AnyRef with scala.Serializable with org.apache.spark.Logging {
  def this() = { /* compiled code */ }
  def setLambda(lambda : scala.Double) : org.apache.spark.mllib.classification.NaiveBayes = { /* compiled code */ }
  def run(data : org.apache.spark.rdd.RDD[org.apache.spark.mllib.regression.LabeledPoint]) : org.apache.spark.mllib.classification.NaiveBayesModel = { /* compiled code */ }
}

　　4、run方法，该方法主要计算先验概率和条件概率。首先对所有样本数据进行聚合，以label为key，聚合同一个label的特征features，得到所有label的统计(label，features之和),然后根据label统计数据，再计算p(i),和theta(i)(j)，最后，根据类别标签列表、类别先验概率、各类别下的每个特征的条件概率生成贝叶斯模型。

　　先验概率并取对数p(i)=log(p(yi))=log((i类别的次数+平滑因子)/(总次数+类别数*平滑因子)）)

　　各个特征属性的条件概率，并取对数

　　theta(i)(j)=log(p(ai|yi))=log(sumTermFreqs(j)+平滑因子)-thetaLogDenom

　　其中，theta(i)(j)是类别i下特征j的概率，sumTermFreqs(j)是特征j出现的次数，thetaLogDenom一般分2种情况，如下：

　　　　1.多项式模型

　　　　　　thetaLogDenom=log(sumTermFreqs.values.sum+ numFeatures* lambda)

　　　　　　其中，sumTermFreqs.values.sum类别i的总数，numFeatures特征数量，lambda平滑因子

　　　　2.伯努利模型

　　　　　　thetaLogDenom=log(n+2.0*lambda)

　　5、aggregated:对所有样本进行聚合统计，统计没个类别下的每个特征值之和及次数。

　　6、pi表示各类别·的·先验概率取自然对数的值

　　7、theta表示各个特征在各个类别中的条件概率值

　　8、predict:根据模型的先验概率、条件概率，计算样本属于每个类别的概率，取最大项作为样本的类别

　　9、贝叶斯分类模型NaiveBayesModel包含参数：类别标签列表(labels)、类别先验概率(pi)、各个特征在各个类别中的条件概率(theta)。

　　四、使用示例

　　1、样本数据:

import org.apache.spark.mllib.classification.NaiveBayes
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.util.MLUtils
import org.apache.spark.{SparkConf, SparkContext}

object Bayes {
  def main(args: Array[String]): Unit = {
    val conf=new SparkConf().setAppName("BayesDemo").setMaster("local")
    val sc=new SparkContext(conf)
    //读取样本数据，此处使用自带的处理数据方式·
    val data=MLUtils.loadLabeledPoints(sc,"d://bayes.txt")
    //训练贝叶斯模型
    val model=NaiveBayes.train(data,1.0)
    //model.labels.foreach(println)
    //model.pi.foreach(println)
    val test=Vectors.dense(0,0,100)
    val res=model.predict(test)
    println(res)//输出结果为2.0
  }
}

import org.apache.log4j.{Level, Logger}
import org.apache.spark.mllib.classification.NaiveBayes
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.{SparkConf, SparkContext}

object Bayes {
  def main(args: Array[String]): Unit = {
    //创建spark对象
    val cOnf=new SparkConf().setAppName("BayesDemo").setMaster("local")
    val sc=new SparkContext(conf)
    Logger.getRootLogger.setLevel(Level.WARN)
    //读取样本数据
    val data=sc.textFile("d://bayes.txt")//读取数据
    val demo=data.map{ line=>//处理数据
      val parts=line.split(‘,‘)//分割数据·
      LabeledPoint(parts(0).toDouble,//标签数据转换
        Vectors.dense(parts(1).split(‘ ‘).map(_.toDouble)))//向量数据转换
    }
    //将样本数据分为训练样本和测试样本
    val sp=demo.randomSplit(Array(0.6,0.4),seed = 11L)//对数据进行分配
    val train=sp(0)//训练数据
    val testing=sp(1)//测试数据
    //建立贝叶斯分类模型，并进行训练
    val model=NaiveBayes.train(train,lambda = 1.0)

    //对测试样本进行测试
    val pre=testing.map(p=>(model.predict(p.features),p.label))//验证模型
    val prin=pre.take(20)
    println("prediction"+"\t"+"label")
    for(i<- 0 to prin.length-1){
      println(prin(i)._1+"\t"+prin(i)._2)
    }
　　　　val accuracy=1.0 *pre.filter(x=>x._1==x._2).count()//计算准确度

println(accuracy)

}
 }

Spark 贝叶斯分类算法

推荐阅读

header
PHP中处理HTTP头部信息的方法与技巧

本文详细介绍了在PHP中如何获取和处理HTTP头部信息，包括通过cURL获取请求头信息、使用header函数发送响应头以及获取客户端HTTP头部的方法。同时，还探讨了PHP中$_SERVER变量的使用，以获取客户端和服务器的相关信息。 ... [详细]

蜡笔小新 2024-11-24 16:12:27
version
Implementing and Testing Ext Ajax Calls with Promises

This article explores the process of integrating Promises into Ext Ajax calls for a more functional programming approach, along with detailed steps on testing these asynchronous operations. ... [详细]

蜡笔小新 2024-11-24 15:29:28
java
使用 ModelAttribute 实现页面数据自动填充

本文介绍了如何利用 Spring MVC 中的 ModelAttribute 注解，在页面跳转后自动填充表单数据。主要探讨了两种实现方法及其背后的原理。 ... [详细]

蜡笔小新 2024-11-24 12:55:24
java
为何引入jQuery UI自动完成功能后，我的列表框也受到影响？

我在尝试将组合框转换为具有自动完成功能时遇到了一个问题，即页面上的列表框也被转换成了自动完成下拉框，而不是保持原有的多选列表框形式。 ... [详细]

蜡笔小新 2024-11-24 12:02:48
bit
2023年1月28日网络安全热点

涵盖最新的网络安全动态，包括OpenSSH和WordPress的安全更新、VirtualBox提权漏洞、以及谷歌推出的新证书验证机制等内容。 ... [详细]

蜡笔小新 2024-11-24 10:29:06
default
ReactJS Onsen-UI 动作表单按钮组件详解与应用

本文详细介绍了如何在ReactJS项目中集成Onsen-UI的ActionSheetButton组件，并通过具体示例展示了其使用方法及效果。 ... [详细]

蜡笔小新 2024-11-25 13:04:57
java
Java API中文文档概览及使用指南

本文详细介绍了Java API中文文档的位置、用途及其查看方法，帮助开发者更高效地利用这一资源。 ... [详细]

蜡笔小新 2024-11-25 10:55:11
export
前端技术分享——利用Canvas绘制鼠标轨迹

作为一名前端开发者，我已经积累了Vue、React、正则表达式、算法以及小程序等方面的技能，但Canvas一直是我的盲区。因此，我在2018年为自己设定了一个新的学习目标：掌握Canvas，特别是如何使用它来创建CSS3难以实现的动态效果。 ... [详细]

蜡笔小新 2024-11-25 09:00:32
java
深入理解XSS漏洞及其防范措施

本文详细介绍了跨站脚本攻击（XSS）的基本概念、工作原理，并通过实际案例演示如何构建XSS漏洞的测试环境，以及探讨了XSS攻击的不同形式和防御策略。 ... [详细]

蜡笔小新 2024-11-24 21:14:20
char
[NOI2012]

来自FallDream的博客，未经允许，请勿转载，谢谢。一天一套noi简直了.昨天勉强做完了noi2011今天教练又丢出来一套noi ... [详细]

蜡笔小新 2024-11-24 17:13:08
java
深入理解PHP中的超全局变量与AJAX技术

本文详细介绍了PHP中的几种超全局变量，包括$GLOBAL、$_SERVER、$_POST、$_GET等，并探讨了AJAX的工作原理及其优缺点。通过具体示例，帮助读者更好地理解和应用这些技术。 ... [详细]

蜡笔小新 2024-11-24 16:35:09
java
使用jQuery与百度地图API实现地址转经纬度功能

本文详细介绍了如何利用jQuery和百度地图API将地址转换为经纬度，包括申请API密钥、页面构建及核心代码实现。 ... [详细]

蜡笔小新 2024-11-24 14:33:10
java
Docker基础入门与环境配置指南

本文介绍了Docker——一款用Go语言编写的开源应用程序容器引擎。通过Docker，用户能够将应用及其依赖打包进容器内，实现高效、轻量级的虚拟化。容器之间采用沙箱机制，确保彼此隔离且资源消耗低。 ... [详细]

蜡笔小新 2024-11-24 09:54:53
java
Struts2 必备 JAR 包汇总

本文列举了构建和运行 Struts2 应用程序所需的核心 JAR 文件，包括文件上传、日志记录、模板引擎等关键组件。 ... [详细]

蜡笔小新 2024-11-24 04:42:19
export
Vue CLI 3 项目中使用 Pre-render SPA Plugin 进行预渲染

页面预渲染适用于主要包含静态内容的页面。对于依赖大量API调用的动态页面，建议采用SSR（服务器端渲染），如Nuxt等框架。更多优化策略可参见：https://github.com/HaoChuan9421/vue-cli3-optimization ... [详细]

蜡笔小新 2024-11-23 22:19:17

mobiledu2502920413

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章