当前位置: 开发笔记 > 编程语言 > 正文

python3randomlinux熵_Python计算信息熵实例

作者：PHPYeQ | 来源：互联网 | 2023-07-16 10:57

计算信息熵的公式：n是类别数，p(xi)是第i类的概率假设数据集有m行，即m个样本，每一行最后一列为该样本的标签࿰

计算信息熵的公式&＃xff1a;n是类别数&＃xff0c;p(xi)是第i类的概率

假设数据集有m行&＃xff0c;即m个样本&＃xff0c;每一行最后一列为该样本的标签&＃xff0c;计算数据集信息熵的代码如下&＃xff1a;

from math import log

def calcShannonEnt(dataSet):

numEntries &＃61; len(dataSet) # 样本数

labelCounts &＃61; {} # 该数据集每个类别的频数

for featVec in dataSet: # 对每一行样本

currentLabel &＃61; featVec[-1] # 该样本的标签

if currentLabel not in labelCounts.keys(): labelCounts[currentLabel] &＃61; 0

labelCounts[currentLabel] &＃43;&＃61; 1

shannonEnt &＃61; 0.0

for key in labelCounts:

prob &＃61; float(labelCounts[key])/numEntries # 计算p(xi)

shannonEnt -&＃61; prob * log(prob, 2) # log base 2

return shannonEnt

补充知识&＃xff1a;python 实现信息熵、条件熵、信息增益、基尼系数

我就废话不多说了&＃xff0c;大家还是直接看代码吧~

import pandas as pd

import numpy as np

import math

## 计算信息熵

def getEntropy(s):

# 找到各个不同取值出现的次数

if not isinstance(s, pd.core.series.Series):

s &＃61; pd.Series(s)

prt_ary &＃61; pd.groupby(s , by &＃61; s).count().values / float(len(s))

return -(np.log2(prt_ary) * prt_ary).sum()

## 计算条件熵: 条件s1下s2的条件熵

def getCondEntropy(s1 , s2):

d &＃61; dict()

for i in list(range(len(s1))):

d[s1[i]] &＃61; d.get(s1[i] , []) &＃43; [s2[i]]

return sum([getEntropy(d[k]) * len(d[k]) / float(len(s1)) for k in d])

## 计算信息增益

def getEntropyGain(s1, s2):

return getEntropy(s2) - getCondEntropy(s1, s2)

## 计算增益率

def getEntropyGainRadio(s1, s2):

return getEntropyGain(s1, s2) / getEntropy(s2)

## 衡量离散值的相关性

import math

def getDiscreteCorr(s1, s2):

return getEntropyGain(s1,s2) / math.sqrt(getEntropy(s1) * getEntropy(s2))

# ######## 计算概率平方和

def getProbSS(s):

if not isinstance(s, pd.core.series.Series):

s &＃61; pd.Series(s)

prt_ary &＃61; pd.groupby(s, by &＃61; s).count().values / float(len(s))

return sum(prt_ary ** 2)

######## 计算基尼系数

def getGini(s1, s2):

d &＃61; dict()

for i in list(range(len(s1))):

d[s1[i]] &＃61; d.get(s1[i] , []) &＃43; [s2[i]]

return 1-sum([getProbSS(d[k]) * len(d[k]) / float(len(s1)) for k in d])

## 对离散型变量计算相关系数&＃xff0c;并画出热力图, 返回相关性矩阵

def DiscreteCorr(C_data):

## 对离散型变量(C_data)进行相关系数的计算

C_data_column_names &＃61; C_data.columns.tolist()

## 存储C_data相关系数的矩阵

import numpy as np

dp_corr_mat &＃61; np.zeros([len(C_data_column_names) , len(C_data_column_names)])

for i in range(len(C_data_column_names)):

for j in range(len(C_data_column_names)):

# 计算两个属性之间的相关系数

temp_corr &＃61; getDiscreteCorr(C_data.iloc[:,i] , C_data.iloc[:,j])

dp_corr_mat[i][j] &＃61; temp_corr

# 画出相关系数图

fig &＃61; plt.figure()

fig.add_subplot(2,2,1)

sns.heatmap(dp_corr_mat ,vmin&＃61; - 1, vmax&＃61; 1, cmap&＃61; sns.color_palette(&＃39;RdBu&＃39; , n_colors&＃61; 128) , xticklabels&＃61; C_data_column_names , yticklabels&＃61; C_data_column_names)

return pd.DataFrame(dp_corr_mat)

if __name__ &＃61;&＃61; "__main__":

s1 &＃61; pd.Series([&＃39;X1&＃39; , &＃39;X1&＃39; , &＃39;X2&＃39; , &＃39;X2&＃39; , &＃39;X2&＃39; , &＃39;X2&＃39;])

s2 &＃61; pd.Series([&＃39;Y1&＃39; , &＃39;Y1&＃39; , &＃39;Y1&＃39; , &＃39;Y2&＃39; , &＃39;Y2&＃39; , &＃39;Y2&＃39;])

print(&＃39;CondEntropy:&＃39;,getCondEntropy(s1, s2))

print(&＃39;EntropyGain:&＃39; , getEntropyGain(s1, s2))

print(&＃39;EntropyGainRadio&＃39; , getEntropyGainRadio(s1 , s2))

print(&＃39;DiscreteCorr:&＃39; , getDiscreteCorr(s1, s1))

print(&＃39;Gini&＃39; , getGini(s1, s2))

以上这篇Python计算信息熵实例就是小编分享给大家的全部内容了&＃xff0c;希望能给大家一个参考&＃xff0c;也希望大家多多支持脚本之家。

推荐阅读

input
普通树(每个节点可以有任意数量的子节点)级序遍历

普通树(每个节点可以有任意数量的子节点)级序遍历 ... [详细]

蜡笔小新 2024-11-14 18:53:26
io
使用Tkinter构建51Ape无损音乐爬虫UI

本文介绍了如何使用Python的内置模块Tkinter来构建一个简单的用户界面，用于爬取51Ape网站上的无损音乐百度云链接。虽然Tkinter入门相对简单，但在实际开发过程中由于文档不足可能会带来一些不便。 ... [详细]

蜡笔小新 2024-11-15 10:31:11
io
Python多线程详解与示例

本文介绍了Python中的多线程编程，包括僵尸进程和孤儿进程的概念，并提供了具体的代码示例。同时，详细解释了0号进程和1号进程在系统中的作用。 ... [详细]

蜡笔小新 2024-11-14 12:47:24
input
C#实现文件的压缩与解压

2019独角兽企业重金招聘Python工程师标准一、准备工作1、下载ICSharpCode.SharpZipLib.dll文件2、项目中引用这个dll二、文件压缩与解压共用类 ... [详细]

蜡笔小新 2024-11-14 10:37:34
char
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新 2024-11-13 16:43:07
random
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
request
Python 爬虫实战：获取京东手机价格和参数

本文通过一个具体的案例，展示了如何使用 Python 爬虫技术从京东网站爬取手机的价格和参数。最近发布的 iPhone X 虽然价格昂贵，但不妨碍我们探索其他高性价比的国产手机。 ... [详细]

蜡笔小新 2024-11-17 06:52:22
spring
RocketMQ 运维监控实践指南

本文详细介绍了如何实现 RocketMQ 的运维监控，包括监控平台的搭建、常用运维命令及其具体用法。适合对 RocketMQ 监控感兴趣的读者参考。 ... [详细]

蜡笔小新 2024-11-16 13:53:02
io
C# 实现优先队列算法

优先队列是一种特殊的队列，不遵循先进先出原则。它分为最大优先队列和最小优先队列。最大优先队列总是将当前最大的元素优先出队，而最小优先队列则总是将当前最小的元素优先出队。本文将详细介绍如何使用二叉堆在C#中实现这两种优先队列。 ... [详细]

蜡笔小新 2024-11-16 13:26:52
version
ipsec 加密流程（二）：ipsec初始化操作

《openswan》专栏系列文章主要是记录openswan源码学习过程中的笔记。Author:叨陪鲤Email:vip_13031075266163.comDate:2020.1 ... [详细]

蜡笔小新 2024-11-15 20:32:44
plugins
解决Jenkins编译过程中ERROR: Failed to Parse POMs的问题

在使用Jenkins进行自动化构建时，有时会遇到“ERROR: Failed to parse POMs”的错误。本文将详细分析该问题的原因，并提供有效的解决方案。 ... [详细]

蜡笔小新 2024-11-15 18:17:00
io
C语言中如何使用beep函数及音调控制

本文介绍了如何在Linux和Windows环境中使用C语言中的beep函数来生成不同频率的声音，并提供了详细的代码示例和解释。 ... [详细]

蜡笔小新 2024-11-15 16:15:36
char
【数据结构】线段数/segment tree/interval tree

【线段树】　　本质是二叉树，每个节点表示一个区间[L,R]，设m(R-L+1)2(该处结果向下取整)左孩子区间为[L，m]，右孩子区间为[m ... [详细]

蜡笔小新 2024-11-14 23:11:47
search
python模块之正则

re模块可以读懂你写的正则表达式根据你写的表达式去执行任务用re去操作正则正则表达式使用一些规则来检测一些字符串是否符合个人要求，从一段字符串中找到符合要求的内容。在 ... [详细]

蜡笔小新 2024-11-14 15:52:38
random
pytorch(一)：torch构建数据集并训练一个神经网络

目录预备知识导包构建数据集神经网络结构训练测试精度可视化计算模型精度损失可视化输出网络结构信息训练神经网络定义参数载入数据载入神经网络结构、损失及优化训练及测试损失、精度可视化qu ... [详细]

蜡笔小新 2024-11-14 13:06:38

PHPYeQ

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章