热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Python–使用虹膜数据集的熊猫基础知识

Python–使用虹膜数据集的熊猫基础知识原文:https://

Python–使用虹膜数据集的熊猫基础知识

原文:https://www . geesforgeks . org/python-熊猫基础知识-使用-iris-dataset/

Python 语言是最流行的编程语言之一,因为它比其他语言更具动态性。Python 是一种简单的高级语言,也是一种用于通用编程的开源语言。它有许多开源库,熊猫就是其中之一。Pandas 是一个强大、快速、灵活的开源库,用于数据分析和数据框/数据集的操作。熊猫可以用来读写不同格式的数据,如 CSV(逗号分隔值)、txt、xls(微软 Excel)等。
在这篇文章中,你将学习 Python 中 Pandas 的各种特性,以及如何使用它来练习。
先决条件:Python 编码基础知识。
安装:
所以如果你是新手练熊猫,那么首先你应该在你的系统上安装熊猫。
进入命令提示符,以管理员身份运行。请确保您连接了互联网连接,以便在您的系统上下载并安装它。
然后输入“ pip 安装熊猫,然后按回车键。

从下载数据集【Iris . CSV】这里
Iris 数据集是数据科学的 Hello World,所以如果你已经开始了数据科学和机器学习的职业生涯,你将在这个著名的数据集上练习基本的 ML 算法。虹膜数据集包含花瓣长度、花瓣宽度、萼片长度、萼片宽度和物种类型五列。
鸢尾是一种开花植物,研究人员测量了不同鸢尾花的各种特征并进行数字化记录。

熊猫入门:
代码:导入熊猫作为 pd 在我们的代码中使用。

Python 3


import pandas as pd

代码:读取数据集“Iris.csv”。

Python 3


data = pd.read_csv("your downloaded dataset location ")

代码:用列向上显示数据集的前几行
函数 head()将显示数据集的前几行,这个函数的默认值是 5,也就是说,当没有参数给它时,它将显示前 5 行。

Python 3


data.head()

输出:

随机显示行数。
在 sample()函数中,它也会根据给定的参数显示行,但是会随机显示行。

Python 3


data.sample(10)

输出:

代码:显示列数和列名。
column()函数以列表形式打印数据集的所有列。

Python 3


data.columns

输出:

代码:显示数据集的形状。
数据集的形状意味着打印该特定数据集的总行数或条目数以及总列数或要素数。

Python 3


#The first one is the number of rows and
# the other one is the number of columns.
data.shape

输出:

代码:显示整个数据集

Python 3


print(data)

输出:

代码:切片行。
切片是指如果你想打印或处理从第 10 行到第 20 行的一组特定行。

Python 3


#data[start:end]
#start is inclusive whereas end is exclusive
print(data[10:21])
# it will print the rows from 10 to 20.
# you can also save it in a variable for further use in analysis
sliced_data=data[10:21]
print(sliced_data)

输出:

代码:仅显示特定列。
在任何数据集中,有时只需要处理特定的要素或列,因此我们可以通过以下代码来完成。

Python 3


#here in the case of Iris dataset
#we will save it in a another variable named "specific_data"
specific_data=data[["Id","Species"]]
#data[["column_name1","column_name2","column_name3"]]
#now we will print the first 10 columns of the specific_data dataframe.
print(specific_data.head(10))

输出:

过滤:使用“iloc”和“loc”功能显示特定行。

“loc”函数使用行的索引名来显示数据集的特定行。
“iloc”函数使用行的索引整数,该整数给出关于该行的完整信息。
代号:

Python 3


#here we will use iloc
data.iloc[5]
#it will display records only with species "Iris-setosa".
data.loc[data["Species"] == "Iris-setosa"]

输出:

iloc()[/caption]

loc()

代码:使用“value_counts()”统计唯一值的计数次数。
value _ counts()函数计算特定实例或数据出现的次数。

Python 3


#In this dataset we will work on the Species column, it will count number of times a particular species has occurred.
data["Species"].value_counts()
#it will display in descending order.

输出:

计算特定列的总和、平均值和模式。
我们还可以计算任意整数列的和、均值和模,就像我在下面的代码中所做的那样。

Python 3


# data["column_name"].sum()
sum_data = data["SepalLengthCm"].sum()
mean_data = data["SepalLengthCm"].mean()
median_data = data["SepalLengthCm"].median()
print("Sum:",sum_data, "\nMean:", mean_data, "\nMedian:",median_data)

输出:

代码:从一列中提取最小值和最大值。
从特定的列或行中识别最小和最大整数也可以在数据集中完成。

Python 3


min_data=data["SepalLengthCm"].min()
max_data=data["SepalLengthCm"].max()
print("Minimum:",min_data, "\nMaximum:", max_data)

输出:

代码:向数据集添加一列。
如果想要在我们的数据集中添加一个新的列,就像我们在做任何计算或者从数据集中提取一些信息一样,并且如果想要保存它一个新的列。这可以通过下面的代码来实现,我们将所有列的所有整数值相加。

Python 3


# For example, if we want to add a column let say "total_values",
# that means if you want to add all the integer value of that particular
# row and get total answer in the new column "total_values".
# first we will extract the columns which have integer values.
cols = data.columns
# it will print the list of column names.
print(cols)
# we will take that columns which have integer values.
cols = cols[1:5]
# we will save it in the new dataframe variable
data1 = data[cols]
# now adding new column "total_values" to dataframe data.
data["total_values"]=data1[cols].sum(axis=1)
# here axis=1 means you are working in rows,
# whereas axis=0 means you are working in columns.

输出:

代码:重命名列。
在 python 熊猫库中也可以重命名我们的列名。我们使用了 rename()函数,在这里我们创建了一个字典“newcols”来更新我们的新列名。下面的代码说明了这一点。

Python 3


newcols={
"Id":"id",
"SepalLengthCm":"sepallength"
"SepalWidthCm":"sepalwidth"}
data.rename(columns=newcols,inplace=True)
print(data.head())

输出:

格式和样式:
通过使用 Dataframe.style 函数,可以将条件格式应用于您的数据帧。样式用于可视化数据,可视化数据集最方便的方式是表格形式。
这里我们将突出显示每行和每列的最小值和最大值。

Python 3


#this is an example of rendering a datagram,
which is not visualised by any styles.
data.style

输出:

现在,我们将使用 Styler.apply 函数突出显示最大和最小列方向、行方向以及整个数据框方向。Styler.apply 函数根据关键字参数轴传递数据框的每一列或每一行。对于列方向的使用轴=0,行方向的使用轴=1,对于整个表格一次使用轴=无。

Python 3


# we will here print only the top 10 rows of the dataset,
# if you want to see the result of the whole dataset remove
#.head(10) from the below code
data.head(10).style.highlight_max(color='lightgreen', axis=0)
data.head(10).style.highlight_max(color='lightgreen', axis=1)
data.head(10).style.highlight_max(color='lightgreen', axis=None)

输出:

对于轴=0

对于轴=1

对于轴=无

代码:清理和检测缺失值
在这个数据集中,我们现在将尝试查找缺失值,即 NaN,这可能是由于几个原因造成的。

Python 3


data.isnull()
#if there is data is missing, it will display True else False.

输出:

isnull()

代码:汇总缺失值。
我们将显示每列中有多少缺失值。

Python 3


data.isnull.sum()

输出:

热图:导入海底
热图是一种数据可视化技术,用于将数据集分析为二维颜色。基本上,它显示了数据集中所有数值变量之间的相关性。热图是西伯恩图书馆的一个属性。
代码:

Python 3


import seaborn as sns
iris = sns.load_dataset("iris")
sns.heatmap(iris.corr(),camp = "YlGnBu", linecolor = 'white', linewidths = 1)

输出:

代码:使用整数格式
用数值标注每个单元格

Python 3


sns.heatmap(iris.corr(),camp = "YlGnBu", linecolor = 'white', linewidths = 1, annot = True )

输出:

带注释的热图=真

熊猫数据帧相关性:
熊猫相关性用于确定数据集所有列的成对相关性。在 dataframe.corr()中,缺失的值被排除,非数字列也被忽略。
代码:

Python 3


data.corr(method='pearson')

输出:

data.corr()

输出数据框可以看作对于任何单元格,行变量与列变量的相关性就是单元格的值。一个变量与其自身的相关性为 1。因此,所有对角线值都是 1.00。
多元分析:
配对图用于可视化每类列变量之间的关系。只用一行代码实现,如下:
代码:

Python 3


g = sns.pairplot(data,hue="Species")

输出:

变量“物种”的配对图,使其更容易理解。


推荐阅读
  • Python中的PyInputPlus模块原文:https ... [详细]
  • 在Kubernetes上部署JupyterHub的步骤和实验依赖
    本文介绍了在Kubernetes上部署JupyterHub的步骤和实验所需的依赖,包括安装Docker和K8s,使用kubeadm进行安装,以及更新下载的镜像等。 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 本文主要解析了Open judge C16H问题中涉及到的Magical Balls的快速幂和逆元算法,并给出了问题的解析和解决方法。详细介绍了问题的背景和规则,并给出了相应的算法解析和实现步骤。通过本文的解析,读者可以更好地理解和解决Open judge C16H问题中的Magical Balls部分。 ... [详细]
  • ZSI.generate.Wsdl2PythonError: unsupported local simpleType restriction ... [详细]
  • Python正则表达式学习记录及常用方法
    本文记录了学习Python正则表达式的过程,介绍了re模块的常用方法re.search,并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具,通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ... [详细]
  • 本文介绍了Composer依赖管理的重要性及使用方法。对于现代语言而言,包管理器是标配,而Composer作为PHP的包管理器,解决了PEAR的问题,并且使用简单,方便提交自己的包。文章还提到了使用Composer能够避免各种include的问题,避免命名空间冲突,并且能够方便地安装升级扩展包。 ... [详细]
  • 开源Keras Faster RCNN模型介绍及代码结构解析
    本文介绍了开源Keras Faster RCNN模型的环境需求和代码结构,包括FasterRCNN源码解析、RPN与classifier定义、data_generators.py文件的功能以及损失计算。同时提供了该模型的开源地址和安装所需的库。 ... [详细]
  • 本文总结了使用不同方式生成 Dataframe 的方法,包括通过CSV文件、Excel文件、python dictionary、List of tuples和List of dictionary。同时介绍了一些注意事项,如使用绝对路径引入文件和安装xlrd包来读取Excel文件。 ... [详细]
  • 现在比较流行使用静态网站生成器来搭建网站,博客产品着陆页微信转发页面等。但每次都需要对服务器进行配置,也是一个重复但繁琐的工作。使用DockerWeb,只需5分钟就能搭建一个基于D ... [详细]
  •  项目地址https:github.comffmydreamWiCar界面做的很难看,美工方面实在不在行。重点是按钮触摸事件的处理,这里搬了RepeatListener项目代码,例 ... [详细]
  • centos php部署到nginx 404_NodeJS项目部署到阿里云ECS服务器全程详解
    本文转载自:http:www.kovli.com20170919ecs-deploy作者:Kovli本文详细介绍如何部署NodeJS项目到阿里云ECS上, ... [详细]
  • docker安装到基本使用
    记录docker概念,安装及入门日常使用Docker安装查看官方文档,在"Debian上安装Docker",其他平台在"这里查 ... [详细]
  • 初识java关于JDK、JRE、JVM 了解一下 ... [详细]
  • 微信公众号:内核小王子关注可了解更多关于数据库,JVM内核相关的知识;如果你有任何疑问也可以加我pigpdong[^1]jvm一行代码是怎么运行的首先,java代码会被编译成字 ... [详细]
author-avatar
mobiledu2502859073
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有