当前位置: 开发笔记 > 编程语言 > 正文

Pandas如何安装使用

作者：手机用户2602923801 | 来源：互联网 | 2023-09-02 11:54

这篇文章主要介绍了Pandas如何安装使用，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一

这篇文章主要介绍了Pandas如何安装使用，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。

1. 安装

如果做数据分析用途建议使用Anaconda，自带pandas numy 以及很多库。

Anaconda 安装地址：https://www.continuum.io/downloads

安装之后可以在terminal 输入 conda 开头的命令（类似pip），例如list 查看已经安装的包，以及进行常用的install update等动作。

2. Import

绝大部分时候pandas都被使用者import为pd，根据作者的描述其实pandas是panel data的缩写（而不是熊猫）

import pandas as pd

3. DataFrame

DataFrame是Pandas用来处理数据最常见的格式，一张二维的表，有行，列和值。类似于一个数据库里的table 或者excel中的worksheet。如果有一个DataFrame叫df, df.columns可以得到所有的列标签，同理df.index可以得到所有的行标签。

4. 读取数据

4.1 从excel中读取数据

raw = pd.read_excel(&＃39;%s%s.xlsx&＃39; %path %filename, sheetname=&＃39;Data&＃39;, skiprows= 1)

数据会被读取到一个叫raw的DataFrame中，sheetname可以指定读某个工作表，skiprow可以跳过初始N行的数据。

4.2 从csv中读取数据

raw = pd.read_csv(&＃39;%s%s.csv&＃39; %path %filename)

5. 增删改查

5.1 增删列

新增列,位置在最后一列

raw[&＃39;新列名&＃39;] = &＃39;string&＃39;

在中间增列，使用 df.insert()

df.insert(位置,&＃39;列名&＃39;,值)

例如，在raw df第二列（index不算一列）插入一列，名为city，值为source_data的 [city]列

raw.insert(1,&＃39;column_name&＃39;,source_data[&＃39;data1&＃39;])

删除列

del raw[&＃39;列名&＃39;]

5.2 改列名

5.2.1 一次性改变所有的列名

cols = [&＃39;name_1&＃39;, &＃39;name_2&＃39;, &＃39;name_3&＃39;]
raw= raw[cols]

5.2.2 修改某个列名
使用df.rename()，注意如果df中有多个old_name列的话都会被一并重命名为new_name

df=df.rename(columns = {&＃39;old_name&＃39;:&＃39;new_name&＃39;})

5.3 改index

把某列设为index,原index会被删除

raw = raw.set_index(&＃39;column_name&＃39;)

reset_index()，新index是以0开始的递增整数列，原index会变成一个新的列。

raw = raw.reset_index()

如果不需要原来的index中的值可以加drop = True：

raw = raw.reset_index(drop=True)

5.4 编辑值（计算值）

5.4.1 四则运算

raw[&＃39;data1&＃39;] = raw[&＃39;data1&＃39;] *100
raw[&＃39;data2&＃39;] = (raw[&＃39;data1&＃39;]+raw[&＃39;data3&＃39;])/raw[&＃39;data4&＃39;]
raw[&＃39;total&＃39;] = raw.sum(axis=1)

5.5 查列

5.5.1 筛选某列包含某值(raw df中 GEO CODE为CN的所有数据)

raw = raw[raw[&＃39;GEO_CODE&＃39;]==&＃39;CN&＃39;]

5.5.2 多条件筛选

raw = raw[(raw[&＃39;GEO_CODE&＃39;]==&＃39;CN&＃39;)&(raw[&＃39;METRIC&＃39;]==&＃39;Conversion Rate&＃39;)]

5.5.3 筛选多个列

required_key = [&＃39;User_ID&＃39;,&＃39;SEO visits&＃39;,&＃39;SEA visits&＃39;,&＃39;Conversion Rate&＃39;]
raw = raw[raw[&＃39;METRIC_KEY&＃39;].isin(required_key)]

5.6 去重

5.6.1 去重使用drop_duplicates()，主要有2个参数：
subset 需要去重的值
keep，在遇到重复值时保留第一个(keep = &＃39;first&＃39;)or最后一(keep = &＃39;last&＃39;)

df = df.drop_duplicates(subset = &＃39;column_name&＃39;, keep = &＃39;last&＃39;)

5.6.2 因为去重时，保留的值很简单是取第一个或最后一个，所以需要搭配sort_values()来保证留下的值是你想要的。sort_values()默认是升序ascending，由小到大。

df = df.sort_values(by=&＃39;column_name&＃39;)
df = df.drop_duplicates(subset = &＃39;column_name&＃39;, keep = &＃39;last&＃39;)

6 Excel功能相关

6.1 Excel的数据透视表

pd.pivot_table()

主要有3个参数，index, columns,value, 以及aggfunc

index相当于行标签
columns相当于列标签
value相当于用来计算值，配合aggfunc来计算count/mean/average
注意value不能使用index 和columns已经使用过的值，这点和excel不同。

pivot= pd.pivot_table(raw, values = &＃39;Response ID&＃39;, index= [&＃39;Country&＃39;], columns=[&＃39;NPS category&＃39;], aggfunc=np.size)

aggfunc目前用过的有计数np.size 汇总np.sum 平均np.average np.mean 中位数np.median

6.2 DataFrame的融合 (vlookup or hookup)

因为excel的公式是在某个单元格中，而DataFrame一般是一次性处理行或列的数据，给某行／列根据其他行／列的数据引用赋值就相当于表格的融合。
主要用到2个方法：

pd.merge()
pd.concat()

详情请看下节

6.3 pd.merge()

pd.merge()非常类似数据库中join的操作，参数很丰富：

merged_df = pd.merge(left, right, how=&＃39;inner&＃39;, on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=True, suffixes=(&＃39;_x&＃39;, &＃39;_y&＃39;), copy=True, indicator=False)

merge可以提供关系型数据库中常用的几种合并方式，空值会用NaN填充：
下面是几个常用参数的详解：
参数on

pd.merge(df1, df2, on = &＃39;xxx&＃39;) #on的参数用来确定2个表共同的column。

on在这里就相当于vlookup中lookup value的定位

参数merge

pd.merge(df1, df2, how= &＃39;xxx&＃39;) #how的参数用来确定 merge method 。

Merge method和SQL join的对应关系如下：

Merge method	SQL Join Name	Description
left	LEFT OUTER JOIN	只使用左表的键(key)
right	RIGHT OUTER JOIN	只使用右表的键
outer	FULL OUTER JOIN	使用两表的并集的键
iner	INNER JOIN	使用两表的交集的键

如果使用pd.merge实现vlookup时，正好二者的index就是共有值，只要
pd.merge(main_data,to_lookup_data,on =&＃39;left&＃39;)就OK了

参数left_on right_on
to bu input
参数left_index right_index
to bu input

6.4 pd.concat()

如果两个DataFrame column相同，二者上下拼接在一起 (增加数据行)

pd.concat([df1,df2])

如果两个DataFrame index相同，二者左右拼接在一起 (增加数据列)

pd.concat([df1,df2], axis = 1)

如果有多个DataFrame, column相同的情况下:

dfs = [df1,df2,df3,df4]
result = pd.concat(dfs)

关于pd.merge()和pd.concat() 更多细节请参考官网：
http://pandas.pydata.org/pandas-docs/stable/merging.html

7. 数据输出

假设现在有一个名为raw的DataFrame需要输出到C盘根目录

7.1 输出到csv

DataFrame自带to_csv()功能，注意如果有中文建议加encoding参数，如果不需要index可加 index= False 参数。

raw.to_csv(&＃39;C:\File_name.csv&＃39;, encoding = &＃39;utf-8&＃39;, index = False)

7.2 输出到Excel

使用pandas自带的 Excel Writer生成2010格式的excel,

from pandas import ExcelWriter
path = &＃39;C:\&＃39;
writer = ExcelWriter(&＃39;%sFile_name.xlsx&＃39; %path) #指定Excel文件名
raw.to_excel(writer, sheet_name = &＃39;worksheet_name&＃39;) #指定工作表名称
writer.save()

7.3 输出到数据库

如果要存数据库呢? RDBS和NOSQL

Mysql
MongoDB

To be input..

8.使用datetime进行时间相关的操作

在python中用datetime也可以实现同excel中常用的日期函数一样的功能

8.1 创建现在的时间点为对象

import datetime
now = datetime.datetime.now()
today = datetime.datetime.today()

8.2 时间的位移

start_date = dt.date(today.year-2,today.month-1,today.day)
end_date = dt.date(today.year,today.month-3,today.day+1)

如果月份/日期超过限制会报错
所以可能需要写一个循环去输出这些日期

date_list = [] while start_date < end_date: if start_date.month < 12:
        date_list.append(start_date.strftime(&＃39;%Y-%m&＃39;))
        start_date = datetime.date(start_date.year,start_date.month +1,start_date.day) else:
        date_list.append(start_date.strftime(&＃39;%Y-%m&＃39;))        
        start_date = datetime.date(start_date.year+1,start_date.month-11,start_date.day)

8.3 调整格式

如上面所示，使用strftime()可以调整时间的格式，可以调整的选项非常多，参考：
http://www.runoob.com/python/att-time-strftime.html

%y 两位数的年份表示（00-99）
%Y 四位数的年份表示（000-9999）
%m 月份（01-12）
%d 月内中的一天（0-31）
%H 24小时制小时数（0-23）
%I 12小时制小时数（01-12）
%M 分钟数（00=59）
%S 秒（00-59）
%a 本地简化星期名称
%A 本地完整星期名称
%b 本地简化的月份名称
%B 本地完整的月份名称
%c 本地相应的日期表示和时间表示
%j 年内的一天（001-366）
%p 本地A.M.或P.M.的等价符
%U 一年中的星期数（00-53）星期天为星期的开始
%w 星期（0-6），星期天为星期的开始
%W 一年中的星期数（00-53）星期一为星期的开始
%x 本地相应的日期表示
%X 本地相应的时间表示
%Z 当前时区的名称
%% %号本身

8.4 周数的计算

8.5 工作日的计算

Excel中有个很方便的函数叫networkdays，给出起始日期，结束日期和holiday可以计算两个日期间的工作天数。而pandas或者datetime对这个需求支持的不好，所以找到了这个module: business_calendar
https://pypi.python.org/pypi/business_calendar/

8.5.1 计算日期之间的工作日数量
例如，求16年2月1日~29日的工作日有几天，已知条件:

周一到周五都上班
2月8日到12日为休假

date1 = datetime.datetime(2016,1,31)#注意如果写2月1日，当天是不包含在内的，所以写1月31日
date2 = datetime.datetime(2016,2,29) 
cal = Calendar(workdays =[MO, TU, WE, TH, FR], holidays=[&＃39;2016-02-08&＃39;,&＃39;2016-02-09&＃39;,&＃39;2016-02-10&＃39;,&＃39;2016-02-11&＃39;,&＃39;2016-02-12&＃39;])
bsday = cal.busdaycount(date1, date2)
print (bsday)

感谢你能够认真阅读完这篇文章，希望小编分享的“Pandas如何安装使用”这篇文章对大家有帮助，同时也希望大家多多支持编程笔记，关注编程笔记行业资讯频道，更多相关知识等着你来学习!

推荐阅读

string
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09
js
深入理解org.neo4j.helpers.collection.Iterators.single()方法及其应用

本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:51:55
string
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
js
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
string
Windows服务与数据库交互问题解析

本文探讨了在Windows 10（64位）环境下开发的Windows服务，旨在定期向本地MS SQL Server (v.11)插入记录。尽管服务已成功安装并运行，但记录并未正确插入。我们将详细分析可能的原因及解决方案。 ... [详细]

蜡笔小新 2024-12-28 10:30:14
js
Linux 自动化安装脚本详解

本文介绍了一款用于自动化部署 Linux 服务的 Bash 脚本。该脚本不仅涵盖了基本的文件复制和目录创建，还处理了系统服务的配置和启动，确保在多种 Linux 发行版上都能顺利运行。 ... [详细]

蜡笔小新 2024-12-27 16:33:32
controller
Yii2 GridView 实现列表页数据直接编辑的完整指南

本文详细介绍了如何使用 Yii2 的 GridView 组件在列表页面实现数据的直接编辑功能。通过具体的代码示例和步骤，帮助开发者快速掌握这一实用技巧。 ... [详细]

蜡笔小新 2024-12-27 16:27:52
controller
MyBatis 动态 SQL 详解与应用

本文深入探讨 MyBatis 中动态 SQL 的使用方法，包括 if/where、trim 自定义字符串截取规则、choose 分支选择、封装查询和修改条件的 where/set 标签、批量处理的 foreach 标签以及内置参数和 bind 的用法。 ... [详细]

蜡笔小新 2024-12-27 16:20:10
string
深入解析ExpandableComposite.addExpansionListener()方法及其应用

本文详细介绍了Java中org.eclipse.ui.forms.widgets.ExpandableComposite类的addExpansionListener()方法，并提供了多个实际代码示例，帮助开发者更好地理解和使用该方法。这些示例来源于多个知名开源项目，具有很高的参考价值。 ... [详细]

蜡笔小新 2024-12-27 16:11:49
string
使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表

本文介绍了一段通用代码示例，该代码不仅能够操作 Azure Active Directory (AAD)，还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级：AAD 和 Subscription。 ... [详细]

蜡笔小新 2024-12-27 16:07:12
string
网站与MySQL数据库的连接与交互

本文详细介绍了如何通过多种编程语言（如PHP、JSP）实现网站与MySQL数据库的连接，包括创建数据库、表的基本操作，以及数据的读取和写入方法。 ... [详细]

蜡笔小新 2024-12-27 14:09:23
string
将Web服务部署到Tomcat

本文介绍了如何在JDeveloper 12c中创建一个Java项目，并将其打包为Web服务，然后部署到Tomcat服务器。内容涵盖从项目创建、编写Web服务代码、配置相关XML文件到最终的本地部署和验证。 ... [详细]

蜡笔小新 2024-12-27 11:48:15
split
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
string
Samba服务器配置与CIFS文件共享

本文详细介绍如何使用Samba软件配置CIFS文件共享服务，涵盖安装、配置、权限管理及多用户挂载等关键步骤。通过具体示例和命令行操作，帮助读者快速搭建并优化Samba服务器。 ... [详细]

蜡笔小新 2024-12-26 17:44:08
config
使用Vultr云服务器和Namesilo域名搭建个人网站

本文详细介绍了如何通过Vultr云服务器和Namesilo域名搭建一个功能齐全的个人网站，包括购买、配置服务器以及绑定域名的具体步骤。文章还提供了详细的命令行操作指南，帮助读者顺利完成建站过程。 ... [详细]

蜡笔小新 2024-12-26 16:36:34

手机用户2602923801

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章