当前位置: 开发笔记 > 编程语言 > 正文

Python基本数据统计（一）便捷数据获取数据准备和整理数据显示

作者：寤丨惘_191 | 来源：互联网 | 2023-09-08 11:23

1.便捷数据获取1.1本地数据获取：文件的打开，读写和关闭（另外的单独章节）1.2网络数据获取：1.2.1ur

1. 便捷数据获取

　　1.1 本地数据获取&＃xff1a;文件的打开&＃xff0c;读写和关闭&＃xff08;另外的单独章节&＃xff09;

　　1.2 网络数据获取&＃xff1a;

　　　　1.2.1 urllib, urllib2, httplib, httplib2 &＃xff08;python3中为urllib.request, http.client&＃xff09;

　　　　　　正则表达式&＃xff08;另外的单数章节&＃xff09;

　　　　1.2.2 通过matplotlib.finace模块获取雅虎财经上的数据

In [7]: from matplotlib.finance import quotes_historical_yahoo_ochlIn [8]: from datetime import dateIn [9]: from datetime import datetimeIn [10]: import pandas as pdIn [11]: today &＃61; date.today()In [12]: start &＃61; (today.year-1, today.month, today.day)In [14]: quotes &＃61; quotes_historical_yahoo_ochl(&＃39;AXP&＃39;, start, today) # 获取数据In [15]: fields &＃61; [&＃39;date&＃39;, &＃39;open&＃39;, &＃39;close&＃39;, &＃39;high&＃39;, &＃39;low&＃39;, &＃39;volume&＃39;]In [16]: list1 &＃61; []In [18]: for i in range(0,len(quotes)):...: x &＃61; date.fromordinal(int(quotes[i][0])) # 取每一行的第一列&＃xff0c;通过date.fromordinal设置为日期数据类型...: y &＃61; datetime.strftime(x,&＃39;%Y-%m-%d&＃39;) # 通过datetime.strftime把日期设置为指定格式...: list1.append(y) # 将日期放入列表中...: In [19]: quotesdf &＃61; pd.DataFrame(quotes,index&＃61;list1,columns&＃61;fields) # index设置为日期&＃xff0c;columns设置为字段In [20]: quotesdf &＃61; quotesdf.drop([&＃39;date&＃39;],axis&＃61;1) # 删除date列In [21]: print quotesdfopen close high low volume
2016-01-20 60.374146 61.835916 62.336256 60.128882 9043800.0
2016-01-21 61.806486 61.453305 63.101479 61.325767 8992300.0
2016-01-22 57.283819 54.016907 57.774347 53.114334 43783400.0

　　　　1.2.3 通过自然语言工具包NLTK获取语料库等数据

　　　　　　1. 下载nltk&＃xff1a;pip install nltk

　　　　　　2. 下载语料库&＃xff1a;

In [1]: import nltkIn [2]: nltk.download()
NLTK Downloader
---------------------------------------------------------------------------d) Download l) List u) Update c) Config h) Help q) Quit
---------------------------------------------------------------------------
Downloader> dDownload which package (l&＃61;list; x&＃61;cancel)?Identifier> gutenbergDownloading package gutenberg to /root/nltk_data...Package gutenberg is already up-to-date!

　　　　　　3. 获取数据&＃xff1a;

In [3]: from nltk.corpus import gutenbergIn [4]: print gutenberg.fileids()
[u&＃39;austen-emma.txt&＃39;, u&＃39;austen-persuasion.txt&＃39;, u&＃39;austen-sense.txt&＃39;, u&＃39;bible-kjv.txt&＃39;, u&＃39;blake-poems.txt&＃39;, u&＃39;bryant-stories.txt&＃39;, u&＃39;burgess-busterbrown.txt&＃39;, u&＃39;carroll-alice.txt&＃39;, u&＃39;chesterton-ball.txt&＃39;, u&＃39;chesterton-brown.txt&＃39;, u&＃39;chesterton-thursday.txt&＃39;, u&＃39;edgeworth-parents.txt&＃39;, u&＃39;melville-moby_dick.txt&＃39;, u&＃39;milton-paradise.txt&＃39;, u&＃39;shakespeare-caesar.txt&＃39;, u&＃39;shakespeare-hamlet.txt&＃39;, u&＃39;shakespeare-macbeth.txt&＃39;, u&＃39;whitman-leaves.txt&＃39;]In [5]: texts &＃61; gutenberg.words(&＃39;shakespeare-hamlet.txt&＃39;)In [6]: texts
Out[6]: [u&＃39;[&＃39;, u&＃39;The&＃39;, u&＃39;Tragedie&＃39;, u&＃39;of&＃39;, u&＃39;Hamlet&＃39;, u&＃39;by&＃39;, ...]

2. 数据准备和整理

　　2.1 quotes数据加入[ 列 ]属性名

In [79]: quotesdf &＃61; pd.DataFrame(quotes)In [80]: quotesdf
Out[80]: 0 1 2 3 4 5
0 735983.0 60.374146 61.835916 62.336256 60.128882 9043800.0
1 735984.0 61.806486 61.453305 63.101479 61.325767 8992300.0
2 735985.0 57.283819 54.016907 57.774347 53.114334 43783400.0
3 735988.0 53.428272 53.977664 54.713455 53.114334 18498300.0[253 rows x 6 columns]In [81]: fields &＃61; [&＃39;date&＃39;,&＃39;open&＃39;,&＃39;close&＃39;,&＃39;high&＃39;,&＃39;low&＃39;,&＃39;volume&＃39;]In [82]: quotesdf &＃61; pd.DataFrame(quotes,columns&＃61;fields) # 设置列属性名称In [83]: quotesdf
Out[83]: date open close high low volume
0 735983.0 60.374146 61.835916 62.336256 60.128882 9043800.0
1 735984.0 61.806486 61.453305 63.101479 61.325767 8992300.0
2 735985.0 57.283819 54.016907 57.774347 53.114334 43783400.0
3 735988.0 53.428272 53.977664 54.713455 53.114334 18498300.0

　　2.2 quotes数据加入[ index ]属性名

In [84]: quotesdf
Out[84]: date open close high low volume
0 735983.0 60.374146 61.835916 62.336256 60.128882 9043800.0
1 735984.0 61.806486 61.453305 63.101479 61.325767 8992300.0
2 735985.0 57.283819 54.016907 57.774347 53.114334 43783400.0[253 rows x 6 columns]In [85]: quotesdf &＃61; pd.DataFrame(quotes, index&＃61;range(1,len(quotes)&＃43;1),columns&＃61;fields) # 把index属性从0,1,2...改为1,2,3...In [86]: quotesdf
Out[86]: date open close high low volume
1 735983.0 60.374146 61.835916 62.336256 60.128882 9043800.0
2 735984.0 61.806486 61.453305 63.101479 61.325767 8992300.0
3 735985.0 57.283819 54.016907 57.774347 53.114334 43783400.0

　　2.3 日期转换&＃xff1a;Gregorian日历表示法 &＃61;> 普通表示方法

In [88]: from datetime import dateIn [89]: firstday &＃61; date.fromordinal(735190)In [93]: firstday
Out[93]: datetime.date(2013, 11, 18)In [95]: firstday &＃61; datetime.strftime(firstday,&＃39;%Y-%m-%d&＃39;)In [96]: firstday
Out[96]: &＃39;2013-11-18&＃39;

　　2.4 创建时间序列&＃xff1a;

In [120]: import pandas as pdIn [121]: dates &＃61; pd.date_range(&＃39;20170101&＃39;, periods&＃61;7) # 根据起始日期和长度生成日期序列In [122]: dates
Out[122]:
DatetimeIndex([&＃39;2017-01-01&＃39;, &＃39;2017-01-02&＃39;, &＃39;2017-01-03&＃39;, &＃39;2017-01-04&＃39;,&＃39;2017-01-05&＃39;, &＃39;2017-01-06&＃39;, &＃39;2017-01-07&＃39;],dtype&＃61;&＃39;datetime64[ns]&＃39;, freq&＃61;&＃39;D&＃39;)In [123]: import numpy as npIn [124]: dates &＃61; pd.DataFrame(np.random.randn(7,3), index&＃61;dates, columns&＃61;list(&＃39;ABC&＃39;)) # 时间序列当作index&＃xff0c;ABC当作列的name属性&＃xff0c;表内容为七行三列随机数In [125]: dates
Out[125]: A B C
2017-01-01 0.705927 0.311453 1.455362
2017-01-02 -0.331531 -0.358449 0.175375
2017-01-03 -0.284583 -1.760700 -0.582880
2017-01-04 -0.759392 -2.080658 -2.015328
2017-01-05 -0.517370 0.906072 -0.106568
2017-01-06 -0.252802 -2.135604 -0.692153
2017-01-07 -0.275184 0.142973 -1.262126

　　2.5 练习

In [101]: datetime.now() # 显示当前日期和时间
Out[101]: datetime.datetime(2017, 1, 20, 16, 11, 50, 43258)
&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;
In [108]: datetime.now().month # 显示当前月份
Out[108]: 1&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;
In [126]: import pandas as pdIn [127]: dates &＃61; pd.date_range(&＃39;2015-02-01&＃39;,periods&＃61;10)In [128]: dates
Out[128]:
DatetimeIndex([&＃39;2015-02-01&＃39;, &＃39;2015-02-02&＃39;, &＃39;2015-02-03&＃39;, &＃39;2015-02-04&＃39;,&＃39;2015-02-05&＃39;, &＃39;2015-02-06&＃39;, &＃39;2015-02-07&＃39;, &＃39;2015-02-08&＃39;,&＃39;2015-02-09&＃39;, &＃39;2015-02-10&＃39;],dtype&＃61;&＃39;datetime64[ns]&＃39;, freq&＃61;&＃39;D&＃39;)In [133]: res &＃61; pd.DataFrame(range(1,11),index&＃61;dates,columns&＃61;[&＃39;value&＃39;])In [134]: res
Out[134]: value
2015-02-01 1
2015-02-02 2
2015-02-03 3
2015-02-04 4
2015-02-05 5
2015-02-06 6
2015-02-07 7
2015-02-08 8
2015-02-09 9
2015-02-10 10

3. 数据显示

　　3.1 显示方式&＃xff1a;

In [180]: quotesdf2.index # 显示索引
Out[180]:
Index([u&＃39;2016-01-20&＃39;, u&＃39;2016-01-21&＃39;, u&＃39;2016-01-22&＃39;, u&＃39;2016-01-25&＃39;,...u&＃39;2017-01-11&＃39;, u&＃39;2017-01-12&＃39;, u&＃39;2017-01-13&＃39;, u&＃39;2017-01-17&＃39;,u&＃39;2017-01-18&＃39;, u&＃39;2017-01-19&＃39;],dtype&＃61;&＃39;object&＃39;, length&＃61;253)In [181]: quotesdf2.columns # 显示列名
Out[181]: Index([u&＃39;open&＃39;, u&＃39;close&＃39;, u&＃39;high&＃39;, u&＃39;low&＃39;, u&＃39;volume&＃39;], dtype&＃61;&＃39;object&＃39;)In [182]: quotesdf2.values # 显示数据的值
Out[182]:
array([[ 6.03741455e&＃43;01, 6.18359160e&＃43;01, 6.23362562e&＃43;01,6.01288817e&＃43;01, 9.04380000e&＃43;06],..., [ 7.76100010e&＃43;01, 7.66900020e&＃43;01, 7.77799990e&＃43;01,7.66100010e&＃43;01, 7.79110000e&＃43;06]])In [183]: quotesdf2.describe # 显示数据描述
Out[183]:
<bound method DataFrame.describe of open close high low volume
2016-01-20 60.374146 61.835916 62.336256 60.128882 9043800.0
2016-01-21 61.806486 61.453305 63.101479 61.325767 8992300.0
2016-01-22 57.283819 54.016907 57.774347 53.114334 43783400.0

　　3.2 索引的格式&＃xff1a;u 表示unicode编码

　　3.3 显示行&＃xff1a;

In [193]: quotesdf.head(2) # 专用方式显示头两行
Out[193]: date open close high low volume
1 735983.0 60.374146 61.835916 62.336256 60.128882 9043800.0
2 735984.0 61.806486 61.453305 63.101479 61.325767 8992300.0In [194]: quotesdf.tail(2) # 专用方式显示尾两行
Out[194]: date open close high low volume
252 736347.0 77.110001 77.489998 77.610001 76.510002 5988400.0
253 736348.0 77.610001 76.690002 77.779999 76.610001 7791100.0In [195]: quotesdf[:2] # 切片方式显示头两行
Out[195]: date open close high low volume
1 735983.0 60.374146 61.835916 62.336256 60.128882 9043800.0
2 735984.0 61.806486 61.453305 63.101479 61.325767 8992300.0In [197]: quotesdf[251:] # 切片方式显示尾两行
Out[197]: date open close high low volume
252 736347.0 77.110001 77.489998 77.610001 76.510002 5988400.0
253 736348.0 77.610001 76.690002 77.779999 76.610001 7791100.0

4. 数据选择

5. 简单统计与处理

6. Grouping

7. Merge

转:https://www.cnblogs.com/wnzhong/p/6323475.html

推荐阅读

char
Python正则表达式学习记录及常用方法

本文记录了学习Python正则表达式的过程，介绍了re模块的常用方法re.search，并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具，通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ... [详细]

蜡笔小新 2023-12-13 16:37:19
window
基于dlib的人脸68特征点提取(眨眼张嘴检测)python版本

文章目录引言开发环境和库流程设计张嘴和闭眼的检测引言(1)利用Dlib官方训练好的模型“shape_predictor_68_face_landmarks.dat”进行68个点标定 ... [详细]

蜡笔小新 2023-12-12 13:27:42
char
Python自动提取文本中的时间（包含中文日期）及特殊时间识别方法

本文介绍了在处理不规则数据时如何使用Python自动提取文本中的时间日期，包括使用dateutil.parser模块统一日期字符串格式和使用datefinder模块提取日期。同时，还介绍了一段使用正则表达式的代码，可以支持中文日期和一些特殊的时间识别，例如'2012年12月12日'、'3小时前'、'在2012/12/13哈哈'等。 ... [详细]

蜡笔小新 2023-12-12 12:09:33
java
Python爬虫中使用正则表达式的方法和注意事项

本文介绍了在Python爬虫中使用正则表达式的方法和注意事项。首先解释了爬虫的四个主要步骤，并强调了正则表达式在数据处理中的重要性。然后详细介绍了正则表达式的概念和用法，包括检索、替换和过滤文本的功能。同时提到了re模块是Python内置的用于处理正则表达式的模块，并给出了使用正则表达式时需要注意的特殊字符转义和原始字符串的用法。通过本文的学习，读者可以掌握在Python爬虫中使用正则表达式的技巧和方法。 ... [详细]

蜡笔小新 2023-12-12 11:51:07
java
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
java
Java太阳系小游戏分析和源码详解

本文介绍了一个基于Java的太阳系小游戏的分析和源码详解。通过对面向对象的知识的学习和实践，作者实现了太阳系各行星绕太阳转的效果。文章详细介绍了游戏的设计思路和源码结构，包括工具类、常量、图片加载、面板等。通过这个小游戏的制作，读者可以巩固和应用所学的知识，如类的继承、方法的重载与重写、多态和封装等。 ... [详细]

蜡笔小新 2023-12-14 19:53:34
java
Python对Excel文件的读取方法及模块安装

本文介绍了Python对Excel文件的读取方法，包括模块的安装和使用。通过安装xlrd、xlwt、xlutils、pyExcelerator等模块，可以实现对Excel文件的读取和处理。具体的读取方法包括打开excel文件、抓取所有sheet的名称、定位到指定的表单等。本文提供了两种定位表单的方式，并给出了相应的代码示例。 ... [详细]

蜡笔小新 2023-12-14 19:49:05
java
在类中定义数组时出错 - Error on defining arrays in class

Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ... [详细]

蜡笔小新 2023-12-14 17:38:12
char
clone的fork与pthread_create创建线程有何不同

本文讨论了clone的fork与pthread_create创建线程的不同之处。进程是一个指令执行流及其执行环境，其执行环境是一个系统资源的集合。在调用系统调用fork创建一个进程时，子进程只是完全复制父进程的资源，这样得到的子进程独立于父进程，具有良好的并发性。但是二者之间的通讯需要通过专门的通讯机制，另外通过fork创建子进程系统开销很大。因此，在某些情况下，使用clone或pthread_create创建线程可能更加高效。 ... [详细]

蜡笔小新 2023-12-12 20:00:06
char
31.项目部署

目录1一些概念1.1项目部署1.2WSGI1.3uWSGI1.4Nginx2安装环境与迁移项目2.1项目内容2.2项目配置2.2.1DEBUG2.2.2STAT ... [详细]

蜡笔小新 2023-12-12 12:15:41
bash
【shell】网络处理：判断IP是否在网段、两个ip是否同网段、IP地址范围、网段包含关系

本文介绍了使用shell脚本判断IP是否在同一网段、判断IP地址是否在某个范围内、计算IP地址范围、判断网段之间的包含关系的方法和原理。通过对IP和掩码进行与计算，可以判断两个IP是否在同一网段。同时，还提供了一段用于验证IP地址的正则表达式和判断特殊IP地址的方法。 ... [详细]

蜡笔小新 2023-12-12 11:19:14
bash
使用集算器将日志文件结构化，轻松使用SQL查询

本文介绍了一种轻巧方便的工具——集算器，通过使用集算器可以将文本日志变成结构化数据，然后可以使用SQL式查询。集算器利用集算语言的优点，将日志内容结构化为数据表结构，SPL支持直接对结构化的文件进行SQL查询，不再需要安装配置第三方数据库软件。本文还详细介绍了具体的实施过程。 ... [详细]

蜡笔小新 2023-12-11 13:27:46
char
Python操作MySQL（pymysql模块）详解及示例代码

本文介绍了使用Python操作MySQL数据库的方法，详细讲解了pymysql模块的安装和连接MySQL数据库的步骤，并提供了示例代码。内容涵盖了创建表、插入数据、查询数据等操作，帮助读者快速掌握Python操作MySQL的技巧。 ... [详细]

蜡笔小新 2023-12-10 17:50:06
future
开源Keras Faster RCNN模型介绍及代码结构解析

本文介绍了开源Keras Faster RCNN模型的环境需求和代码结构，包括FasterRCNN源码解析、RPN与classifier定义、data_generators.py文件的功能以及损失计算。同时提供了该模型的开源地址和安装所需的库。 ... [详细]

蜡笔小新 2023-12-10 17:44:07
char
Python使用Pillow包生成验证码图片的方法

本文介绍了使用Python中的Pillow包生成验证码图片的方法。通过随机生成数字和符号，并添加干扰象素，生成一幅验证码图片。需要配置好Python环境，并安装Pillow库。代码实现包括导入Pillow包和随机模块，定义随机生成字母、数字和字体颜色的函数。 ... [详细]

蜡笔小新 2023-12-10 16:51:25

寤丨惘_191

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章