1python大数据挖掘系列之基础知识入门

作者：mobiledu2502912527 | 来源：互联网 | 2023-09-25 16:51

prefacePython在大数据行业非常火爆近两年，asapythonic，所以也得涉足下大数据分析，下面就聊聊它们。Python数据分

preface

Python在大数据行业非常火爆近两年&＃xff0c;as a pythonic&＃xff0c;所以也得涉足下大数据分析&＃xff0c;下面就聊聊它们。

Python数据分析与挖掘技术概述

所谓数据分析&＃xff0c;即对已知的数据进行分析&＃xff0c;然后提取出一些有价值的信息&＃xff0c;比如统计平均数&＃xff0c;标准差等信息&＃xff0c;数据分析的数据量可能不会太大&＃xff0c;而数据挖掘&＃xff0c;是指对大量的数据进行分析与挖倔&＃xff0c;得到一些未知的&＃xff0c;有价值的信息等&＃xff0c;比如从网站的用户和用户行为中挖掘出用户的潜在需求信息&＃xff0c;从而对网站进行改善等。
数据分析与数据挖掘密不可分&＃xff0c;数据挖掘是对数据分析的提升。数据挖掘技术可以帮助我们更好的发现事物之间的规律。所以我们可以利用数据挖掘技术可以帮助我们更好的发现事物之间的规律。比如发掘用户潜在需求&＃xff0c;实现信息的个性化推送&＃xff0c;发现疾病与病状甚至病与药物之间的规律等。

预先善其事必先利其器

我们首先聊聊数据分析的模块有哪些&＃xff1a;

numpy 高效处理数据&＃xff0c;提供数组支持&＃xff0c;很多模块都依赖它&＃xff0c;比如pandas&＃xff0c;scipy&＃xff0c;matplotlib都依赖他&＃xff0c;所以这个模块都是基础。所以必须先安装numpy。
pandas 主要用于进行数据的采集与分析
scipy 主要进行数值计算。同时支持矩阵运算&＃xff0c;并提供了很多高等数据处理功能&＃xff0c;比如积分&＃xff0c;微分方程求样等。
matplotlib 作图模块&＃xff0c;结合其他数据分析模块&＃xff0c;解决可视化问题
statsmodels 这个模块主要用于统计分析
Gensim 这个模块主要用于文本挖掘
sklearn&＃xff0c;keras 前者机器学习&＃xff0c;后者深度学习。

下面就说说这些模块的基础使用。

numpy模块安装与使用

安装&＃xff1a;
下载地址是&＃xff1a;http://www.lfd.uci.edu/~gohlke/pythonlibs/
我这里下载的包是1.11.3版本&＃xff0c;地址是&＃xff1a;http://www.lfd.uci.edu/~gohlke/pythonlibs/f9r7rmd8/numpy-1.11.3&＃43;mkl-cp35-cp35m-win_amd64.whl
下载好后&＃xff0c;使用pip install "numpy-1.11.3&＃43;mkl-cp35-cp35m-win_amd64.whl"
安装的numpy版本一定要是带mkl版本的&＃xff0c;这样能够更好支持numpy

numpy简单使用

import numpyx&＃61;numpy.array([11,22,33,4,5,6,7,]) #创建一维数组 x2&＃61;numpy.array([[&＃39;asfas&＃39;,&＃39;asdfsdf&＃39;,&＃39;dfdf&＃39;,11],[&＃39;1iojasd&＃39;,&＃39;123&＃39;,989012],["jhyfsdaeku","jhgsda"]]) #创建二维数组,注意是([])x.sort() #排序&＃xff0c;没有返回值的&＃xff0c;修改原处的值&＃xff0c;这里等于修改了X x.max() # 最大值&＃xff0c;对二维数组都管用 x.min() # 最小值&＃xff0c;对二维数组都管用 x1&＃61;x[1:3] # 取区间&＃xff0c;和python的列表没有区别

生成随机数

主要使用numpy下的random方法。

#numpy.random.random_integers(最小值,最大值,个数) 获取的是正数 data &＃61; numpy.random.random_integers(1,20000,30) #生成整形随机数 #正态随机数 numpy.random.normal(均值,偏离值,个数) 偏离值决定了每个数之间的差 ,当偏离值大于开始值的时候&＃xff0c;那么会产生负数的。 data1 &＃61; numpy.random.normal(3.2,29.2,10) # 生成浮点型且是正负数的随机数

pandas

使用pip install pandas即可

直接上代码&＃xff1a;
下面看看pandas输出的结果&＃xff0c; 这一行的数字第几列&＃xff0c;第一列的数字是行数&＃xff0c;定位一个通过第一行&＃xff0c;第几列来定位&＃xff1a;

print(b)0 1 2 3 0 1 2 3 4.0 1 sdaf dsaf 18hd NaN 2 1463 None None NaN

常用方法如下&＃xff1a;

import pandas a&＃61;pandas.Series([1,2,3,34,]) # 等于一维数组 b&＃61;pandas.DataFrame([[1,2,3,4,],["sdaf","dsaf","18hd"],[1463]]) # 二维数组 print(b.head()) # 默认取头部前5行,可以看源码得知 print(b.head(2)) # 直接传入参数&＃xff0c;如我写的那样 print(b.tail()) # 默认取尾部前后5行 print(b.tail(1)) # 直接传入参数&＃xff0c;如我写的那样

下面看看pandas对数据的统计&＃xff0c;下面就说说每一行的信息

# print(b.describe()) # 显示统计数据信息3 # 3表示这个二维数组总共多少个元素 count 1.0 # 总数 mean 4.0 # 平均数 std NaN # 标准数 min 4.0 # 最小数 25% 4.0 # 分位数 50% 4.0 # 分位数 75% 4.0 # 分位数 max 4.0 # 最大值

转置功能&＃xff1a;把行数转换为列数&＃xff0c;把列数转换为行数&＃xff0c;如下所示&＃xff1a;

print(b.T) # 转置0 1 2 0 1 sdaf 1463 1 2 dsaf None 2 3 18hd None 3 4 NaN NaN

通过pandas导入数据

pandas支持多种输入格式&＃xff0c;我这里就简单罗列日常生活最常用的几种&＃xff0c;对于更多的输入方式可以查看源码后者官网。

CSV文件

csv文件导入后显示输出的话&＃xff0c;是按照csv文件默认的行输出的&＃xff0c;有多少列就输出多少列&＃xff0c;比如我有五列数据&＃xff0c;那么它就在prinit输出结果的时候&＃xff0c;就显示五列

csv_data &＃61; pandas.read_csv(&＃39;F:\Learnning\CSDN-python大数据\hexun.csv&＃39;) print(csv_data)

excel表格

依赖于xlrd模块&＃xff0c;请安装它。
老样子&＃xff0c;原滋原味的输出显示excel本来的结果&＃xff0c;只不过在每一行的开头加上了一个行数

excel_data &＃61; pandas.read_excel(&＃39;F:\Learnning\CSDN-python大数据\cxla.xls&＃39;) print(excel_data)

读取SQL

依赖于PyMySQL&＃xff0c;所以需要安装它。pandas把sql作为输入的时候&＃xff0c;需要制定两个参数&＃xff0c;第一个是sql语句&＃xff0c;第二个是sql连接实例。

conn&＃61;pymysql.connect(host&＃61;"127.0.0.1",user&＃61;"root",passwd&＃61;"root",db&＃61;"test") sql&＃61;"select * from fortest" e&＃61;pda.read_sql(sql,conn)

读取HTML

依赖于lxml模块&＃xff0c;请安装它。
对于HTTPS的网页&＃xff0c;依赖于BeautifulSoup4&＃xff0c;html5lib模块。
读取HTML只会读取HTML里的表格&＃xff0c;也就是只读取

标签包裹的内容.

html_data &＃61; pandas.read_html(&＃39;F:\Learnning\CSDN-python大数据\shitman.html&＃39;) # 读取本地html文件。 html_from_online &＃61; pandas.read_html(&＃39;https://book.douban.com/&＃39;) # 读取互联网的html文件 print(html_data) print(&＃39;html_from_online&＃39;)

显示的是时候是通过python的列表展示&＃xff0c;同时添加了行与列的标识

读取txt文件

输出显示的时候同时添加了行与列的标识

text_data &＃61; pandas.read_table(&＃39;F:\Learnning\CSDN-python大数据\dforsay.txt&＃39;) print(text_data)

scipy

安装方法是先下载whl格式文件&＃xff0c;然后通过pip install “包名” 安装。whl包下载地址是&＃xff1a;http://www.lfd.uci.edu/~gohlke/pythonlibs/f9r7rmd8/scipy-0.18.1-cp35-cp35m-win_amd64.whl

matplotlib 数据可视化分析

我们安装这个模块直接使用pip install即可。不需要提前下载whl后通过 pip install安装。

下面请看代码&＃xff1a;

from matplotlib import pylab import numpy # 下面2行定义X轴&＃xff0c;Y轴 x&＃61;[1,2,3,4,8] y&＃61;[1,2,3,4,8] # plot的方法是这样使用&＃xff08;x轴数据,y轴数据,展现形式&＃xff09; pylab.plot(x,y) # 先把x,y轴的信息塞入pylab里面&＃xff0c;再调用show方法来画图 pylab.show() # 这一步开始画图,默认是至线图

画出的图是这样的&＃xff1a;

下面说说修改图的样式

关于图形类型&＃xff0c;有下面几种&＃xff1a;

直线图&＃xff08;默认&＃xff09;
- 直线
-- 虚线
-. -.形式
: 细小虚线

关于颜色&＃xff0c;有下面几种&＃xff1a;

c-青色
r-红色
m-品红
g-绿色
b-蓝色
y-黄色
k-黑色
w-白色

关于形状&＃xff0c;有下面几种&＃xff1a;

s 方形
* 星形
p 五角形

我们还可以对图稍作修改&＃xff0c;添加一些样式&＃xff0c;下面修改圆点图为红色的点&＃xff0c;代码如下&＃xff1a;

pylab.plot(x,y,&＃39;or&＃39;) # 添加O表示画散点图&＃xff0c;r表示red pylab.show()

我们还可以画虚线图&＃xff0c;代码如下所示&＃xff1a;

pylab.plot(x,y,&＃39;r:&＃39;) pylab.show()

还可以给图添加上标题&＃xff0c;x&＃xff0c;y轴的标签,代码如下所示

pylab.plot(x,y,&＃39;pr--&＃39;) #p是图形为五角星&＃xff0c;r为红色&＃xff0c;--表示虚线 pylab.title(&＃39;for learnning&＃39;) # 图形标题 pylab.xlabel(&＃39;args&＃39;) # x轴标签 pylab.ylabel(&＃39;salary&＃39;) # y轴标签 pylab.xlim(2) # 从y轴的2开始做线 pylab.show()

直方图

利用直方图能够很好的显示每一段的数据。下面使用随机数做一个直方图。

data1 &＃61; numpy.random.normal(5.0,4.0,10) # 正态随机数 pylab.hist(data1) pylab.show()

Y轴为出现的次数&＃xff0c;X轴为这个数的值&＃xff08;或者是范围&＃xff09;

还可以指定直方图类型通过histtype参数&＃xff1a;

图形区别语言无法描述很详细&＃xff0c;大家可以自信尝试。

bar &＃xff1a;is a traditional bar-type histogram. If multiple data
are given the bars are aranged side by side.
barstacked &＃xff1a;is a bar-type histogram where multiple
data are stacked on top of each other.
step &＃xff1a;generates a lineplot that is by default
unfilled.
stepfilled &＃xff1a;generates a lineplot that is by default
filled.

举个例子&＃xff1a;

sty&＃61;numpy.arange(1,30,2) pylab.hist(data1,histtype&＃61;&＃39;stepfilled&＃39;) pylab.show()

子图功能

什么是子图功能呢&＃xff1f;子图就是在一个大的画板里面能够显示多张小图&＃xff0c;每个一小图为大画板的子图。
我们知道生成一个图是使用plot功能&＃xff0c;子图就是subplog。代码操作如下&＃xff1a;

#subplot(行,列,当前区域) pylab.subplot(2,2,1) # 申明一个大图里面划分成4块&＃xff08;即2*2&＃xff09;&＃xff0c;子图使用第一个区域&＃xff08;坐标为x&＃61;1,y&＃61;1&＃xff09; pylab.subplot(2,2,2) # 申明一个大图里面划分成4块&＃xff08;即2*2&＃xff09;&＃xff0c;子图使用第二个区域&＃xff08;坐标为x&＃61;2,y&＃61;2&＃xff09; x1&＃61;[1,4,6,9] x2&＃61;[3,21,33,43] pylab.plot(x1,x2) # 这个plot表示把x,y轴数据塞入前一个子图中。我们可以在每一个子图后使用plot来塞入x,y轴的数据 pylab.subplot(2,1,2) # 申明一个大图里面划分成2块&＃xff08;即&＃xff09;&＃xff0c;子图使用第二个区域&＃xff08;坐标为x&＃61;1,y&＃61;2&＃xff09; pylab.show()

实践小例子

我们现在可以通过一堆数据来绘图&＃xff0c;根据图能够很容易的发现异常。下面我们就通过一个csv文件来实践下&＃xff0c;这个csv文件是某个网站的文章阅读数与评论数。
先说说这个csv的文件结构&＃xff0c;第一列是序号&＃xff0c;第二列是每篇文章的URL&＃xff0c;第三列每篇文章的阅读数&＃xff0c;第四列是每篇评论数。
我们的需求就是把评论数作为Y轴&＃xff0c;阅读数作为X轴&＃xff0c;所以我们需要获取第三列和第四列的数据。我们知道获取数据的方法是通过pandas的values方法来获取某一行的值&＃xff0c;在对这一行的值做切片处理&＃xff0c;获取下标为3&＃xff08;阅读数&＃xff09;和4&＃xff08;评论数&＃xff09;的值&＃xff0c;但是&＃xff0c;这里只是一行的值&＃xff0c;我们需要是这个csv文件下的所有评论数和阅读数&＃xff0c;那怎么办&＃xff1f;聪明的你会说&＃xff0c;我自定义2个列表&＃xff0c;我遍历下这个csv文件&＃xff0c;把阅读数和评论数分别添加到对应的列表里&＃xff0c;这不就行了嘛。呵呵&＃xff0c;其实有一个更快捷的方法&＃xff0c;那么就是使用T转置方法&＃xff0c;这样再通过values方法&＃xff0c;就能直接获取这一评论数和阅读数了&＃xff0c;此时在交给你matplotlib里的pylab方法来作图&＃xff0c;那么就OK了。了解思路后&＃xff0c;那么就写吧。

下面看看代码&＃xff1a;

csv_data &＃61; pandas.read_csv(&＃39;F:\Learnning\CSDN-python大数据\hexun.csv&＃39;) dt &＃61; csv_data.T # 装置下&＃xff0c;把阅读数和评论数转为行 readers&＃61;dt.values[3] comments &＃61; dt.values[4] pylab.xlabel(u&＃39;reads&＃39;) pylab.ylabel(u&＃39;comments&＃39;) # 打上标签 pylab.title(u"The Article&＃39;s reads and comments") pylab.plot(readers,comments,&＃39;ob&＃39;) pylab.show()

转:https://www.cnblogs.com/liaojiafa/p/6239262.html

推荐阅读

buffer
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新 2024-12-26 17:37:25
buffer
Docker的安全基准

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2024-12-28 13:00:24
数组
PHP 编程疑难解析与知识点汇总

本文详细解答了 PHP 编程中的常见问题，并提供了丰富的代码示例和解决方案，帮助开发者更好地理解和应用 PHP 知识。 ... [详细]

蜡笔小新 2024-12-28 12:22:34
数组
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
filter
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
数组
数据管理权威指南：《DAMA-DMBOK2 数据管理知识体系》

本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释，构建了数据管理的总体框架，为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]

蜡笔小新 2024-12-27 18:29:55
数组
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
php
Python 爬虫基础教程及代码实例

根据最新发布的《互联网人才趋势报告》，尽管大量IT从业者已转向Python开发，但随着人工智能和大数据领域的迅猛发展，仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-26 10:42:40
php
深入解析TCP/IP五层协议

本文详细介绍了TCP/IP五层协议模型，包括物理层、数据链路层、网络层、传输层和应用层。每层的功能及其相互关系将被逐一解释，帮助读者理解互联网通信的原理。此外，还特别讨论了UDP和TCP协议的特点以及三次握手、四次挥手的过程。 ... [详细]

蜡笔小新 2024-12-24 14:02:48
range
Python处理Word文档的高效技巧

本文详细介绍了如何使用Python处理Word文档，涵盖从基础操作到高级功能的各种技巧。我们将探讨如何生成文档、定义样式、提取表格数据以及处理超链接和图片等内容。 ... [详细]

蜡笔小新 2024-12-23 10:40:32
range
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09
range
配置并访问BackTrack 5的SSH服务

本文详细介绍了如何在BackTrack 5中配置和启动SSH服务，确保其正常运行，并通过Windows系统成功连接。涵盖了必要的密钥生成步骤及常见问题解决方法。 ... [详细]

蜡笔小新 2024-12-27 20:13:35
list
XNA 3.0 游戏编程：从 XML 文件加载数据

本文介绍如何在 XNA 3.0 游戏项目中从 XML 文件加载数据。我们将探讨如何将 XML 数据序列化为二进制文件，并通过内容管道加载到游戏中。此外，还会涉及自定义类型读取器和写入器的实现。 ... [详细]

蜡笔小新 2024-12-27 11:39:44
match
华为USG基于源地址的多出口策略路由配置

网络拓扑如下：组网情况：企业用户主要有技术部（VLAN10）和行政部(VLAN20)，通过汇聚交换机连接到USG。企业分别通过两个不同运营商（ISP1和ISP2）连接到 ... [详细]

蜡笔小新 2024-12-24 14:57:16
search
Python 工具推荐 | PyHubWeekly 第二十一期：提升命令行体验的五大工具

本期 PyHubWeekly 为大家精选了 GitHub 上五个优秀的 Python 工具，涵盖金融数据可视化、终端美化、国际化支持、图像增强和远程 Shell 环境配置。欢迎关注并参与项目。 ... [详细]

蜡笔小新 2024-12-21 14:45:11

mobiledu2502912527

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章