作者:散場偂爱的擁菢_257 | 来源:互联网 | 2022-12-28 20:45
python数据分析看什么书《Python基础教程》,MagnusLieHetland,人民邮电出版社:这本书内容包括语法介绍和一些小项目的演示,真的是基础教程,适合入门;《利用p
python数据分析看什么书
《Python基础教程》,Magnus Lie Hetland,人民邮电出版社:这本书内容包括语法介绍和一些小项目的演示,真的是基础教程,适合入门;《利用python进行数据分析》,Wes McKinney,机械工业出版社:这本书重点讲了Pandas库,少量涉及NumPy和Matplotlib,比较经典的书;《Python数据科学手册》,Jake VanderPlas,人民邮电出版社:可以看作是前一本书的进阶书籍,介绍了数据分析的主要库,偏数据清洗。
Pandas基础教程
DataFrameGroupBy对象常用的函数: 数据缺失通常有两种情况: 一种就是空,None等,在pandas是NaN(和np.nan一样)。 另一种是我们让其为0,蓝色框中。
在pandas中数据缺失处理方法 : 判断数据是否为NaN:pd.isnull(df),pd.notnull(df) 处理方式1:删除NaN所在的行列dropna (axis=0, how='any', inplace=False) 处理方式2:填充数据,t.fillna(t.mean()),t.fiallna(t.median()),t.fillna(0) 处理为0的数据:t[t==0]=np.nan 注意 :当然并不是每次为0的数据都需要处理;计算平均值等情况,nan是不参与计算的,但是0会。
r取值范围[‐1,1] 0.8‐1.0 极强相关;0.6‐0.8 强相关; 0.4‐0.6 中等程度相关; 0.2‐0.4 弱相关; 0.0‐0.2 极弱相关或无相关。
python可视化数据分析常用图大集合(收藏)
python数据分析常用图大集合:包含折线图、直方图、垂直条形图、水平条形图、饼图、箱线图、热力图、散点图、蜘蛛图、二元变量分布、面积图、六边形图等12种常用可视化数据分析图,后期还会不断的收集整理,请关注更新! 以下默认所有的操作都先导入了numpy、pandas、matplotlib、seaborn 一、折线图 折线图可以用来表示数据随着时间变化的趋势 Matplotlib plt.plot(x, y) plt.show() Seaborndf = pd.DataFrame({'x': x, 'y': y}) sns.lineplot(x="x", y="y", data=df) plt.show() 二、直方图 直方图是比较常见的视图,它是把横坐标等分成了一定数量的小区间,然后在每个小区间内用矩形条(bars)展示该区间的数值 Matplotlib Seaborn 三、垂直条形图 条形图可以帮我们查看类别的特征。在条形图中,长条形的长度表示类别的频数,宽度表示类别。
Matplotlib Seaborn 1plt.show() 四、水平条形图 五、饼图 六、箱线图 箱线图由五个数值点组成:最大值 (max)、最小值 (min)、中位数 (median) 和上下四分位数 (Q3, Q1)。
可以帮我们分析出数据的差异性、离散程度和异常值等。 Matplotlib Seaborn 七、热力图 力图,英文叫 heat map,是一种矩阵表示方法,其中矩阵中的元素值用颜色来代表,不同的颜色代表不同大小的值。通过颜色就能直观地知道某个位置上数值的大小。 通过 seaborn 的 heatmap 函数,我们可以观察到不同年份,不同月份的乘客数量变化情况,其中颜色越浅的代表乘客数量越多 八、散点图 散点图的英文叫做 scatter plot,它将两个变量的值显示在二维坐标中,非常适合展示两个变量之间的关系。
Matplotlib Seaborn 九、蜘蛛图 蜘蛛图是一种显示一对多关系的方法,使一个变量相对于另一个变量的显著性是清晰可见 十、二元变量分布 二元变量分布可以看两个变量之间的关系 十一、面积图 面积图又称区域图,强调数量随时间而变化的程度,也可用于引起人们对总值趋势的注意。 堆积面积图还可以显示部分与整体的关系。折线图和面积图都可以用来帮助我们对趋势进行分析,当数据集有合计关系或者你想要展示局部与整体关系的时候,使用面积图为更好的选择。
十二、六边形图 六边形图将空间中的点聚合成六边形,然后根据六边形内部的值为这些六边形上色。
这6个Python进阶用法,你用过哪些?
Python中的聚合类函数 sum , min , max 第一个参数是 iterable 类型,一般使用方法如下: 使用列表生成式 [i+1 for i in a] 创建一个长度与 a 一样的临时列表,这步完成后,再做 sum 聚合。 试想如果你的数组 a 长度是百万级,再创建一个这样的临时列表就很不划算,最好是一边算一边聚合,稍改动为如下: 此时 i+1 for i in a 是 (i+1 for i in a) 的简写,得到一个生成器( generator )对象,如下所示: 生成器每迭代一步吐出( yield )一个元素并计算和聚合后,进入下一次迭代,直到终点。
修改 merged['x']=10 ,dic1中的 x 值 不变 ChainMap 只在 逻辑上 合并,在内部创建了一个容纳这些字典的列表。
python如何做数据分析
用Python做数据分析,大致流程如下:
1、数据获取
可以通过SQL查询语句来获取数据库中想要数据。Python已经具有连接sql server、mysql、orcale等主流数据库的接口包,比如pymssql、pymysql、cx_Oracle等。
2、数据存储
企业当中的数据存储,通过通过数据库如Mysql来存储与管理,对于非结构化数据的存储可以使用MongoDB等。
对于使用Python进行网络抓取的数据,我们也可以使用pymysql包快速地将其存储到Mysql中去。
3、数据预处理/数据清洗
大多数情况下,原始数据是存在格式不一致,存在异常值、缺失值等问题的,而不同项目数据预处理步骤的方法也不一样。Python做数据清洗,可以使用Numpy和Pandas这两个工具库。
4、数据建模与分析
常见的数据挖掘模型有:分类、聚类、回归等,这些常见的算法模型,Python也有Scikit-learn和Tensorflow工具库来支持。
5、数据可视化分析
在数据可视化方面,Python有Matplotlib、Seaborn、Pyecharts等工具库可用。