热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

什么叫python数据分析统计服_10分钟Python数据分析入门——认识数据

在完成kaggle机器学习入门题目Titanic,并把准确率提高到80%,当时排名是进入到前8%,虽然不高,但是从这次实践中

在完成kaggle机器学习入门题目Titanic,并把准确率提高到80%,当时排名是进入到前8%,虽然不高,但是从这次实践中感悟颇多。

发现在完成题目的过程中,数据分析占很大的比重。并且做不同的题,数据分析流程很相似,都是从认识数据开始,而认识数据感觉完全可以做成模板,为日常所用。

这个模板方法也完好的在工作当中得到了验证,所以这里就把模板制作出来,只需要改改数据的列名就能迁移到其它工作中。

​如果会Python并且已有jupyter notebook,直接到文尾获取模板文件即可。下面单纯介绍一下基本功能。该模板适合连续数据(如年龄),离散数据(如性别、级别)。不适合字符串,字符串处理部分在以后更新。主要用到柱状图、曲线图、数据打印输出。

一、工具准备

应用需要安装环境,学习成本有一点点,毕竟是模板,改名字就好。如果深度修改,那就得自学一下了。

环境:anaconda3,官网下载双击安装,自带jupyter。

Python包:pandas、numpy、matplotlib。

二、部分功能介绍

1、加载数据

2、查看前十条

3、看各列数据类型,数量,数据缺失情况

可以看到总共有891条数据,一共是12列。Age、Cabin、Embarked数据存在缺失。数据有int64类型,该类型作为分类标识为主(例如:Pclass船舱等级)。float64类型是浮点数,一般是连续型数据,如这里年龄、票价。object类型,一般是字符串类型,作为描述。

4、数字类型统计描述

计算int64、float64等类型的统计描述,如非空值数量、平均值mean、标准差std、最小值min、四分之一分位数25%、中位数50%、四分之三分位数75%、最大值max。

5、按类别统计各类别数量

幸存和没幸存人数,1幸存,0未幸存

6、连续数据分组统计

年龄按照5岁为一档分组,统计各组数量

7、多维度统计

(1)不同船舱等级年龄分布

绘制各个年龄和等级曲线图,可以大致看出各等级年龄分布情况。如:三等舱年龄集中在20岁,一等舱集中在40岁左右。

(2)不同性别幸存数分布

三、使用说明

1、加载数据,改为需要的文件名。

2、所有tatinic['***'],需要将***改为对应的数据列名。

如果文章对您有一些价值,请关注 @猿小明 ,实时关注实用文章

关注公众号「迷茫猿小明」,或私信,获取文件资料



推荐阅读
author-avatar
超_级如新公司
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有