在完成kaggle机器学习入门题目Titanic,并把准确率提高到80%,当时排名是进入到前8%,虽然不高,但是从这次实践中感悟颇多。
发现在完成题目的过程中,数据分析占很大的比重。并且做不同的题,数据分析流程很相似,都是从认识数据开始,而认识数据感觉完全可以做成模板,为日常所用。
这个模板方法也完好的在工作当中得到了验证,所以这里就把模板制作出来,只需要改改数据的列名就能迁移到其它工作中。
如果会Python并且已有jupyter notebook,直接到文尾获取模板文件即可。下面单纯介绍一下基本功能。该模板适合连续数据(如年龄),离散数据(如性别、级别)。不适合字符串,字符串处理部分在以后更新。主要用到柱状图、曲线图、数据打印输出。
一、工具准备
应用需要安装环境,学习成本有一点点,毕竟是模板,改名字就好。如果深度修改,那就得自学一下了。
环境:anaconda3,官网下载双击安装,自带jupyter。
Python包:pandas、numpy、matplotlib。
二、部分功能介绍
1、加载数据
2、查看前十条
3、看各列数据类型,数量,数据缺失情况
可以看到总共有891条数据,一共是12列。Age、Cabin、Embarked数据存在缺失。数据有int64类型,该类型作为分类标识为主(例如:Pclass船舱等级)。float64类型是浮点数,一般是连续型数据,如这里年龄、票价。object类型,一般是字符串类型,作为描述。
4、数字类型统计描述
计算int64、float64等类型的统计描述,如非空值数量、平均值mean、标准差std、最小值min、四分之一分位数25%、中位数50%、四分之三分位数75%、最大值max。
5、按类别统计各类别数量
幸存和没幸存人数,1幸存,0未幸存
6、连续数据分组统计
年龄按照5岁为一档分组,统计各组数量
7、多维度统计
(1)不同船舱等级年龄分布
绘制各个年龄和等级曲线图,可以大致看出各等级年龄分布情况。如:三等舱年龄集中在20岁,一等舱集中在40岁左右。
(2)不同性别幸存数分布
三、使用说明
1、加载数据,改为需要的文件名。
2、所有tatinic['***'],需要将***改为对应的数据列名。
如果文章对您有一些价值,请关注 @猿小明 ,实时关注实用文章
关注公众号「迷茫猿小明」,或私信,获取文件资料