热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

什么叫python数据分析统计服_10分钟Python数据分析入门——认识数据

在完成kaggle机器学习入门题目Titanic,并把准确率提高到80%,当时排名是进入到前8%,虽然不高,但是从这次实践中

在完成kaggle机器学习入门题目Titanic,并把准确率提高到80%,当时排名是进入到前8%,虽然不高,但是从这次实践中感悟颇多。

发现在完成题目的过程中,数据分析占很大的比重。并且做不同的题,数据分析流程很相似,都是从认识数据开始,而认识数据感觉完全可以做成模板,为日常所用。

这个模板方法也完好的在工作当中得到了验证,所以这里就把模板制作出来,只需要改改数据的列名就能迁移到其它工作中。

​如果会Python并且已有jupyter notebook,直接到文尾获取模板文件即可。下面单纯介绍一下基本功能。该模板适合连续数据(如年龄),离散数据(如性别、级别)。不适合字符串,字符串处理部分在以后更新。主要用到柱状图、曲线图、数据打印输出。

一、工具准备

应用需要安装环境,学习成本有一点点,毕竟是模板,改名字就好。如果深度修改,那就得自学一下了。

环境:anaconda3,官网下载双击安装,自带jupyter。

Python包:pandas、numpy、matplotlib。

二、部分功能介绍

1、加载数据

2、查看前十条

3、看各列数据类型,数量,数据缺失情况

可以看到总共有891条数据,一共是12列。Age、Cabin、Embarked数据存在缺失。数据有int64类型,该类型作为分类标识为主(例如:Pclass船舱等级)。float64类型是浮点数,一般是连续型数据,如这里年龄、票价。object类型,一般是字符串类型,作为描述。

4、数字类型统计描述

计算int64、float64等类型的统计描述,如非空值数量、平均值mean、标准差std、最小值min、四分之一分位数25%、中位数50%、四分之三分位数75%、最大值max。

5、按类别统计各类别数量

幸存和没幸存人数,1幸存,0未幸存

6、连续数据分组统计

年龄按照5岁为一档分组,统计各组数量

7、多维度统计

(1)不同船舱等级年龄分布

绘制各个年龄和等级曲线图,可以大致看出各等级年龄分布情况。如:三等舱年龄集中在20岁,一等舱集中在40岁左右。

(2)不同性别幸存数分布

三、使用说明

1、加载数据,改为需要的文件名。

2、所有tatinic['***'],需要将***改为对应的数据列名。

如果文章对您有一些价值,请关注 @猿小明 ,实时关注实用文章

关注公众号「迷茫猿小明」,或私信,获取文件资料



推荐阅读
  • Python 工具推荐 | PyHubWeekly 第二十一期:提升命令行体验的五大工具
    本期 PyHubWeekly 为大家精选了 GitHub 上五个优秀的 Python 工具,涵盖金融数据可视化、终端美化、国际化支持、图像增强和远程 Shell 环境配置。欢迎关注并参与项目。 ... [详细]
  • 2018-2019学年第六周《Java数据结构与算法》学习总结
    本文总结了2018-2019学年第六周在《Java数据结构与算法》课程中的学习内容,重点介绍了非线性数据结构——树的相关知识及其应用。 ... [详细]
  • 深入浅出TensorFlow数据读写机制
    本文详细介绍TensorFlow中的数据读写操作,包括TFRecord文件的创建与读取,以及数据集(dataset)的相关概念和使用方法。 ... [详细]
  • 2017年人工智能领域的十大里程碑事件回顾
    随着2018年的临近,我们一同回顾过去一年中人工智能领域的重要进展。这一年,无论是政策层面的支持,还是技术上的突破,都显示了人工智能发展的迅猛势头。以下是精选的2017年人工智能领域最具影响力的事件。 ... [详细]
  • 智慧城市建设现状及未来趋势
    随着新基建政策的推进及‘十四五’规划的实施,我国正步入以5G、人工智能等先进技术引领的智慧经济新时代。规划强调加速数字化转型,促进数字政府建设,新基建政策亦倡导城市基础设施的全面数字化。本文探讨了智慧城市的发展背景、全球及国内进展、市场规模、架构设计,以及百度、阿里、腾讯、华为等领军企业在该领域的布局策略。 ... [详细]
  • Python并行处理:提升数据处理速度的方法与实践
    本文探讨了如何利用Python进行数据处理的并行化,通过介绍Numba、多进程处理以及Pandas DataFrame上的并行操作等技术,旨在帮助开发者有效提高数据处理效率。 ... [详细]
  • Python库在GIS与三维可视化中的应用
    Python库极大地扩展了GIS的能力,使其能够执行复杂的数据科学任务。本文探讨了几个关键的Python库,这些库不仅增强了GIS的核心功能,还推动了地理信息系统向更高层次的应用发展。 ... [详细]
  • 目录一、salt-job管理#job存放数据目录#缓存时间设置#Others二、returns模块配置job数据入库#配置returns返回值信息#mysql安全设置#创建模块相关 ... [详细]
  • 本文介绍了如何利用Python进行批量图片尺寸调整,包括放大和等比例缩放。文中提供了详细的代码示例,并解释了每个步骤的具体实现方法。 ... [详细]
  • 机器学习核心概念与技术
    本文系统梳理了机器学习的关键知识点,涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容,并深入探讨了各算法的原理和应用场景。 ... [详细]
  • 随着生活节奏的加快和压力的增加,越来越多的人感到不快乐。本文探讨了现代社会中导致人们幸福感下降的各种因素,并提供了一些改善建议。 ... [详细]
  • Python + Pytest 接口自动化测试中 Token 关联登录的实现方法
    本文将深入探讨 Python 和 Pytest 在接口自动化测试中如何实现 Token 关联登录,内容详尽、逻辑清晰,旨在帮助读者掌握这一关键技能。 ... [详细]
  • 本文详细介绍了钩子(hook)的概念、原理及其在编程中的实际应用。通过对比回调函数和注册函数,解释了钩子的工作机制,并提供了具体的Python示例代码,帮助读者更好地理解和掌握这一重要编程工具。 ... [详细]
  • 本文探讨了当前技术发展趋势,特别是大数据和人工智能如何推动工业互联网的发展。文章分析了全球主要国家在工业互联网领域的进展,并展望了未来工业互联网技术的发展方向。 ... [详细]
  • 随着技术的发展,黑客开始利用AI技术在暗网中创建用户的‘数字孪生’,这一现象引起了安全专家的高度关注。 ... [详细]
author-avatar
超_级如新公司
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有