热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

什么叫python数据分析统计服_10分钟Python数据分析入门——认识数据

在完成kaggle机器学习入门题目Titanic,并把准确率提高到80%,当时排名是进入到前8%,虽然不高,但是从这次实践中

在完成kaggle机器学习入门题目Titanic,并把准确率提高到80%,当时排名是进入到前8%,虽然不高,但是从这次实践中感悟颇多。

发现在完成题目的过程中,数据分析占很大的比重。并且做不同的题,数据分析流程很相似,都是从认识数据开始,而认识数据感觉完全可以做成模板,为日常所用。

这个模板方法也完好的在工作当中得到了验证,所以这里就把模板制作出来,只需要改改数据的列名就能迁移到其它工作中。

​如果会Python并且已有jupyter notebook,直接到文尾获取模板文件即可。下面单纯介绍一下基本功能。该模板适合连续数据(如年龄),离散数据(如性别、级别)。不适合字符串,字符串处理部分在以后更新。主要用到柱状图、曲线图、数据打印输出。

一、工具准备

应用需要安装环境,学习成本有一点点,毕竟是模板,改名字就好。如果深度修改,那就得自学一下了。

环境:anaconda3,官网下载双击安装,自带jupyter。

Python包:pandas、numpy、matplotlib。

二、部分功能介绍

1、加载数据

2、查看前十条

3、看各列数据类型,数量,数据缺失情况

可以看到总共有891条数据,一共是12列。Age、Cabin、Embarked数据存在缺失。数据有int64类型,该类型作为分类标识为主(例如:Pclass船舱等级)。float64类型是浮点数,一般是连续型数据,如这里年龄、票价。object类型,一般是字符串类型,作为描述。

4、数字类型统计描述

计算int64、float64等类型的统计描述,如非空值数量、平均值mean、标准差std、最小值min、四分之一分位数25%、中位数50%、四分之三分位数75%、最大值max。

5、按类别统计各类别数量

幸存和没幸存人数,1幸存,0未幸存

6、连续数据分组统计

年龄按照5岁为一档分组,统计各组数量

7、多维度统计

(1)不同船舱等级年龄分布

绘制各个年龄和等级曲线图,可以大致看出各等级年龄分布情况。如:三等舱年龄集中在20岁,一等舱集中在40岁左右。

(2)不同性别幸存数分布

三、使用说明

1、加载数据,改为需要的文件名。

2、所有tatinic['***'],需要将***改为对应的数据列名。

如果文章对您有一些价值,请关注 @猿小明 ,实时关注实用文章

关注公众号「迷茫猿小明」,或私信,获取文件资料



推荐阅读
  • 本文将介绍如何编写一些有趣的VBScript脚本,这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例,帮助您了解VBScript的基本语法和功能。 ... [详细]
  • 本文详细介绍如何使用Python进行配置文件的读写操作,涵盖常见的配置文件格式(如INI、JSON、TOML和YAML),并提供具体的代码示例。 ... [详细]
  • 1:有如下一段程序:packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]
  • 1.如何在运行状态查看源代码?查看函数的源代码,我们通常会使用IDE来完成。比如在PyCharm中,你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢?当我们想使用一个函 ... [详细]
  • 深入理解C++中的KMP算法:高效字符串匹配的利器
    本文详细介绍C++中实现KMP算法的方法,探讨其在字符串匹配问题上的优势。通过对比暴力匹配(BF)算法,展示KMP算法如何利用前缀表优化匹配过程,显著提升效率。 ... [详细]
  • Python自动化处理:从Word文档提取内容并生成带水印的PDF
    本文介绍如何利用Python实现从特定网站下载Word文档,去除水印并添加自定义水印,最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]
  • 本文详细解析了Python中的os和sys模块,介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]
  • 掌握远程执行Linux脚本和命令的技巧
    本文将详细介绍如何利用Python的Paramiko库实现远程执行Linux脚本和命令,帮助读者快速掌握这一实用技能。通过具体的示例和详尽的解释,让初学者也能轻松上手。 ... [详细]
  • 本文介绍了在Windows环境下使用pydoc工具的方法,并详细解释了如何通过命令行和浏览器查看Python内置函数的文档。此外,还提供了关于raw_input和open函数的具体用法和功能说明。 ... [详细]
  • 毕业设计:基于机器学习与深度学习的垃圾邮件(短信)分类算法实现
    本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程,并提供了具体的代码示例和实验结果。 ... [详细]
  • 尽管深度学习带来了广泛的应用前景,其训练通常需要强大的计算资源。然而,并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下(如ARM CPU)高效运行深度神经网络,特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]
  • 本文介绍如何使用 Python 的 Pandas 库中 Series 对象的 round() 方法,对数值进行四舍五入处理。该方法在数据预处理和分析中非常有用。 ... [详细]
  • Coursera ML 机器学习
    2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]
  • 机器学习核心概念与技术
    本文系统梳理了机器学习的关键知识点,涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容,并深入探讨了各算法的原理和应用场景。 ... [详细]
  • 随着生活节奏的加快和压力的增加,越来越多的人感到不快乐。本文探讨了现代社会中导致人们幸福感下降的各种因素,并提供了一些改善建议。 ... [详细]
author-avatar
超_级如新公司
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有