什么叫python数据分析统计服_10分钟Python数据分析入门——认识数据

作者：超_级如新公司 | 来源：互联网 | 2024-10-17 16:59

在完成kaggle机器学习入门题目Titanic，并把准确率提高到80%，当时排名是进入到前8%，虽然不高，但是从这次实践中

在完成kaggle机器学习入门题目Titanic&＃xff0c;并把准确率提高到80%&＃xff0c;当时排名是进入到前8%&＃xff0c;虽然不高&＃xff0c;但是从这次实践中感悟颇多。

发现在完成题目的过程中&＃xff0c;数据分析占很大的比重。并且做不同的题&＃xff0c;数据分析流程很相似&＃xff0c;都是从认识数据开始&＃xff0c;而认识数据感觉完全可以做成模板&＃xff0c;为日常所用。

这个模板方法也完好的在工作当中得到了验证&＃xff0c;所以这里就把模板制作出来&＃xff0c;只需要改改数据的列名就能迁移到其它工作中。

如果会Python并且已有jupyter notebook&＃xff0c;直接到文尾获取模板文件即可。下面单纯介绍一下基本功能。该模板适合连续数据&＃xff08;如年龄&＃xff09;&＃xff0c;离散数据&＃xff08;如性别、级别&＃xff09;。不适合字符串&＃xff0c;字符串处理部分在以后更新。主要用到柱状图、曲线图、数据打印输出。

一、工具准备

应用需要安装环境&＃xff0c;学习成本有一点点&＃xff0c;毕竟是模板&＃xff0c;改名字就好。如果深度修改&＃xff0c;那就得自学一下了。

环境&＃xff1a;anaconda3&＃xff0c;官网下载双击安装&＃xff0c;自带jupyter。

Python包&＃xff1a;pandas、numpy、matplotlib。

二、部分功能介绍

1、加载数据

2、查看前十条

3、看各列数据类型&＃xff0c;数量&＃xff0c;数据缺失情况

可以看到总共有891条数据&＃xff0c;一共是12列。Age、Cabin、Embarked数据存在缺失。数据有int64类型&＃xff0c;该类型作为分类标识为主&＃xff08;例如&＃xff1a;Pclass船舱等级&＃xff09;。float64类型是浮点数&＃xff0c;一般是连续型数据&＃xff0c;如这里年龄、票价。object类型&＃xff0c;一般是字符串类型&＃xff0c;作为描述。

4、数字类型统计描述

计算int64、float64等类型的统计描述&＃xff0c;如非空值数量、平均值mean、标准差std、最小值min、四分之一分位数25%、中位数50%、四分之三分位数75%、最大值max。

5、按类别统计各类别数量

幸存和没幸存人数&＃xff0c;1幸存&＃xff0c;0未幸存

6、连续数据分组统计

年龄按照5岁为一档分组&＃xff0c;统计各组数量

7、多维度统计

&＃xff08;1&＃xff09;不同船舱等级年龄分布

绘制各个年龄和等级曲线图&＃xff0c;可以大致看出各等级年龄分布情况。如&＃xff1a;三等舱年龄集中在20岁&＃xff0c;一等舱集中在40岁左右。

&＃xff08;2&＃xff09;不同性别幸存数分布

三、使用说明

1、加载数据&＃xff0c;改为需要的文件名。

2、所有tatinic[&＃39;***&＃39;]&＃xff0c;需要将***改为对应的数据列名。

如果文章对您有一些价值&＃xff0c;请关注 &＃64;猿小明 &＃xff0c;实时关注实用文章

关注公众号「迷茫猿小明」&＃xff0c;或私信&＃xff0c;获取文件资料

推荐阅读

python
Python 工具推荐 | PyHubWeekly 第二十一期：提升命令行体验的五大工具

本期 PyHubWeekly 为大家精选了 GitHub 上五个优秀的 Python 工具，涵盖金融数据可视化、终端美化、国际化支持、图像增强和远程 Shell 环境配置。欢迎关注并参与项目。 ... [详细]

蜡笔小新 2024-12-21 14:45:11
get
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
range
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
uri
数据管理权威指南：《DAMA-DMBOK2 数据管理知识体系》

本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释，构建了数据管理的总体框架，为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]

蜡笔小新 2024-12-27 18:29:55
range
深入理解C++中的KMP算法：高效字符串匹配的利器

本文详细介绍C++中实现KMP算法的方法，探讨其在字符串匹配问题上的优势。通过对比暴力匹配（BF）算法，展示KMP算法如何利用前缀表优化匹配过程，显著提升效率。 ... [详细]

蜡笔小新 2024-12-27 14:45:30
python
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
python
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
python
掌握远程执行Linux脚本和命令的技巧

本文将详细介绍如何利用Python的Paramiko库实现远程执行Linux脚本和命令，帮助读者快速掌握这一实用技能。通过具体的示例和详尽的解释，让初学者也能轻松上手。 ... [详细]

蜡笔小新 2024-12-26 19:47:05
python
Python学习笔记：使用pydoc工具查询文档

本文介绍了在Windows环境下使用pydoc工具的方法，并详细解释了如何通过命令行和浏览器查看Python内置函数的文档。此外，还提供了关于raw_input和open函数的具体用法和功能说明。 ... [详细]

蜡笔小新 2024-12-26 17:05:56
range
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
python
优化深度神经网络在低性能硬件上的运行

尽管深度学习带来了广泛的应用前景，其训练通常需要强大的计算资源。然而，并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下（如ARM CPU）高效运行深度神经网络，特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]

蜡笔小新 2024-12-24 08:48:32
python
Python Pandas 库中的 Series.round() 方法详解

本文介绍如何使用 Python 的 Pandas 库中 Series 对象的 round() 方法，对数值进行四舍五入处理。该方法在数据预处理和分析中非常有用。 ... [详细]

蜡笔小新 2024-12-23 12:13:19
python
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09
python
机器学习核心概念与技术

本文系统梳理了机器学习的关键知识点，涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容，并深入探讨了各算法的原理和应用场景。 ... [详细]

蜡笔小新 2024-12-22 09:15:30
python
现代人幸福感缺失的原因探究

随着生活节奏的加快和压力的增加，越来越多的人感到不快乐。本文探讨了现代社会中导致人们幸福感下降的各种因素，并提供了一些改善建议。 ... [详细]

蜡笔小新 2024-12-21 16:09:25

超_级如新公司

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章