热门标签 | HotTags
当前位置:  开发笔记 > 前端 > 正文

动手学数据分析task01数据加载及探索性数据分析

第一章第一节数据加载——载入数据数据集下载https:www.kaggle.comctitanicoverview数据集采用的是kaggle竞赛的官方数据集把数据分块读取

第一章第一节 数据加载——载入数据


  • 数据集下载 https://www.kaggle.com/c/titanic/overview
  • 数据集采用的是kaggle竞赛的官方数据集

在这里插入图片描述


把数据分块读取(chunksize)

在这里插入图片描述


更改列名


  • 可以选择直接全部更改,甚至可以制定某一行作为第一列的索引列

在这里插入图片描述


初步观察


查看前10行和后15行的数据

在这里插入图片描述
在这里插入图片描述


查看基本数据特征

在这里插入图片描述
在这里插入图片描述


数据最基础操作——判空


  • 以前五行为例:
    在这里插入图片描述

保存数据到新的csv

在这里插入图片描述


第一章第二节 数据加载——pandas基础


pandas中有两个数据类型DateFrame和Series


series如下:

在这里插入图片描述


dataframe如下:

在这里插入图片描述


查看全部列名

在这里插入图片描述


查看某一列的所有取值

在这里插入图片描述
在这里插入图片描述


删除某一列

del test_1['a']

在这里插入图片描述


选择性忽视某些列


  • 其中有一个属性为inplace,默认情况下是FALSE,如果设置为TRUE,表明进行对原来数据的覆盖

在这里插入图片描述


对列属性的条件筛选


年龄小于10岁的

df[df["Age"]<10].head(3)

在这里插入图片描述


以"Age"为条件,将年龄在10岁以上和50岁以下的乘客信息显示出来,并将这个数据命名为midage

midage = df[(df["Age"]>10)& (df["Age"]<50)]
midage.head(3)

在这里插入图片描述


reset_index


  • 数据清洗时,会将带空值的行删除,此时DataFrame或Series类型的数据不再是连续的索引,可以使用reset_index()重置索引。

选择多行多列数据

midage的数据中第100,105,108行的"Pclass","Name"和"Sex"的数据显示出来


  • ① 使用loc方法

midage.loc[[100,105,108],[&#39;Pclass&#39;,&#39;Name&#39;,&#39;Sex&#39;]]

在这里插入图片描述


  • ② 使用iloc方法

midage.iloc[[100,105,108],[2,3,4]]

在这里插入图片描述


第一章第三节 数据加载——探索性数据分析


按照某一列进行升序、降序排列

frame.sort_values(by=&#39;c&#39;, ascending=True)

  • by参数指向要排列的列,ascending参数指向排序的方式(升序还是降序)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


推荐阅读
  • 本文介绍如何使用 Python 的 Pandas 库中 Series 对象的 round() 方法,对数值进行四舍五入处理。该方法在数据预处理和分析中非常有用。 ... [详细]
  • Explore how Matterverse is redefining the metaverse experience, creating immersive and meaningful virtual environments that foster genuine connections and economic opportunities. ... [详细]
  • 火星商店问题:线段树分治与持久化Trie树的应用
    本题涉及编号为1至n的火星商店,每个商店有一个永久商品价值v。操作包括每天在指定商店增加一个新商品,以及查询某段时间内某些商店中所有商品(含永久商品)与给定密码值的最大异或结果。通过线段树分治和持久化Trie树来高效解决此问题。 ... [详细]
  • 高效提取PDF页面的实用技巧
    在学习和工作中,我们经常需要与他人共享PDF格式的资料。然而,有时只需要分享部分内容,而不仅仅是整个文档。本文将介绍如何使用福昕阅读器领鲜版高效地提取PDF页面,以提高文件传输效率和查阅便捷性。 ... [详细]
  • 在现代网络环境中,两台计算机之间的文件传输需求日益增长。传统的FTP和SSH方式虽然有效,但其配置复杂、步骤繁琐,难以满足快速且安全的传输需求。本文将介绍一种基于Go语言开发的新一代文件传输工具——Croc,它不仅简化了操作流程,还提供了强大的加密和跨平台支持。 ... [详细]
  • 本文介绍如何使用Python进行文本处理,包括分词和生成词云图。通过整合多个文本文件、去除停用词并生成词云图,展示文本数据的可视化分析方法。 ... [详细]
  • ASP.NET MVC中Area机制的实现与优化
    本文探讨了在ASP.NET MVC框架中,如何通过Area机制有效地组织和管理大规模应用程序的不同功能模块。通过合理的文件夹结构和命名规则,开发人员可以更高效地管理和扩展项目。 ... [详细]
  • 探索如何使用公共数据集为您的编程项目提供动力。无论您是编程新手还是有经验的开发者,本文将为您提供实用建议和资源,帮助您启动并运行一个创新的数据驱动型项目。 ... [详细]
  • ABBYY FineReader:高效PDF转换、精准OCR识别与文档对比工具
    在处理PDF转换和OCR识别时,您是否遇到过格式混乱、识别率低或图表无法正常识别的问题?ABBYY FineReader以其强大的功能和高精度的识别技术,完美解决这些问题,帮助您轻松找到最终版文档。 ... [详细]
  • InmyapplicationIhaveQGraphicsScenewithpixmapaddedandallisviewedinQGraphicsViewwithsc ... [详细]
  • Python 工具推荐 | PyHubWeekly 第二十一期:提升命令行体验的五大工具
    本期 PyHubWeekly 为大家精选了 GitHub 上五个优秀的 Python 工具,涵盖金融数据可视化、终端美化、国际化支持、图像增强和远程 Shell 环境配置。欢迎关注并参与项目。 ... [详细]
  • 深入理解 JMeter 定时器
    本文详细介绍了JMeter中定时器的功能和使用方法,探讨了其在性能测试中的重要性,并结合实际案例解释了如何合理配置定时器以模拟真实的用户行为。文章还涵盖了定时器的执行顺序及其与其他元件的相互作用。 ... [详细]
  • 本文旨在探讨如何利用决策树算法实现对男女性别的分类。通过引入信息熵和信息增益的概念,结合具体的数据集,详细介绍了决策树的构建过程,并展示了其在实际应用中的效果。 ... [详细]
  • 理解与应用:独热编码(One-Hot Encoding)
    本文详细介绍了独热编码(One-Hot Encoding)与哑变量编码(Dummy Encoding)两种方法,用于将分类变量转换为数值形式,以便于机器学习算法处理。文章不仅解释了这两种编码方式的基本原理,还探讨了它们在实际应用中的差异及选择依据。 ... [详细]
  • ML学习笔记20210824分类算法模型选择与调优
    3.模型选择和调优3.1交叉验证定义目的为了让模型得精度更加可信3.2超参数搜索GridSearch对K值进行选择。k[1,2,3,4,5,6]循环遍历搜索。API参数1& ... [详细]
author-avatar
爱这奋斗
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有