delhpi7tcombobox清楚重复项_重复数据问题重要性从未改变，3种方法清楚认识python如何处理...

作者：aa杨钦佳_170 | 来源：互联网 | 2023-07-15 18:10

前言数据的价值在当今社会被大众广泛认知，特别是在互联网行业，数据价值的媒介被不断探索、发现、沉淀，最后进行价值输出。在普通大众眼里

前言

数据的价值在当今社会被大众广泛认知&＃xff0c;特别是在互联网行业&＃xff0c;数据价值的媒介被不断探索、发现、沉淀&＃xff0c;最后进行价值输出。在普通大众眼里&＃xff0c;可能对大数据的概念并不熟悉&＃xff0c;但是其社会行动及日常生活却被大数据仅仅围绕。比如&＃xff0c;现在渗透率极高对电商行业&＃xff0c;出行等&＃xff0c;一些服务方式正是通过大数据手段来实现的。

大数据概念一度被热议&＃xff0c;且具有争议。小编比较认同的一个概念是&＃xff0c;大数据指的是内存中无法存储下的数据&＃xff0c;比较模糊&＃xff0c;至少觉得比用数据量来衡量更好&＃xff0c;原因是数据量是个相对概念&＃xff0c;存疑点较多。

无论是大数据还是其他&＃xff0c;数据是基础&＃xff0c;这是毋庸置疑的。结构化数据、非结构化数据或半结构化数据&＃xff0c;三种数据类型想必大家是经常听说的。那么&＃xff0c;于此之前&＃xff0c;一个重要的环节则是数据采集&＃xff0c;采集来的数据针对不同的类型&＃xff0c;存储到不同的数据库中。数据库类型中常用的结构化数据库有MySQL&＃xff0c;非结构化数据库有MongoDB、HBase等。

数据采集后&＃xff0c;接下来更为重要的是数据处理&＃xff0c;此环节关乎数据质量以及后期的数据应用、数据可视化、机器学习、深度学习等。

数据处理涉及的内容叶较为丰富&＃xff0c;比如缺失值、异常值、重复数据等。拥有数据处理能力的工具和语言也比较丰富&＃xff0c;如SPSS、SAS、R语言、Python语言等。

小编接下来使用python语言&＃xff0c;分享重复数据处理方法。大家可能会认为&＃xff0c;重复数据耳熟能详&＃xff0c;很简单啊。如果以往未进行细致研究的人&＃xff0c;若有此类观点&＃xff0c;接下来的内容会其则是有助益的。

什么是重复数据&＃xff1f;

在日常的数据采集中&＃xff0c;经常会发现重复数据&＃xff0c;那么什么是重复数据呢&＃xff1f;我们通过一个例子来直观感受一下。

我们以python 包pandas 数据结构为例&＃xff0c;来看重复数据处理问题。小编在下文生成来一份data数据&＃xff0c;具体如下&＃xff1a;

In [131]:from pandas import Series,DataFrame In [132]: data&＃61;DataFrame({&＃39;k1&＃39;:[&＃39;one&＃39;]*3&＃43;[&＃39;two&＃39;]*4,&＃39;k2&＃39;:[1,1,2,3,3,4,4]}) In [133]: data Out[133]: k1 k2 0 one 1 1 one 1 2 one 2 3 two 3 4 two 3 5 two 4 6 two 4

对于上述data数据集进行重复数据统计视图&＃xff0c;以柱状图的方式直观查看数据重复情况&＃xff0c;具体如下图所示&＃xff1a;

从上文数据中&＃xff0c;我们可以发现k1&＃61;‘one’且k2&＃61;1的数据有两条&＃xff0c;k1&＃61;‘two’且k2&＃61;3的数据有两条&＃xff0c;k1&＃61;‘two’且k2&＃61;4的数据有两条&＃xff0c;这三类都是data数据集中的重复数据。大家可能认为&＃xff0c;有重复数据有什么问题&＃xff1f;在一些数据分析场景中&＃xff0c;重复数据会影响数据分析结果&＃xff0c;以及反应客观现实的准确性。

话不多说&＃xff0c;接下来&＃xff0c;小编带领大家一起来学习如何通过python语言&＃xff0c;进行重复数据处理&＃xff0c;主要通过三步法来完成&＃xff0c;分别为判断重复行、删除重复行、保留最后一个。

重复数据处理三方法

python处理重复数据的三方法&＃xff0c;具体如下图所示&＃xff1a;

第一&＃xff1a;判断重复行

DataFrame的duplicated方法返回一个布尔型Series&＃xff0c;表示各行是否是重复行&＃xff1a;

In [134]: data.duplicated() Out[134]: 0 False 1 True 2 False 3 False 4 True 5 False 6 True dtype: bool

第二&＃xff1a;删除重复行

还有一个与此相关的drop_duplicates方法&＃xff0c;它用于返回一个移除了重复行的DataFrame&＃xff1a;

In [135]: data.drop_duplicates() Out[135]: k1 k2 0 one 1 2 one 2 3 two 3 5 two 4

这两个方法默认会判断全部列&＃xff0c;也可以指定部分列进行重复项判断&＃xff0c;假设还有一列值&＃xff0c;且只希望根据k1列过滤重复项&＃xff1a;

In [136]: data[&＃39;v1&＃39;]&＃61;range(7) In [137]: data.drop_duplicates([&＃39;k1&＃39;]) Out[137]: k1 k2 v1 0 one 1 0 3 two 3 3

第三&＃xff1a;保留最后一个

Duplicated和drop_duplicates默认保留的是第一个出现的值组合。传入take_last&＃61;True则保留最后一个&＃xff1a;

In [138]: data.drop_duplicates([&＃39;k1&＃39;,&＃39;k2&＃39;],take_last&＃61;True) Out[138]: k1 k2 v1 1 one 1 1 2 one 2 2 4 two 3 4 6 two 4 6

总结

重复数据问题重要性从未改变&＃xff0c;3种方法清楚认识python如何处理重复数据。python处理重复数据方法简单、方便、快捷、灵活性强&＃xff0c;大家不妨亲自体验一下&＃xff0c;更多分享内容&＃xff0c;可关注小编&＃xff0c;感谢&＃xff01;

推荐阅读

python
腾讯安全平台部招聘安全工程师和数据分析工程师

腾讯安全平台部正在招聘安全工程师和数据分析工程师。安全工程师负责安全问题和安全事件的跟踪和分析，提供安全测试技术支持；数据分析工程师负责安全产品相关系统数据统计和分析挖掘，通过用户行为数据建模为业务决策提供参考。招聘要求包括熟悉渗透测试和常见安全工具原理，精通Web漏洞，熟练使用多门编程语言等。有相关工作经验和在安全站点发表作品的候选人优先考虑。 ... [详细]

蜡笔小新 2023-12-10 17:01:40
bit
android studio生成jks,android studio生成 keystore 以及获取 SHA1值等

合并列值－合并为一列问题需求：createtabletab(Aint,Bint,Cint)inserttabselect1,2,3unionallsel ... [详细]

蜡笔小新 2023-12-11 12:32:55
format
Python实验报告文档中的文件和数据格式化操作

本文介绍了Python语言程序设计中文件和数据格式化的操作，包括使用np.savetext保存文本文件，对文本文件和二进制文件进行统一的操作步骤，以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]

蜡笔小新 2023-12-10 17:02:16
format
PHP组合工具以及开发所需的工具

本文介绍了PHP开发中常用的组合工具和开发所需的工具。对于数据分析软件，包括Excel、hihidata、SPSS、SAS、MARLAB、Eview以及各种BI与报表工具等。同时还介绍了PHP开发所需的PHP MySQL Apache集成环境，包括推荐的AppServ等版本。 ... [详细]

蜡笔小新 2023-12-09 17:36:44
python
python对excel增删改查_Python（数据分析篇） Pandas框架【一】DataFrame数据创建以及元素的增删改查...

文章目录前言pandas主要分为如下几个阶段：表格数据操作：增删改查实现多个表格的处理数据清洗操作：缺失值、重复值、异常值、数据标准化、数 ... [详细]

蜡笔小新 2023-10-17 14:45:06
python
2018年人工智能大数据的爆发，学Java还是Python？

本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代，Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言，容易上手。其特色之一是强制使用空白符作为语句缩进，使得新手可以快速上手。目前，Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣，欢迎加入qq群458345782。 ... [详细]

蜡笔小新 2023-12-14 20:08:28
python
YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程

本文介绍了关于人工智能、神经网络和深度学习的知识点，并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说，YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容，以及选择模型的优化思路。 ... [详细]

蜡笔小新 2023-12-14 18:28:01
client
安装mysqlclient失败解决办法

本文介绍了在MAC系统中，使用django使用mysql数据库报错的解决办法。通过源码安装mysqlclient或将mysql_config添加到系统环境变量中，可以解决安装mysqlclient失败的问题。同时，还介绍了查看mysql安装路径和使配置文件生效的方法。 ... [详细]

蜡笔小新 2023-12-14 18:24:10
default
使用 Ubuntu 中的 Python 获取浏览器历史记录

使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]

蜡笔小新 2023-12-14 08:57:59
format
Python 可视化 | Seaborn5 分钟入门 (六)——heatmap 热力图

微信公众号：「Python读财」如有问题或建议，请公众号留言Seaborn是基于matplotlib的Python可视化库。它提供了一个高级界面来绘制有吸引力的统计图形。Seabo ... [详细]

蜡笔小新 2023-10-17 17:48:15
jsp
3年半巨亏242亿！商汤高估了深度学习，下错了棋？

转自：新智元三年半研发开支近70亿，累计亏损242亿。AI这门生意好像越来越不好做了。近日，商汤科技已向港交所递交IPO申请。招股书显示& ... [详细]

蜡笔小新 2023-10-17 16:41:52
python
python打卡记录去重_Python零基础学习笔记与记录之一（了解Python这个小伙伴）

本人学习笔记，知识点均摘自于网络，用于学习和交流(如未注明出处，请提醒，将及时更正，谢谢)OS:我学习是为了上 ... [详细]

蜡笔小新 2023-10-17 16:05:58
split
词向量计算文本相似度,通过词向量求文本相似度

基于词向量计算文本相似度1.测试数据：链接：https:pan.baidu.coms1fXJjcujAmAwTfsuTg2CbWA提取码：f4vx2.实验代码：imp ... [详细]

蜡笔小新 2023-10-17 12:10:15
python
人工智能推理能力与假设检验

最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发，逻辑推理，发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]

蜡笔小新 2023-10-17 10:01:37
python
折腾个半死，数据库初始化设置不当报错 ORA01078: failure in proces...

2019独角兽企业重金招聘Python工程师标准[oraclelocalhost~]$sqlplusassysdba提示Connectedtoanidleinstance.连 ... [详细]

蜡笔小新 2023-10-17 07:57:52

aa杨钦佳_170

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章