当前位置: 开发笔记 > 编程语言 > 正文

SQL去重的三种方法汇总

作者：狂风 | 来源：互联网 | 2023-09-23 18:29

欢迎关注方志朋的博客，回复”666“获面试宝典在使用SQL提数的时候，常会遇到表内有重复值的时候，比如我们想得到uv（独立访

欢迎关注方志朋的博客，回复”666“获面试宝典

在使用SQL提数的时候，常会遇到表内有重复值的时候，比如我们想得到 uv （独立访客），就需要做去重。

在 MySQL 中通常是使用 distinct 或 group by子句，但在支持窗口函数的 sql（如Hive SQL、Oracle等等）中还可以使用 row_number 窗口函数进行去重。

举个栗子，现有这样一张表 task：

备注：

task_id: 任务id;
order_id: 订单id;
start_time: 开始时间

注意：一个任务对应多条订单

我们需要求出任务的总数量，因为 task_id 并非唯一的，所以需要去重：

distinct

-- 列出 task_id 的所有唯一值（去重后的记录） -- select distinct task_id -- from Task;-- 任务总数 select count(distinct task_id) task_num from Task;

distinct 通常效率较低。它不适合用来展示去重后具体的值，一般与 count 配合用来计算条数。

distinct 使用中，放在 select 后边，对后面所有的字段的值统一进行去重。比如distinct后面有两个字段，那么 1,1 和 1,2 这两条记录不是重复值。

group by

-- 列出 task_id 的所有唯一值（去重后的记录,null也是值） -- select task_id -- from Task -- group by task_id;-- 任务总数 select count(task_id) task_num from (select task_idfrom Taskgroup by task_id) tmp;

row_number

row_number 是窗口函数，语法如下：

row_number() over (partition by <用于分组的字段名> order by <用于组内排序的字段名>)

其中 partition by 部分可省略。

-- 在支持窗口函数的 sql 中使用 select count(case when rn=1 then task_id else null end) task_num from (select task_id, row_number() over (partition by task_id order by start_time) rnfrom Task) tmp;

此外，再借助一个表 test 来理理 distinct 和 group by 在去重中的使用：

-- 下方的分号;用来分隔行 select distinct user_id from Test; -- 返回 1; 2select distinct user_id, user_type from Test; -- 返回1, 1; 1, 2; 2, 1select user_id from Test group by user_id; -- 返回1; 2select user_id, user_type from Test group by user_id, user_type; -- 返回1, 1; 1, 2; 2, 1select user_id, user_type from Test group by user_id; -- Hive、Oracle等会报错，mysql可以这样写。 -- 返回1, 1 或 1, 2 ; 2, 1（共两行）。只会对group by后面的字段去重，就是说最后返回的记录数等于上一段sql的记录数，即2条 -- 没有放在group by 后面但是在select中放了的字段，只会返回一条记录（好像通常是第一条，应该是没有规律的）

来源：blog.csdn.net/xienan_ds_zj/

article/details/103869048

热门内容：

再见了月薪3w的大后端，低代码开发已成气候！
今天面了个阿里出来的大佬，见识到了基础天花板！
发现一款好用到爆的数据库工具，被惊艳到了！
还在付费使用XShell？我选择这款国产良心工具，完全免费！
八股文！让我收获了诸多offer~

最近面试BAT，整理一份面试资料《Java面试BAT通关手册》，覆盖了Java核心技术、JVM、Java并发、SSM、微服务、数据库、数据结构等等。获取方式：点“在看”，关注公众号并回复 666 领取，更多内容陆续奉上。

明天见(｡･ω･｡)ﾉ♡

推荐阅读

java
达梦数据库连接频繁中断及特定SQL语句语法错误问题分析与解决

在使用达梦数据库时，管理员可能会遇到连接频繁中断或特定SQL语句语法错误的问题。这些问题通常源于开发人员在创建对象时的不规范操作。为了解决这些问题，建议对数据库配置进行优化，并确保所有SQL语句符合达梦数据库的标准语法。此外，定期检查和维护数据库连接参数，以及对异常日志进行详细分析，也有助于及时发现并解决问题。 ... [详细]

蜡笔小新 2024-11-11 17:31:49
io
使用JDBC实现ActiveMQ消息持久化机制深入解析

本文深入解析了通过JDBC实现ActiveMQ消息持久化的机制。JDBC能够将消息可靠地存储在多种关系型数据库中，如MySQL、SQL Server、Oracle和DB2等。采用JDBC持久化方式时，数据库会自动生成三个关键表：`activemq_msgs`、`activemq_lock`和`activemq_ACKS`，分别用于存储消息数据、锁定信息和确认状态。这种机制不仅提高了消息的可靠性，还增强了系统的可扩展性和容错能力。 ... [详细]

蜡笔小新 2024-11-10 14:41:02
bash
服务器部署中的安全策略实践与优化

服务器部署中的安全策略实践与优化 ... [详细]

蜡笔小新 2024-11-10 13:04:30
bash
使用Shell脚本高效部署MHA高可用集群

本文介绍了如何利用Shell脚本高效地部署MHA（MySQL High Availability）高可用集群。通过详细的脚本编写和配置示例，展示了自动化部署过程中的关键步骤和注意事项。该方法不仅简化了集群的部署流程，还提高了系统的稳定性和可用性。 ... [详细]

蜡笔小新 2024-11-10 10:15:46
metadata
掌握Spring框架前不可或缺的事务管理知识（第四部分）

在深入掌握Spring框架的事务管理之前，了解其背后的数据库事务基础至关重要。Spring的事务管理功能虽然强大且灵活，但其核心依赖于数据库自身的事务处理机制。因此，熟悉数据库事务的基本概念和特性是必不可少的。这包括事务的ACID属性、隔离级别以及常见的事务管理策略等。通过这些基础知识的学习，可以更好地理解和应用Spring中的事务管理配置。 ... [详细]

蜡笔小新 2024-11-07 19:31:36
hash
初探性能优化：入门指南与实践技巧

在编程领域，常有“尚未精通编码便急于优化”的声音。为了从性能优化的角度提升代码质量，本文将带领读者初步探索性能优化的基本概念与实践技巧。即使程序看似运行良好，数据处理效率仍有待提高，通过系统学习性能优化，能够帮助开发者编写更加高效、稳定的代码。文章不仅介绍了性能优化的基础知识，还提供了实用的调优方法和工具，帮助读者在实际项目中应用这些技术。 ... [详细]

蜡笔小新 2024-11-07 14:15:35
hash
企业应用BPM系统的基本概况与优势解析

近年来，BPM（业务流程管理）系统在国内市场逐渐普及，多家厂商在这一领域崭露头角。本文将对当前主要的BPM厂商进行概述，并分析其各自的优势。目前，市场上较为成熟的BPM产品主要分为两类：一类是综合型厂商，如IBM和SAP，这些企业在整体解决方案方面具有明显优势；另一类则是专注于BPM领域的专业厂商，它们在特定行业或应用场景中表现出色。通过对比分析，本文旨在为企业选择合适的BPM系统提供参考。 ... [详细]

蜡笔小新 2024-11-02 15:47:50
main
开机自启动的几种方式

0x01快速自启动目录快速启动目录自启动方式源于Windows中的一个目录，这个目录一般叫启动或者Startup。位于该目录下的PE文件会在开机后进行自启动 ... [详细]

蜡笔小新 2024-11-12 11:16:30
hash
深入解析NoSQL数据库：键值对、文档、列式存储与图数据库的应用与特点

本文深入探讨了NoSQL数据库的四大主要类型：键值对存储、文档存储、列式存储和图数据库。NoSQL（Not Only SQL）是指一系列非关系型数据库系统，它们不依赖于固定模式的数据存储方式，能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构；文档存储支持复杂的数据对象；列式存储优化了大数据量的读写性能；而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景，本文将详细分析它们的特点及应用实例。 ... [详细]

蜡笔小新 2024-11-09 14:47:28
default
Oracle 数据库操作日志与 MyBatis 在 Oracle 中的增删改查实现详解

本文详细介绍了在 Oracle 数据库中使用 MyBatis 实现增删改查操作的方法。针对查询操作，文章解释了如何通过创建字段映射来处理数据库字段风格与 Java 对象之间的差异，确保查询结果能够正确映射到持久层对象。此外，还探讨了插入、更新和删除操作的具体实现及其最佳实践，帮助开发者高效地管理和操作 Oracle 数据库中的数据。 ... [详细]

蜡笔小新 2024-11-09 14:28:39
post
Oracle字符集详解：图表解析与中文乱码解决方案

本文详细解析了 Oracle 数据库中的字符集机制，通过图表展示了不同字符集之间的转换过程，并针对中文乱码问题提供了有效的解决方案。文章深入探讨了字符集配置、数据迁移和兼容性问题，为数据库管理员和开发人员提供了实用的参考和指导。 ... [详细]

蜡笔小新 2024-11-08 11:50:24
bash
精选Linux经典著作在数字图书馆展出

数字图书馆近期展出了一批精选的Linux经典著作，这些书籍虽然部分较为陈旧，但依然具有重要的参考价值。如需转载相关内容，请务必注明来源：小文论坛（http://www.xiaowenbbs.com）。 ... [详细]

蜡笔小新 2024-11-08 10:55:29
format
如何使用mysql_nd：Python连接MySQL数据库的优雅指南

无论是进行机器学习、Web开发还是爬虫项目，数据库操作都是必不可少的一环。本文将详细介绍如何使用Python通过 `mysql_nd` 库与 MySQL 数据库进行高效连接和数据交互。内容涵盖以下几个方面： ... [详细]

蜡笔小新 2024-11-06 15:19:37
io
自定义实现 MySQL 连接池：从零构建数据库连接池并与 Spring Data 集成

在实际开发中，连接池是最常使用的数据库管理技术之一。连接池通过创建和管理一组预初始化的数据库连接，使得这些连接可以被多个线程复用，从而显著提高应用程序的性能和资源利用率。本文将详细介绍如何从零开始构建一个自定义的 MySQL 连接池，并将其与 Spring Data 进行集成，以实现高效、可靠的数据库操作。 ... [详细]

蜡笔小新 2024-11-05 16:26:02
io
项目开发中不可或缺的Linux命令详解

在项目开发过程中，掌握一些关键的Linux命令至关重要。例如，使用 `Ctrl+C` 可以立即终止当前正在执行的命令；通过 `ps -ef | grep ias` 可以查看特定服务的进程信息，包括进程ID（PID）和JVM参数（如内存分配和远程连接端口）；而 `netstat -apn | more` 则用于显示网络连接状态，帮助开发者监控和调试网络服务。这些命令不仅提高了开发效率，还能有效解决运行时的各种问题。 ... [详细]

蜡笔小新 2024-11-03 13:59:27

狂风

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章