当前位置: 开发笔记 > 编程语言 > 正文

数据分析师之快速掌握SQL基础

作者：michaelma423 | 来源：互联网 | 2023-10-10 14:03

第一时间获取好内容

点击上方“ 大数据与人工智能 ”，“星标或置顶公众号”

第一时间获取好内容

数据分析师之快速掌握 SQL 基础

作者丨斌迪

这是作者的第 3 篇文章

SQL技能是数据分析师的必备技能，作者在之前的文章《你不知道的数据分析师》中也提到了，数据分析师50%的时间都在写SQL。

本文将从一道数据分析师的SQL面试题开始分析讲解，期间，会涉及到SQL的基础操作和分析函数的使用等知识点，然后为大家总结出了一份快速掌握SQL基础的指南，希望能够帮助到SQL初学者。

一道SQL面试题

这是一道来自百度数据部门的面试题，主要考察row_number的使用。

题目： SQL语句如何查询各用户最长连续登录天数？如图左边是源表User,右边是需要达到的查询结果。

数据分析师之快速掌握 SQL 基础

Step 1 审题

数据分析师之快速掌握 SQL 基础

各用户最长的连续登录天数，先要确定连续登录的数据特征，日期表现为每个用户的后一天和前一天的差值为1，不能为大于1的值，一旦大于1也就间断了。那么可以设置一列序号，如果是连续的话，这列序号也是会随着日期同步增长的，那么日期减去这个序号，应该都是一个确定的日期。

比如说2017年1月1号对应的序号是1，2017年1月2号对应的序号是2，2017年1月3号对应的序号是3，那么2017年1月1号-1=2016年12月31号，同理，2017年1月2号-2=2016年12月31号，都是同样的日期。

根据这个日期与序号之差和UID进行分组统计出不同UID和差值的数量，最后按照UID分组统计出数量的最大值。具体流程见下图：

数据分析师之快速掌握 SQL 基础

Step 2 创建表

数据分析师之快速掌握 SQL 基础

CREATE TABLE IF NOT EXISTS `loadrecord` (

`uid` int,

`loadtime` string

) ;

INSERT INTO `loadrecord` (`uid`, `loadtime`) VALUES

('201', '2017/1/1'),

('201', '2017/1/2'),

('202', '2017/1/2'),

('202', '2017/1/3'),

('203', '2017/1/3'),

('201', '2017/1/4'),

('202', '2017/1/4'),

('201', '2017/1/5'),

('202', '2017/1/5'),

('201', '2017/1/6'),

('203', '2017/1/6'),

('203', '2017/1/7');

数据分析师之快速掌握 SQL 基础

Step 3 添加一列日期序号

数据分析师之快速掌握 SQL 基础

select uid,loadtime,row_number() over (partition by uid order by loadtime) as row_num

from loadrecord;

结果如下图所示：

数据分析师之快速掌握 SQL 基础

这里用到了 row_number窗口分析函数 ，将每个用户按照登录日期升序进行编号。

数据分析师之快速掌握 SQL 基础

Step 4 获得一个新日期

数据分析师之快速掌握 SQL 基础

select uid,loadtime,row_number() over (partition by uid order by loadtime) asrow_num,date_sub(regexp_replace(loadtime,'/','-'),row_number() over (partition by uid order by loadtime)) as new_loadtime

from loadrecord

数据分析师之快速掌握 SQL 基础

这里先用字符串函数regexp_replace将日期格式修改为"yyyy-MM-dd"格式，然后用date_sub函数将日期相减。

数据分析师之快速掌握 SQL 基础

Step 5 第一次聚合

数据分析师之快速掌握 SQL 基础

select uid,new_loadtime,count(uid) as new_loadtime_num

from

(

select uid,loadtime,row_number() over(partition by uid order by loadtime) as row_num,date_sub(regexp_replace(loadtime,'/','-'),row_number() over (partition by uid order by loadtime)) as new_loadtime

from loadrecord

) a

group by uid,new_loadtime

数据分析师之快速掌握 SQL 基础

这里使用了count聚合函数和子查询操作，通过这一次的聚合统计出每个用户对应的所有连续登录的天数。

数据分析师之快速掌握 SQL 基础

Step 6 审题

数据分析师之快速掌握 SQL 基础

select uid,max(new_loadtime_num) as max_new_loadtime_num

from

(

select uid,new_loadtime,count(uid) asnew_loadtime_num

from

(

select uid,loadtime,row_number() over(partition by uid order by loadtime) as row_num,date_sub(regexp_replace(loadtime,'/','-'),row_number() over (partition by uid order by loadtime)) as new_loadtime

from loadrecord

) a

group by uid,new_loadtime

) b

group by uid

数据分析师之快速掌握 SQL 基础

这里使用了max聚合函数和子查询操作，通过这一次的聚合统计出每个用户对应的最大的登录时长。

到此，以上为这道SQL题目的完整解答过程，整个过程涉及SQL的基础操作（建表、查询、限定、排序）的同时，也加入了聚合函数、子查询和窗户分析函数相对进阶的操作。

各用户最长的连续登录天数-这样短短的12个字，翻译成SQL语句居然用到了两层嵌套查询、两个聚合操作、一个日期操作和一个窗口分析函数。其实在数据分析师的日常工作中，比这道SQL题目复杂的需求也是常见的，所以学好SQL对于数据分析师工作的重要性也就不言而喻了吧。

本文的后半部分将用思维导图的方式给初学者总结出一份快速学习SQL的指南，主要是一些常用的知识点，根据二八定律，只需掌握最重要的20%核心知识点，就足以胜任80%的常见工作，这里总结的应该超过了20%，足够用了。

SQL学习指南

数据分析师之快速掌握 SQL 基础

Stage 1 基础入门

数据分析师之快速掌握 SQL 基础

本阶段是基础入门，了解SQL的基本语法，主要涉及表的操作。

数据分析师之快速掌握 SQL 基础

Stape 2 基础查询

数据分析师之快速掌握 SQL 基础

查询操作是最常用的最重要的，下图是基础查询用到的列的操作、运算符、结果限定的语法。

数据分析师之快速掌握 SQL 基础

Stape 3 复杂查询

数据分析师之快速掌握 SQL 基础

复杂查询包括子查询、关联子查询和视图，这一部分的内容如果掌握了，可以实际工作中的很多问题。

数据分析师之快速掌握 SQL 基础

Stape 4 数据更新

数据分析师之快速掌握 SQL 基础

本阶段学习数据更新的基本操作，包括插入、删除和更新。

数据分析师之快速掌握 SQL 基础

Stape 5 常用函数

数据分析师之快速掌握 SQL 基础

本阶段学习常用函数，此处按照熟悉函数、字符串函数、日期函数、转换函数列举了较常用的函数，不同的数据库对应的函数名称可能会不一样，大家在使用的时候可以查阅相应数据库的函数文档。

数据分析师之快速掌握 SQL 基础

Stape 6 聚合排序

数据分析师之快速掌握 SQL 基础

本阶段学习聚合和排序，主要介绍聚合查询、分组、分组后筛选、分居后排序的语法和注意事项。一般在实际工作中使用的时候，书写顺序是： select->from->where->group by->having->order by，但是实际的执行顺序是： from->where->group by->having->select->order by（选表->筛选记录->分组->分组后筛选->选列->排序）。

数据分析师之快速掌握 SQL 基础

Stape 7 集合操作

数据分析师之快速掌握 SQL 基础

本阶段学习集合操作，包括表的加减、表的联结。实际工作用多表的联结是很常见的，这里的思维导图列出来的知识点相对比较基础，大家可以在此基础上查阅相应的资料进行补充学习。

数据分析师之快速掌握 SQL 基础

SQL的掌握重在实践，多在实际操作中使用，不必死记硬背语法和函数，把它当做一个工具箱，遇到问题的时候打开工具箱取出相应的工具来解决具体的问题，而打开工具箱的方式多种多样-记忆力超群的你各种函数了然于胸、借助平台提示、搜索引擎搜索等等。

最后，福利送书 环节。

关注公众号，后台回复“SQL入门书籍”，可以领取《SQL基础教程（第2版）》高清完整电子版书籍-非拍照版，本篇文章的大部分的知识点都是来自这本书。

-end-

数据分析师之快速掌握 SQL 基础

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们

推荐阅读

get
构建Python自助式数据查询系统

在现代数据密集型环境中，业务团队频繁需要从数据库中提取特定信息。为了提高效率并减少IT部门的工作负担，本文探讨了一种利用Python语言实现的自助数据查询工具的设计与实现。 ... [详细]

蜡笔小新 2024-11-25 17:55:33
get
SQL 数据恢复技巧：利用快照实现高效恢复

本文详细介绍了如何在 SQL 中通过数据库快照实现数据恢复，包括快照的创建、使用及恢复过程，旨在帮助读者深入了解这一技术并有效应用于实际场景。 ... [详细]

蜡笔小新 2024-11-25 18:00:40
byte
时序数据库的应用与设计策略

时序数据是指按时间顺序排列的数据集。通过时间轴上的数据点连接，可以构建多维度报表，揭示数据的趋势、规律及异常情况。 ... [详细]

蜡笔小新 2024-11-26 17:30:42
get
深入解析Android联系人数据库设计：AbstractContactsProvider

本文探讨了Android系统中联系人数据库的设计，特别是AbstractContactsProvider类的作用与实现。文章提供了对源代码的详细分析，并解释了该类如何支持跨数据库操作及事务处理。源代码可从官方Android网站下载。 ... [详细]

蜡笔小新 2024-11-24 18:04:54
perl
将XML数据迁移至Oracle Autonomous Data Warehouse (ADW)

随着Oracle ADW的推出，数据迁移至ADW成为业界关注的焦点。特别是XML和JSON这类结构化数据的迁移需求日益增长。本文将通过一个实际案例，探讨如何高效地将XML数据迁移至ADW。 ... [详细]

蜡笔小新 2024-11-23 20:27:56
get
BeautifulSoup4：Python的HTML/XML解析利器

BeautifulSoup4 是一个功能强大的HTML和XML解析库，它能够帮助开发者轻松地从网页中提取信息。本文将介绍BeautifulSoup4的基本功能、安装方法、与其他解析工具的对比以及简单的使用示例。 ... [详细]

蜡笔小新 2024-11-26 14:44:14
get
PHP 5.4 下 Windows 7 环境中 Memcached 分布式缓存的安装与配置

本文详细介绍了在 Windows 7 上安装和配置 PHP 5.4 的 Memcached 分布式缓存系统的方法，旨在减少数据库的频繁访问，提高应用程序的响应速度。 ... [详细]

蜡笔小新 2024-11-26 04:43:01
uri
深入解析轻量级数据库 SQL Server Express LocalDB

本文详细介绍了 SQL Server Express LocalDB，这是一种轻量级的本地 T-SQL 数据库解决方案，特别适合开发环境使用。文章还探讨了 LocalDB 与其他轻量级数据库的对比，并提供了安装和连接 LocalDB 的步骤。 ... [详细]

蜡笔小新 2024-11-25 20:36:01
get
Oracle RMAN 增量备份详解：差异增量与累积增量

本文详细介绍了Oracle RMAN中的增量备份机制，重点解析了差异增量和累积增量备份的概念及其在不同Oracle版本中的实现。通过对比两种备份方式的特点，帮助读者选择合适的备份策略。 ... [详细]

蜡笔小新 2024-11-25 19:07:53
get
深入理解PHP中的超全局变量与AJAX技术

本文详细介绍了PHP中的几种超全局变量，包括$GLOBAL、$_SERVER、$_POST、$_GET等，并探讨了AJAX的工作原理及其优缺点。通过具体示例，帮助读者更好地理解和应用这些技术。 ... [详细]

蜡笔小新 2024-11-24 16:35:09
get
41款高效LISP工具助力数据处理全流程

本文由公众号【数智物语】(ID: decision_engine)发布，关注获取更多干货。文章探讨了从数据收集到清洗、建模及可视化的全过程，介绍了41款实用工具，旨在帮助数据科学家和分析师提升工作效率。 ... [详细]

蜡笔小新 2024-11-24 00:11:50
get
Laravel中使用Select进行数据库查询

本文介绍了如何在Laravel框架中使用Select方法进行数据库查询，特别是当需要根据传入的分类ID查询相关产品时的正确做法和注意事项。 ... [详细]

蜡笔小新 2024-11-25 20:45:37
version
详解MyBatis二级缓存的启用与配置

本文深入探讨了MyBatis二级缓存的启用方法及其配置细节，通过具体的代码实例进行说明，有助于开发者更好地理解和应用这一特性，提升应用程序的性能。 ... [详细]

蜡笔小新 2024-11-25 17:47:13
version
深入解析MySQL中的SQLTEXT、DATE及SET数据类型

本文将详细探讨MySQL中较为特殊的三种数据类型：SQLTEXT、DATE以及SET，包括它们的基本用法、适用场景及一些高级特性。 ... [详细]

蜡笔小新 2024-11-25 13:12:37
get
解决ORA-00227错误：控制文件中检测到损坏块

本文详细介绍了如何处理Oracle数据库中的ORA-00227错误，即控制文件中检测到损坏块的问题，并提供了具体的解决方案。 ... [详细]

蜡笔小新 2024-11-25 11:31:38

michaelma423

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章