在Tableau中进行多表关联后统计时遇到的常见问题及解决方法

作者：手机用户2502936007 | 来源：互联网 | 2024-10-30 16:29

在使用Tableau进行多表关联统计时，常遇到数据不匹配、重复记录等问题。例如，在处理员工信息表时，若员工ID未正确关联，可能导致薪资统计错误。本文将详细探讨这些问题的成因，并提供有效的解决方案，如利用Tableau的数据清理工具和高级连接功能，确保数据准确性和完整性。

2019独角兽企业重金招聘Python工程师标准>>> 《Tableau多表关联之后统计遇到的问题》

问题描述

员工列表

员工ID	姓名	部门	月薪
1	李彦宏	销售部1	3000
2	周鸿祎	销售部1	3500
3	雷军	销售部2	2000
4	贾跃亭	销售部2	3100
5	董明珠	销售部3	4200
6	冯仑	销售部3	4100
7	马云	销售部3	3900

员工业绩单：

订单号	员工ID	订单业绩
1	2	1000
2	2	1100
3	4	1500
4	4	1800
5	4	2000
6	7	1500
7	7	1400
8	7	1600

其中两个表是通过员工ID来进行关联的，现在需要统计：

各个部门的总月薪
各个部门的总订单数
各个部门总月薪数的产出：订单总额/月薪

通过Tableau关联

发现统计的总月薪数不对：

问题分析

我们看到表关联之后两个表之间是对应1对多的关系，关联之后，出现了笛卡尔积：

mysql> SELECT employees.employee_id, employees.name, employees.salary, employees.employee_id, orders.order_id FROM employees LEFT JOIN orders ON employees.employee_id=orders.employee_id; +-------------+-----------+--------+-------------+----------+ | employee_id | name | salary | employee_id | order_id | +-------------+-----------+--------+-------------+----------+ | 2 | 周鸿祎 | 3500 | 2 | 1 | | 2 | 周鸿祎 | 3500 | 2 | 2 | | 4 | 贾跃亭 | 3100 | 4 | 3 | | 4 | 贾跃亭 | 3100 | 4 | 4 | | 4 | 贾跃亭 | 3100 | 4 | 5 | | 7 | 马云 | 3900 | 7 | 6 | | 7 | 马云 | 3900 | 7 | 7 | | 7 | 马云 | 3900 | 7 | 8 | | 1 | 李彦宏 | 3000 | 1 | NULL | | 3 | 雷军 | 2000 | 3 | NULL | | 5 | 董明珠 | 4200 | 5 | NULL | | 6 | 冯仑 | 4100 | 6 | NULL | +-------------+-----------+--------+-------------+----------+ 12 rows in set (0.00 sec)

因此在Tableau做聚合统计的时候，sum(salary)直接用了&＃8221;LEFT JOIN&＃8221;之后的表，其查询语句如下：

mysql> SELECT employees.employee_id, employees.name, sum(employees.salary), count(employees.employee_id) FROM employees LEFT JOIN orders ON employees.employee_id=orders.employee_id GROUP BY employees.employee_id; +-------------+-----------+-----------------------+------------------------------+ | employee_id | name | sum(employees.salary) | count(employees.employee_id) | +-------------+-----------+-----------------------+------------------------------+ | 1 | 李彦宏 | 3000 | 1 | | 2 | 周鸿祎 | 7000 | 2 | | 3 | 雷军 | 2000 | 1 | | 4 | 贾跃亭 | 9300 | 3 | | 5 | 董明珠 | 4200 | 1 | | 6 | 冯仑 | 4100 | 1 | | 7 | 马云 | 11700 | 3 | +-------------+-----------+-----------------------+------------------------------+

解决方案

为避免出现JOIN之后出现salary重复，不妨先在orders表里先算出，我们来回顾一下需求：

各个部门的总月薪
各个部门的总订单数
各个部门总月薪数的产出：订单总额/月薪

订单数和订单总额都可以在orders单表里查询出：

mysql> SELECT orders.employee_id, count(orders.order_id) AS order_count, sum(orders.amount) as order_amount FROM orders GROUP BY orders.employee_id; +-------------+-------------+--------------+ | employee_id | order_count | order_amount | +-------------+-------------+--------------+ | 2 | 2 | 2100 | | 4 | 3 | 5300 | | 7 | 3 | 4500 | +-------------+-------------+--------------+

这个表可以在Tableau创建数据连接的时候，自定义SQL:

然后在做LEFT JOIN:

统计出来的月薪正确了，如图：

Tableau实际上就将查询结果建立一个临时表之后在LEFT JOIN:

mysql> SELECT employees.employee_id, employees.department, employees.name, employees.salary, order_total_counts.order_count, order_total_counts.order_amount from employees LEFT JOIN (SELECT orders.employee_id, count(orders.order_id) AS order_count, sum(orders.amount) AS order_amount FROM orders GROUP BY orders.employee_id) order_total_counts ON employees.employee_id=order_total_counts.employee_id; +-------------+------------+-----------+--------+-------------+--------------+ | employee_id | department | name | salary | order_count | order_amount | +-------------+------------+-----------+--------+-------------+--------------+ | 1 | 销售部1 | 李彦宏 | 3000 | NULL | NULL | | 2 | 销售部1 | 周鸿祎 | 3500 | 2 | 2100 | | 3 | 销售部2 | 雷军 | 2000 | NULL | NULL | | 4 | 销售部2 | 贾跃亭 | 3100 | 3 | 5300 | | 5 | 销售部3 | 董明珠 | 4200 | NULL | NULL | | 6 | 销售部3 | 冯仑 | 4100 | NULL | NULL | | 7 | 销售部3 | 马云 | 3900 | 3 | 4500 | +-------------+------------+-----------+--------+-------------+--------------+

这样就可以完成按照部门来统计了：

转:https://my.oschina.net/caohong/blog/369104

推荐阅读

java
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
io
PHP 编程疑难解析与知识点汇总

本文详细解答了 PHP 编程中的常见问题，并提供了丰富的代码示例和解决方案，帮助开发者更好地理解和应用 PHP 知识。 ... [详细]

蜡笔小新 2024-12-28 12:22:34
python
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
python
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
io
深入理解 SQL 视图、存储过程与事务

本文详细介绍了SQL中的视图、存储过程和事务的概念及应用。视图为用户提供了一种灵活的数据查询方式，存储过程则封装了复杂的SQL逻辑，而事务确保了数据库操作的完整性和一致性。 ... [详细]

蜡笔小新 2024-12-27 17:40:42
io
构建基于BERT的中文NL2SQL模型：一个简明的基准

本文探讨了将自然语言转换为SQL语句（NL2SQL）的任务，这是人工智能领域中一项非常实用的研究方向。文章介绍了笔者在公司举办的首届中文NL2SQL挑战赛中的实践，该比赛提供了金融和通用领域的表格数据，并标注了对应的自然语言与SQL语句对，旨在训练准确的NL2SQL模型。 ... [详细]

蜡笔小新 2024-12-27 17:36:19
io
MyBatis 动态 SQL 详解与应用

本文深入探讨 MyBatis 中动态 SQL 的使用方法，包括 if/where、trim 自定义字符串截取规则、choose 分支选择、封装查询和修改条件的 where/set 标签、批量处理的 foreach 标签以及内置参数和 bind 的用法。 ... [详细]

蜡笔小新 2024-12-27 16:20:10
python
开源软件：新时代的商业机遇与挑战

在哈佛大学商学院举行的Cyberposium大会上，专家们深入探讨了开源软件的崛起及其对企业市场的影响。会议指出，开源软件不仅为企业提供了新的增长机会，还促进了软件质量的提升和创新。 ... [详细]

蜡笔小新 2024-12-27 14:49:56
python
寻找满足特定条件的整数N的最大和(a+b)

本文探讨了如何在给定整数N的情况下，找到两个不同的整数a和b，使得它们的和最大，并且满足特定的数学条件。 ... [详细]

蜡笔小新 2024-12-26 19:26:18
python
Go+ 中的上下文处理指南

本文详细介绍 Go+ 编程语言中的上下文处理机制，涵盖其基本概念、关键方法及应用场景。Go+ 是一门结合了 Go 的高效工程开发特性和 Python 数据科学功能的编程语言。 ... [详细]

蜡笔小新 2024-12-28 11:05:31
io
PHP 5.2.5 安装与配置指南

本文详细介绍了 PHP 5.2.5 的安装和配置步骤，帮助开发者解决常见的环境配置问题，特别是上传图片时遇到的错误。通过本教程，您可以顺利搭建并优化 PHP 运行环境。 ... [详细]

蜡笔小新 2024-12-27 19:05:41
io
探索适用于Spring Boot的Web版SQL管理工具

本文探讨了适用于Spring Boot应用程序的Web版SQL管理工具，这些工具不仅支持H2数据库，还能够处理MySQL和Oracle等主流数据库的表结构修改。 ... [详细]

蜡笔小新 2024-12-27 14:21:10
io
网站与MySQL数据库的连接与交互

本文详细介绍了如何通过多种编程语言（如PHP、JSP）实现网站与MySQL数据库的连接，包括创建数据库、表的基本操作，以及数据的读取和写入方法。 ... [详细]

蜡笔小新 2024-12-27 14:09:23
io
MySQL中枚举类型的所有可能值获取方法

本文介绍了一种在MySQL数据库中查询枚举（ENUM）类型字段所有可能取值的方法，帮助开发者更好地理解和利用这一数据类型。 ... [详细]

蜡笔小新 2024-12-27 10:36:44
io
解读MySQL查询执行计划的详细指南

本文旨在帮助开发者和数据库管理员深入了解如何解读MySQL查询执行计划。通过详细的解析，您将掌握优化查询性能的关键技巧，了解各种访问类型和额外信息的含义。 ... [详细]

蜡笔小新 2024-12-26 20:10:30

手机用户2502936007

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章