作者:拍友2502881913 | 来源:互联网 | 2023-10-13 09:29
【题目】现已从相关网站及平台获取到原始数据集,为保障用户隐私和行业敏感信息,已进行数据脱敏。数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及
【题目】
现已从相关网站及平台获取到原始数据集,为保障用户隐私和行业敏感信息,已进行数据脱敏。数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的
情况、不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号等个人信息都需要进行数据脱敏。
hoteldata.csv 文件中已经包含了数据采集阶段从酒店网站上爬取的数据集,其中包含了来自不同城市中多家酒店的销售信息,你的小组需要通过编写代码或脚本完成对文件 hoteldata.csv 中酒店销售管理数据的清洗和整理,并完成数据计算和分析任务。综合利用 MapReduce、Spark、Storm、分布式存储系统、数据仓库 Hive、数据推送工具等技术,使用 Java、Python 等开发语言,完成本阶段数据清洗、存储、转化、分析及数据推送等任务。通过多个维度分析酒店的销售信息,并以此评价酒店销售业绩、区域的游客接纳能力、接纳质量等指标。
初始数据集来自多个网站及平台系统,且为多次采集汇总,因此数据集中不可避免地存在一些脏数据,即源数据不在给定的范围内或对于实际业务毫无意义,或是数据格式非法,以及在源系统中存在不规范的编码和含糊的业务逻辑。
请分析数据集 hoteldata,根据题目规定要求实现数据清洗及分析。
- 脱敏后的数据存放于 平台/h3cu/hoteldata.csv ;
- Spark maven 依赖 的 配置文件 样例 存放于 计算机 桌面/H3CU_hotel/spark_file ;
- 任务三 虚拟机账号/ 密码:hadoop/hadoop ; 虚拟机 MySQL 数据库 账号/密码:root/Password123$ ;
- 相关 jar 包 存放于 在 计算机 桌面/H3CU_hotel/jar 包 ;
- 本任务要求 使用的 编译 工具 为:IDEA 2019.1 (IntelliJ IDEA CommunityEdition 2019.1 x64) ) ;
- Jar 包可以 使用 XFTP 上传。
1、 酒店销售数据涉及到多个平台及数据库对接,个别信息由于人为操作失误或计算机故障等原因产生了数据缺失值。缺失值是一种常见的脏数据情况,由于粗糙数据中缺少信息而造成的数据删失或截断。现有数据集中某个或某些属性的值是不完全的。对于缺失值的处理,从总体上来说分为缺失值删除和缺失值插补。当缺失值过多时,信息条目本身的价值也会随之降低,此时如果对缺失值进行填补则将产生结果的人为干预。结合行业数据本身特点及上述考虑,请你根据题目具体参数要求实现以下功能:将缺失值大于 n 个的数据条目剔除原始数据集,并输出剔除的条目数量,截图并保存结果。
详细描述:
数据源文件存放于平台/h3cu/hoteldata.csv,请编写 Spark 程序,按照如下要求实现对数据的清洗,并将结果输出至 HDFS 文件系统中/hotelsparktask1。
- 解析/h3cu/hoteldata.csv;
- 将缺失值大于 n(n=3)个的数据条目剔除出原始数据集,并输出剔除的条目数量;
- 程 序 打 包 并 在 Spark 上 运 行 , 结 果 输 出 至 HDFS 文 件 系 统 中/hotelsparktask1。
具体任务要求:
- 将 hoteldata.csv 文件上传至 HDFS 新建目录/file3_1 中,将运行命令截图并保存;
- 运行代码,删除数据源中缺失值大于 3 个字段的数据,打印输出删除条目数,将打印输出结果截图并保存(截图需包含打印语句输出结果的上下各 5 行运行日志);
- 使 用 Hadoop shell 命 令 查 看 清 洗 后 输 出 的 结 果 文 件 总 行 数/hotelsparktask1,将运行结果截图并保存。
【答案】
1 、将 hoteldata.csv 文件上传至 HDFS 新建目录/file3_1 中,将运行命令截图并保存;(1分)
参考答案截图:红框区域结果一致得 1 分;
2) 运行代码,删除数据源中缺失值大于 3 个字段的数据,打印输出删除条目数,将打印输出结果截图并保存(截图需包含打印语句输出结果的上下各 5 行运行日志);(1分)
参考答案截图:每个红框区域结果一致得 0.5 分; (两个红框共 1 分 )
3) 使用 Hadoop shell 命令查看清洗后输出的结果文件总行数/hotelsparktask1,将运行结果截图并保存;(1 分)
参考答案截图:红框区域结果一致得 1 分;