热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【2019全国职业技能大赛大数据技术】任务三:4数据清洗与分析(25分_题目+答案<图片+分值>)

【题目】现已从相关网站及平台获取到原始数据集,为保障用户隐私和行业敏感信息,已进行数据脱敏。数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及

【题目】

        现已从相关网站及平台获取到原始数据集,为保障用户隐私和行业敏感信息,已进行数据脱敏。数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的
情况、不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号等个人信息都需要进行数据脱敏。
        hoteldata.csv 文件中已经包含了数据采集阶段从酒店网站上爬取的数据集,其中包含了来自不同城市中多家酒店的销售信息,你的小组需要通过编写代码或脚本完成对文件 hoteldata.csv 中酒店销售管理数据的清洗和整理,并完成数据计算和分析任务。综合利用 MapReduce、Spark、Storm、分布式存储系统、数据仓库 Hive、数据推送工具等技术,使用 Java、Python 等开发语言,完成本阶段数据清洗、存储、转化、分析及数据推送等任务。通过多个维度分析酒店的销售信息,并以此评价酒店销售业绩、区域的游客接纳能力、接纳质量等指标。
        初始数据集来自多个网站及平台系统,且为多次采集汇总,因此数据集中不可避免地存在一些脏数据,即源数据不在给定的范围内或对于实际业务毫无意义,或是数据格式非法,以及在源系统中存在不规范的编码和含糊的业务逻辑。

请分析数据集 hoteldata,根据题目规定要求实现数据清洗及分析。




  1. 脱敏后的数据存放于 平台/h3cu/hoteldata.csv ;

  2. Spark maven 依赖 的 配置文件 样例 存放于 计算机 桌面/H3CU_hotel/spark_file ;

  3. 任务三 虚拟机账号/ 密码:hadoop/hadoop ; 虚拟机 MySQL 数据库 账号/密码:root/Password123$ ;

  4. 相关 jar 包 存放于 在 计算机 桌面/H3CU_hotel/jar 包 ;

  5. 本任务要求 使用的 编译 工具 为:IDEA 2019.1 (IntelliJ IDEA CommunityEdition 2019.1 x64) ) ;

  6. Jar 包可以 使用 XFTP 上传。



        1、 酒店销售数据涉及到多个平台及数据库对接,个别信息由于人为操作失误或计算机故障等原因产生了数据缺失值。缺失值是一种常见的脏数据情况,由于粗糙数据中缺少信息而造成的数据删失或截断。现有数据集中某个或某些属性的值是不完全的。对于缺失值的处理,从总体上来说分为缺失值删除和缺失值插补。当缺失值过多时,信息条目本身的价值也会随之降低,此时如果对缺失值进行填补则将产生结果的人为干预。结合行业数据本身特点及上述考虑,请你根据题目具体参数要求实现以下功能:将缺失值大于 n 个的数据条目剔除原始数据集,并输出剔除的条目数量,截图并保存结果。
详细描述:
         数据源文件存放于平台/h3cu/hoteldata.csv,请编写 Spark 程序,按照如下要求实现对数据的清洗,并将结果输出至 HDFS 文件系统中/hotelsparktask1。


  1. 解析/h3cu/hoteldata.csv;

  2. 将缺失值大于 n(n=3)个的数据条目剔除出原始数据集,并输出剔除的条目数量;

  3. 程 序 打 包 并 在 Spark 上 运 行 , 结 果 输 出 至 HDFS 文 件 系 统 中/hotelsparktask1。

具体任务要求:


  1. 将 hoteldata.csv 文件上传至 HDFS 新建目录/file3_1 中,将运行命令截图并保存;

  2. 运行代码,删除数据源中缺失值大于 3 个字段的数据,打印输出删除条目数,将打印输出结果截图并保存(截图需包含打印语句输出结果的上下各 5 行运行日志);

  3. 使 用 Hadoop shell 命 令 查 看 清 洗 后 输 出 的 结 果 文 件 总 行 数/hotelsparktask1,将运行结果截图并保存。




【答案】

1 、将 hoteldata.csv 文件上传至 HDFS 新建目录/file3_1 中,将运行命令截图并保存;(1分)
参考答案截图:红框区域结果一致得 1 分;


2) 运行代码,删除数据源中缺失值大于 3 个字段的数据,打印输出删除条目数,将打印输出结果截图并保存(截图需包含打印语句输出结果的上下各 5 行运行日志);(1分)
参考答案截图:每个红框区域结果一致得 0.5 分; (两个红框共 1 分 )


3) 使用 Hadoop shell 命令查看清洗后输出的结果文件总行数/hotelsparktask1,将运行结果截图并保存;(1 分)
参考答案截图:红框区域结果一致得 1 分;


推荐阅读
  • 本文详细介绍了优化DB2数据库性能的多种方法,涵盖统计信息更新、缓冲池调整、日志缓冲区配置、应用程序堆大小设置、排序堆参数调整、代理程序管理、锁机制优化、活动应用程序限制、页清除程序配置、I/O服务器数量设定以及编入组提交数调整等方面。通过这些技术手段,可以显著提升数据库的运行效率和响应速度。 ... [详细]
  • 本文深入探讨了MySQL中常见的面试问题,包括事务隔离级别、存储引擎选择、索引结构及优化等关键知识点。通过详细解析,帮助读者在面对BAT等大厂面试时更加从容。 ... [详细]
  • 深入解析Hadoop的核心组件与工作原理
    本文详细介绍了Hadoop的三大核心组件:分布式文件系统HDFS、资源管理器YARN和分布式计算框架MapReduce。通过分析这些组件的工作机制,帮助读者更好地理解Hadoop的架构及其在大数据处理中的应用。 ... [详细]
  • 前言无论是对于刚入行工作还是已经工作几年的java开发者来说,面试求职始终是你需要直面的一件事情。首先梳理自己的知识体系,针对性准备,会有事半功倍的效果。我们往往会把重点放在技术上 ... [详细]
  • 本文探讨了Web开发与游戏开发之间的主要区别,旨在帮助开发者更好地理解两种开发领域的特性和需求。文章基于作者的实际经验和网络资料整理而成。 ... [详细]
  • 目录一、salt-job管理#job存放数据目录#缓存时间设置#Others二、returns模块配置job数据入库#配置returns返回值信息#mysql安全设置#创建模块相关 ... [详细]
  • 本文详细介绍了如何正确配置Java环境变量PATH,以确保JDK安装完成后能够正常运行。文章不仅涵盖了基本的环境变量设置步骤,还提供了针对不同操作系统下的具体操作指南。 ... [详细]
  • 深入解析BookKeeper的设计与应用场景
    本文介绍了由Yahoo在2009年开发并于2011年开源的BookKeeper技术。BookKeeper是一种高效且可靠的日志流存储解决方案,广泛应用于需要高性能和强数据持久性的场景。 ... [详细]
  • 本文探讨了大型服务端开发过程中常见的几个误区,包括异步任务处理不当、日志同步模式使用、网络操作未设置超时、缓存命中率及响应时间未统计、单一缓存模式、分布式缓存加锁不当以及团队管理上的误区,旨在帮助开发者避免这些常见错误。 ... [详细]
  • 本文将详细介绍温莎大学的计算机科学硕士项目,尤其是其应用计算机科学分支,探讨其申请条件、课程设置及为何成为国际学生的热门选择。 ... [详细]
  • 创邻科技成功举办Graph+X生态合作伙伴大会,30余家行业领军企业共聚杭州
    9月22日,创邻科技在杭州举办“Graph+X”生态合作伙伴大会,汇聚了超过30家行业头部企业的50多位企业家和技术领袖,共同探讨图技术的前沿应用与发展前景。 ... [详细]
  • 本文探讨了现代分布式架构的多样性,包括高并发、多活数据中心、容器化、微服务、高可用性和弹性架构等,并介绍了与这些架构相关的重要管理技术,如DevOps、应用监控和自动化运维。文章还深入分析了分布式系统的核心概念、主要用途及类型,同时对比了单体应用与分布式服务化的优缺点。 ... [详细]
  • 为何我选择了华为云GaussDB数据库
    本文分享了作者选择华为云GaussDB数据库的理由,详细介绍了GaussDB(for MySQL)的技术特性和优势,以及它在金融和互联网行业的应用场景。 ... [详细]
  • 迎接云数据库新时代:程序员如何应对变革?
    在数据无处不在的时代,数据库成为了管理和处理数据的核心工具。从早期的信息记录方式到现代的云数据库,数据库技术经历了巨大的变革。本文将探讨云数据库的特点及其对程序员的影响。 ... [详细]
  • 本文深入探讨Java编程语言的关键特性,包括但不限于其简洁性、强大的面向对象能力、跨平台兼容性、安全机制、高效性能及多线程支持等方面。文章旨在为开发者提供全面理解Java特性的指导。 ... [详细]
author-avatar
拍友2502881913
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有