热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【2019全国职业技能大赛大数据技术】任务三:4数据清洗与分析(25分_题目+答案<图片+分值>)

【题目】现已从相关网站及平台获取到原始数据集,为保障用户隐私和行业敏感信息,已进行数据脱敏。数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及

【题目】

        现已从相关网站及平台获取到原始数据集,为保障用户隐私和行业敏感信息,已进行数据脱敏。数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的
情况、不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号等个人信息都需要进行数据脱敏。
        hoteldata.csv 文件中已经包含了数据采集阶段从酒店网站上爬取的数据集,其中包含了来自不同城市中多家酒店的销售信息,你的小组需要通过编写代码或脚本完成对文件 hoteldata.csv 中酒店销售管理数据的清洗和整理,并完成数据计算和分析任务。综合利用 MapReduce、Spark、Storm、分布式存储系统、数据仓库 Hive、数据推送工具等技术,使用 Java、Python 等开发语言,完成本阶段数据清洗、存储、转化、分析及数据推送等任务。通过多个维度分析酒店的销售信息,并以此评价酒店销售业绩、区域的游客接纳能力、接纳质量等指标。
        初始数据集来自多个网站及平台系统,且为多次采集汇总,因此数据集中不可避免地存在一些脏数据,即源数据不在给定的范围内或对于实际业务毫无意义,或是数据格式非法,以及在源系统中存在不规范的编码和含糊的业务逻辑。

请分析数据集 hoteldata,根据题目规定要求实现数据清洗及分析。




  1. 脱敏后的数据存放于 平台/h3cu/hoteldata.csv ;

  2. Spark maven 依赖 的 配置文件 样例 存放于 计算机 桌面/H3CU_hotel/spark_file ;

  3. 任务三 虚拟机账号/ 密码:hadoop/hadoop ; 虚拟机 MySQL 数据库 账号/密码:root/Password123$ ;

  4. 相关 jar 包 存放于 在 计算机 桌面/H3CU_hotel/jar 包 ;

  5. 本任务要求 使用的 编译 工具 为:IDEA 2019.1 (IntelliJ IDEA CommunityEdition 2019.1 x64) ) ;

  6. Jar 包可以 使用 XFTP 上传。



        1、 酒店销售数据涉及到多个平台及数据库对接,个别信息由于人为操作失误或计算机故障等原因产生了数据缺失值。缺失值是一种常见的脏数据情况,由于粗糙数据中缺少信息而造成的数据删失或截断。现有数据集中某个或某些属性的值是不完全的。对于缺失值的处理,从总体上来说分为缺失值删除和缺失值插补。当缺失值过多时,信息条目本身的价值也会随之降低,此时如果对缺失值进行填补则将产生结果的人为干预。结合行业数据本身特点及上述考虑,请你根据题目具体参数要求实现以下功能:将缺失值大于 n 个的数据条目剔除原始数据集,并输出剔除的条目数量,截图并保存结果。
详细描述:
         数据源文件存放于平台/h3cu/hoteldata.csv,请编写 Spark 程序,按照如下要求实现对数据的清洗,并将结果输出至 HDFS 文件系统中/hotelsparktask1。


  1. 解析/h3cu/hoteldata.csv;

  2. 将缺失值大于 n(n=3)个的数据条目剔除出原始数据集,并输出剔除的条目数量;

  3. 程 序 打 包 并 在 Spark 上 运 行 , 结 果 输 出 至 HDFS 文 件 系 统 中/hotelsparktask1。

具体任务要求:


  1. 将 hoteldata.csv 文件上传至 HDFS 新建目录/file3_1 中,将运行命令截图并保存;

  2. 运行代码,删除数据源中缺失值大于 3 个字段的数据,打印输出删除条目数,将打印输出结果截图并保存(截图需包含打印语句输出结果的上下各 5 行运行日志);

  3. 使 用 Hadoop shell 命 令 查 看 清 洗 后 输 出 的 结 果 文 件 总 行 数/hotelsparktask1,将运行结果截图并保存。




【答案】

1 、将 hoteldata.csv 文件上传至 HDFS 新建目录/file3_1 中,将运行命令截图并保存;(1分)
参考答案截图:红框区域结果一致得 1 分;


2) 运行代码,删除数据源中缺失值大于 3 个字段的数据,打印输出删除条目数,将打印输出结果截图并保存(截图需包含打印语句输出结果的上下各 5 行运行日志);(1分)
参考答案截图:每个红框区域结果一致得 0.5 分; (两个红框共 1 分 )


3) 使用 Hadoop shell 命令查看清洗后输出的结果文件总行数/hotelsparktask1,将运行结果截图并保存;(1 分)
参考答案截图:红框区域结果一致得 1 分;


推荐阅读
  • 本文介绍如何通过整合SparkSQL与Hive来构建高效的用户画像环境,提高数据处理速度和查询效率。 ... [详细]
  • 本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS,然后通过MapReduce清洗数据,使用Hive进行数据分析,并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • PHP中元素的计量单位是什么? ... [详细]
  • 本文详细探讨了在Web开发中常见的UTF-8编码问题及其解决方案,包括HTML页面、PHP脚本、MySQL数据库以及JavaScript和Flash应用中的乱码问题。 ... [详细]
  • PHP面试题精选及答案解析
    本文精选了新浪PHP笔试题及最新的PHP面试题,并提供了详细的答案解析,帮助求职者更好地准备PHP相关的面试。 ... [详细]
  • 本文介绍了编程语言的基本分类,包括机器语言、汇编语言和高级语言的特点及其优缺点。随后详细讲解了Python解释器的安装与配置方法,并探讨了Python变量的定义、使用及内存管理机制。 ... [详细]
  • 本文介绍 DB2 中的基本概念,重点解释事务单元(UOW)和事务的概念。事务单元是指作为单个原子操作执行的一个或多个 SQL 查询。 ... [详细]
  • Presto:高效即席查询引擎的深度解析与应用
    本文深入解析了Presto这一高效的即席查询引擎,详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式,显著提升了查询性能,相比传统的MapReduce查询,不仅减少了数据传输的延迟,还提高了查询的准确性和效率。然而,Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景,展示了其在大数据分析领域的强大潜力。 ... [详细]
  • 2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南
    2012年9月12日,优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分,有一道题目涉及中国人的血型分布情况,具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中,至少有一人为B型血的概率不低于90%,则需要选取的最少人数是多少?该问题不仅考察了概率统计的基本知识,还要求考生具备一定的逻辑推理能力。 ... [详细]
  • 如何高效启动大数据应用之旅?
    在前一篇文章中,我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目,涵盖关键步骤和最佳实践,帮助读者快速踏上大数据之旅。 ... [详细]
  • Maven + Spring + MyBatis + MySQL 环境搭建与实例解析
    本文详细介绍如何使用MySQL数据库进行环境搭建,包括创建数据库表并插入示例数据。随后,逐步指导如何配置Maven项目,整合Spring框架与MyBatis,实现高效的数据访问。 ... [详细]
  • 软件测试行业深度解析:迈向高薪的必经之路
    本文深入探讨了软件测试行业的发展现状及未来趋势,旨在帮助有志于在该领域取得高薪的技术人员明确职业方向和发展路径。 ... [详细]
  • 大数据领域的职业路径与角色解析
    本文将深入探讨大数据领域的各种职业和工作角色,帮助读者全面了解大数据行业的需求、市场趋势,以及从入门到高级专业人士的职业发展路径。文章还将详细介绍不同公司对大数据人才的需求,并解析各岗位的具体职责、所需技能和经验。 ... [详细]
  • 本文介绍了多种开源数据库及其核心数据结构和算法,包括MySQL的B+树、MVCC和WAL,MongoDB的tokuDB和cola,boltDB的追加仅树和mmap,levelDB的LSM树,以及内存缓存中的一致性哈希。 ... [详细]
author-avatar
拍友2502881913
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有