当前位置: 开发笔记 > 后端 > 正文

大数据技术笔记之数据采集和预处理

作者：诚心诚意1997_514 | 来源：互联网 | 2023-08-22 13:01

1.大数据采集大数据采集包含：系统日志采集方法、网络数据采集方法(通过网络爬虫实现)、其他数据采集(通过特定的接口)1.1系统日志采集方法Flume࿱

1.大数据采集

大数据采集包含&＃xff1a;系统日志采集方法、网络数据采集方法(通过网络爬虫实现)、其他数据采集(通过特定的接口)

1.1 系统日志采集方法

Flume&＃xff1a; 分布式日志收集系统&＃xff0c;最初由Cloudera 开发&＃xff0c;现是Apache的一个开源项目
Chukwa&＃xff1a;开源分布式数据收集系统&＃xff0c;是Hadoop 的组成部分&＃xff0c;构建在 hdfs 和 map/reduce 框架之上
Scrible&＃xff1a;Scribe是facebook开源的日志收集系统&＃xff0c;在facebook内部已经得到大量的应用
Kafka&＃xff1a;最早是LinkedIn的开发的消息系统&＃xff0c;现是Apache的一个开源项目

2数据预处理原理

通过数据预处理工作&＃xff0c; 可以使残缺的数据完整 &＃xff0c;并将错误的数据纠正、多余的数据去除&＃xff0c;进而将所需的数据挑选出来&＃xff0c;并且进行数据集成。数据预处理的常见方法有数据清洗、数据集成与数据变换。

2.1数据清洗

在这里插入图片描述
噪声的处理

数据清洗可以视为一个过程&＃xff0c;包括检测偏差和纠正偏差两个步骤。
检查偏差:可以使用已有的关于数据性质的知识发现噪声、离群点和需要考察的不寻常的值。这种知识或“关于数据的数据”称为元数据。
纠正偏差:即一旦发现偏差&＃xff0c;通常需要定义并使用一系列的变换来纠正它们。但这些工具只支持有限的变换&＃xff0c;因此&＃xff0c;常常可能需要为数据清洗过程的这一步编写定制的程序

2.2数据集成

在这里插入图片描述

2.3数据变换

在这里插入图片描述

3.数据仓库与ETL工具

在这里插入图片描述

推荐阅读

http
全面解析运维监控：白盒与黑盒监控及四大黄金指标

本文深入探讨了白盒和黑盒监控的概念，以及它们在系统监控中的应用。通过详细分析基础监控和业务监控的不同采集方法，结合四个黄金指标的解读，帮助读者更好地理解和实施有效的监控策略。 ... [详细]

蜡笔小新 2024-12-22 14:02:29
http
Flume 开源分布式日志收集系统

为什么80%的码农都做不了架构师？Flume--开源分布式日志收集系统Flume是Cloudera提供的一个高可用的、高可靠的开源分布式海量日志收集系统 ... [详细]

蜡笔小新 2023-10-11 13:45:25
http
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
分布式
深入解析 Apache Flink 的保存点机制

在本周的白板演练中，Apache Flink 的 PMC 成员及数据工匠首席技术官 Stephan Ewen 深入探讨了如何利用保存点功能进行流处理中的数据重新处理、错误修复、系统升级和 A/B 测试。本文将详细解释保存点的工作原理及其应用场景。 ... [详细]

蜡笔小新 2024-12-24 16:57:24
service
深入解析 org.apache.hadoop.registry.client.impl.zk.ZKPathDumper 类及其应用

本文详细介绍了 Java 中的 org.apache.hadoop.registry.client.impl.zk.ZKPathDumper 类，提供了丰富的代码示例和使用指南。通过这些示例，读者可以更好地理解如何在实际项目中利用 ZKPathDumper 类进行注册表树的转储操作。 ... [详细]

蜡笔小新 2024-12-23 14:15:06
队列
Netflix利用Druid实现高效实时数据分析

本文探讨了全球领先的在线娱乐公司Netflix如何通过采用Apache Druid，实现了高效的数据采集、处理和实时分析，从而显著提升了用户体验和业务决策的准确性。文章详细介绍了Netflix在系统架构、数据摄取、管理和查询方面的实践，并展示了Druid在大规模数据处理中的卓越性能。 ... [详细]

蜡笔小新 2024-12-23 11:10:01
队列
深入解析Hadoop的核心组件与工作原理

本文详细介绍了Hadoop的三大核心组件：分布式文件系统HDFS、资源管理器YARN和分布式计算框架MapReduce。通过分析这些组件的工作机制，帮助读者更好地理解Hadoop的架构及其在大数据处理中的应用。 ... [详细]

蜡笔小新 2024-12-19 17:17:51
http
原创 | 大数据入门基础系列之ClouderaManager版本的Hive安装部署

添加服务，一 ... [详细]

蜡笔小新 2023-10-15 16:43:57
http
无服务器_云原生数据湖架构中的无服务器 Kafka

篇首语：本文由编程笔记#小编为大家整理，主要介绍了云原生数据湖架构中的无服务器Kafka相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-12 15:37:48
http
flume 收集日志到HDFS

作者同类文章X转自：http:www.aboutyun.comthread-7949-1-1.html问题导读：1.什么是flume？ ... [详细]

蜡笔小新 2023-10-12 13:21:24
http
Spark学习之路(一)Spark概述

一,什么是spark定义:Spark一种基于内存的快速,通用,可扩展的大数据分析引擎.官网地址：http:spark.apache.org历史:2009年诞生于加州伯 ... [详细]

蜡笔小新 2023-10-10 18:42:22
爬虫
Python入门指南：从零开始的全面学习路线

本文详细介绍了Python编程语言的学习路径，涵盖基础语法、常用组件、开发工具、数据库管理、Web服务开发、大数据分析、人工智能、爬虫开发及办公自动化等多个方向。通过系统化的学习计划，帮助初学者快速掌握Python的核心技能。 ... [详细]

蜡笔小新 2024-12-25 12:54:33
微服务
精通Spring Cloud：从入门到实践的全面指南

Spring Cloud因其强大的功能和灵活性，被誉为开发分布式系统的‘一站式’解决方案。它不仅简化了分布式系统中的常见模式实现，还被广泛应用于企业级生产环境中。本书内容详实，覆盖了从微服务基础到Spring Cloud的高级应用，适合各层次的开发者。 ... [详细]

蜡笔小新 2024-12-16 16:21:23
http
CDH4简介

原文地址：CDH4简介作者：HadoopChinaWebelievethatduring2012,enterprisedistributionsofHa ... [详细]

蜡笔小新 2023-10-11 12:53:33
http
ubuntu16.04 +Java8+ hadoop2.x单机安装

关于hadoop及相关模块的安装，自己下载模块安装的话较为麻烦，有配置、版本对应的些许问题，使用cloudera集成好的平台也不错 ... [详细]

蜡笔小新 2023-10-11 00:47:53

诚心诚意1997_514

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章