当前位置: 开发笔记 > 后端 > 正文

大数据导论（三：大数据的采集及预处理）

作者：Irises---_372 | 来源：互联网 | 2023-07-15 17:38

1、大数据采集1.1大数据采集概念数据采集（DAQ）又称数据获取，通过RFID射频数据、传感器数据、社交网络数据、移动互联网数据等方式

1、大数据采集

1.1 大数据采集概念

数据采集&＃xff08;DAQ&＃xff09;又称数据获取&＃xff0c;通过RFID射频数据、传感器数据、社交网络数据、移动互联网数据等方式获得各种类型的结构化、半结构化及非结构化的海量数据。

1.2 常用的数据采集方式

大数据的采集通常采用多个数据库来接收终端数据&＃xff0c;包括智能硬件端、多种传感器端、网页端、移动APP应用端等&＃xff0c;并且可以使用数据库进行简单的处理工作。

1.3 大数据采集的研究分类

1.3.1 智能感知层
包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统&＃xff0c;实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。涉及有针对大数据源的智能识别、感知、适配、传输、接入等技术。随着物联网技术、智能设备的发展&＃xff0c;这种基于传感器的数据采集会越来越多&＃xff0c;相应对于这类的研究和应用也会越来越重要。
1.3.2 基础支撑层
提供大数据服务平台所需的虚拟服务器&＃xff0c;结构化、半结构化及非结构化数据的数据库及物联网络资源等基础支撑环境。重点要解决分布式虚拟存储技术&＃xff0c;大数据获取、存储、组织、分析和决策操作的可视化接口技术&＃xff0c;大数据的网络传输与压缩技术&＃xff0c;大数据隐私保护技术等。

1.4 常见的数据采集工具

高可用性、高可靠性、可扩展性是日志收集系统所具有的基本特征。常用的日志系统有Hadoop的Chukwa、Cloudera的Flume、Facebook的Scrible和LinkedIn的Kafka这些工具大部分采用分布式架构&＃xff0c;来满足大规模日志采集的需求
在这里插入图片描述 1.4.1 Chukwa

1.4.2 Flume
在这里插入图片描述

1.4.3 Scribe
在这里插入图片描述

1.4.4 Kafka
在这里插入图片描述

1.4.5 网络数据采集方法
“网络数据采集”是利用互联网搜索引擎技术对数据进行针对性、行业性、精准性的抓取&＃xff0c;并按照一定规则和筛选标准进行将数据进行归类&＃xff0c;形成数据库文件的一个过程。互联网网络数据是大数据的重要来源之一通过网络爬虫或网站公开API等方式可以将非结构化数据从网页中抽取出来&＃xff0c;将其存储为统一的本地数据文件&＃xff0c;并以结构化的方式存储。
1.4.6 数据库采集
一些企业会使用传统的关系型数据库MySQL和Oracle等来存储数据。这些数据库中存储的海量数据&＃xff0c;相对来说结构化更强&＃xff0c;也是大数据的主要来源之一。其采集方法支持异构数据库之间的实时数据同步和复制&＃xff0c;基于的理论是对各种数据库的Log日志文件进行分析&＃xff0c;然后进行复制。

2 大数据预处理

在这里插入图片描述

2.1 导入/预处理
虽然采集端本身有很多数据库&＃xff0c;但是如果要对这些海量数据进行有效的分析&＃xff0c;还是应该将这些数据导入到一个集中的大型分布式数据库或者分布式存储集群当中&＃xff0c;同时&＃xff0c;在导入的基础上完成数据清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算&＃xff0c;来满足部分业务的实时计算需求。
现实世界中数据大体上都是不完整、不一致的“脏”数据&＃xff0c;无法直接进行数据挖掘&＃xff0c;或挖掘结果差强人意&＃xff0c;为了提高数据挖掘的质量&＃xff0c;产生了数据预处理技术。

2.2 数据清洗
数据清洗时发现并纠正数据文件中可识别的错误的最后一道程序&＃xff0c;包括对数据一致性的检查&＃xff0c;无效值和缺失值得处理。
数据清洗的原理是利用有关技术如数据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据。
在这里插入图片描述 2.3 数据的清洗方法
2.4 数据集成
数据集成是将不同应用系统、不同数据形式&＃xff0c;在原应用系统不做任何改变的条件下&＃xff0c;进行数据采集、转换好储存的数据整合过程。其主要目的是在解决多重数据储存或合并时所产生的数据不一致、数据重复或冗余的问题&＃xff0c;以提高后续数据分析的精确度和速度。
2.5 数据转换
数据转换&＃xff08;data transfer&＃xff09;时采用线性或非线性的数学变换方法将多维数据压缩成较少维的数据&＃xff0c;消除他们在时间、空间、属性及精度等特征表现方面的差异。实际上就是将数据从一种表示形式变为另一种表现形式的过程。
数据转换方法&＃xff1a;
在这里插入图片描述
2.6 数据归约
数据归约技术可以用来得到数据集的归约表示&＃xff0c;它很小&＃xff0c;但并不影响原数据的完整性&＃xff0c;结果与归约前结果相同或几乎相同。所以&＃xff0c;我们可以说数据归约是指在尽可能保持数据原貌的前提下&＃xff0c;最大限度地精简数据量保持数据的原始状态。
数据归约分类&＃xff1a;
在这里插入图片描述 特征值规约算法三个步骤&＃xff1a;

3 常用ETL工具

ETL&＃xff08;Extract-Transform-Load&＃xff09;是一种数据仓库技术&＃xff0c;即数据抽取&＃xff08;Extract&＃xff09;、转换&＃xff08;Transform&＃xff09;、装载&＃xff08;Load&＃xff09;的过程&＃xff0c;其本质是数据流动的过程&＃xff0c;将不同异构数据源流向统一的目标数据。

ETL转换过程&＃xff1a;
在这里插入图片描述
典型ETL工具&＃xff1a;

ETL架构优势&＃xff1a;

推荐阅读

http
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
mysql
MySQL缓存机制深度解析

本文详细探讨了MySQL的缓存机制，包括主从复制、读写分离以及缓存同步策略等内容。通过理解这些概念和技术，读者可以更好地优化数据库性能。 ... [详细]

蜡笔小新 2024-12-26 15:15:06
ci
MicroATX与MATX：主板规格详解

本文详细介绍了MicroATX（也称Mini ATX）和MATX主板规格，探讨了它们的结构特点、应用场景及对电脑系统成本和性能的影响。同时，文章还涵盖了相关操作系统的实用技巧，如蓝牙设备图标删除、磁盘管理等。 ... [详细]

蜡笔小新 2024-12-25 18:53:29
mysql
微软Exchange服务器遭遇2022年版“千年虫”漏洞

微软Exchange服务器在新年伊始遭遇了一个类似于‘千年虫’的日期处理漏洞，导致邮件传输受阻。该问题主要影响配置了FIP-FS恶意软件引擎的Exchange 2016和2019版本。 ... [详细]

蜡笔小新 2024-12-25 14:08:03
http
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
ci
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
localhost
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
ci
优化MySQL InnoDB的IO性能：配置参数详解

本文深入探讨了如何通过调整InnoDB的关键配置参数来优化MySQL的随机IO性能，涵盖了缓存、日志文件、预读机制等多个方面，帮助读者全面提升数据库系统的性能。 ... [详细]

蜡笔小新 2024-12-27 13:00:29
ci
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
ci
macOS系统及其关键功能解析

本文详细介绍了macOS系统的核心组件，包括如何管理其安全特性——系统完整性保护（SIP），并探讨了不同版本的更新亮点。对于使用macOS系统的用户来说，了解这些信息有助于更好地管理和优化系统性能。 ... [详细]

蜡笔小新 2024-12-26 18:05:04
mysql
MySQL PMM：MyISAM 和 Aria 存储引擎的性能优化

本文探讨了 MyISAM 和 Aria 存储引擎在 MySQL 中的关键性能指标，包括密钥缓冲区效率、页面缓存读写性能以及事务日志同步策略。通过优化这些参数，可以显著提升数据库的整体性能。 ... [详细]

蜡笔小新 2024-12-23 15:04:32
redis
深入解析Redis内存对象模型

本文详细介绍了Redis内存对象模型的关键知识点，包括内存统计、内存分配、数据存储细节及优化策略。通过实际案例和专业分析，帮助读者全面理解Redis内存管理机制。 ... [详细]

蜡笔小新 2024-12-23 14:50:23
redis
云计算的优势与应用场景

本文详细探讨了云计算为企业和个人带来的多种优势，包括成本节约、安全性提升、灵活性增强等。同时介绍了云计算的五大核心特点，并结合实际案例进行分析。 ... [详细]

蜡笔小新 2024-12-23 13:54:13
http
Java编程的核心要素与关键技术

本文探讨了Java编程的核心要素，特别是其面向对象的特性，并详细介绍了Java虚拟机、类装载器体系结构、Java类文件和Java API等关键技术。这些技术使得Java成为一种功能强大且易于使用的编程语言。 ... [详细]

蜡笔小新 2024-12-23 12:58:30
并发
Netflix利用Druid实现高效实时数据分析

本文探讨了全球领先的在线娱乐公司Netflix如何通过采用Apache Druid，实现了高效的数据采集、处理和实时分析，从而显著提升了用户体验和业务决策的准确性。文章详细介绍了Netflix在系统架构、数据摄取、管理和查询方面的实践，并展示了Druid在大规模数据处理中的卓越性能。 ... [详细]

蜡笔小新 2024-12-23 11:10:01

Irises---_372

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章