关于大数据的这些你该知道

作者：LY萍 | 来源：互联网 | 2023-08-19 20:55

关于,大,数据,的

面对海量的各种来源的数据，如何对这些零散的数据进行有效的分析，得到有价值的信息一直是大数据领域研究的热点问题。大数据分析处理平台就是整合当前主流的各种具有不同侧重点的大数据处理分析框架和工具，实现对数据的挖掘和分析，一个大数据分析平台涉及到的组件众多，如何将其有机地结合起来，完成海量数据的挖掘是一项复杂的工作。在搭建大数据分析平台之前，要先明确业务需求场景以及用户的需求，通过大数据分析平台，想要得到哪些有价值的信息，需要接入的数据有哪些，明确基于场景业务需求的大数据平台要具备的基本的功能，来决定平台搭建过程中使用的大数据处理工具和框架。

(1)操作系统的选择

操作系统一般使用开源版的RedHat、Centos或者Debian作为底层的构建平台，要根据大数据平台所要搭建的数据分析工具可以支持的系统，正确的选择操作系统的版本。

(2)搭建Hadoop集群

Hadoop作为一个开发和运行处理大规模数据的软件平台，实现了在大量的廉价计算机组成的集群中对海量数据进行分布式计算。Hadoop框架中最核心的设计是HDFS和MapReduce，HDFS是一个高度容错性的系统，适合部署在廉价的机器上，能够提供高吞吐量的数据访问，适用于那些有着超大数据集的应用程序;MapReduce是一套可以从海量的数据中提取数据最后返回结果集的编程模型。在生产实践应用中，Hadoop非常适合应用于大数据存储和大数据的分析应用，适合服务于几千台到几万台大的服务器的集群运行，支持PB级别的存储容量。

Hadoop家族还包含各种开源组件，比如Yarn，Zookeeper，Hbase，Hive，Sqoop，Impala，Spark等。使用开源组件的优势显而易见，活跃的社区会不断的迭代更新组件版本，使用的人也会很多，遇到问题会比较容易解决，同时代码开源，高水平的数据开发工程师可结合自身项目的需求对代码进行修改，以更好的为项目提供服务。

(3)选择数据接入和预处理工具

面对各种来源的数据，数据接入就是将这些零散的数据整合在一起，综合起来进行分析。数据接入主要包括文件日志的接入、数据库日志的接入、关系型数据库的接入和应用程序等的接入，数据接入常用的工具有Flume，Logstash，NDC(网易数据运河系统)，sqoop等。对于实时性要求比较高的业务场景，比如对存在于社交网站、新闻等的数据信息流需要进行快速的处理反馈，那么数据的接入可以使用开源的Strom，Spark streaming等。

当需要使用上游模块的数据进行计算、统计和分析的时候，就需要用到分布式的消息系统，比如基于发布/订阅的消息系统kafka。还可以使用分布式应用程序协调服务Zookeeper来提供数据同步服务，更好的保证数据的可靠和一致性。

数据预处理是在海量的数据中提取出可用特征，建立宽表，创建数据仓库，会使用到HiveSQL，SparkSQL和Impala等工具。随着业务量的增多，需要进行训练和清洗的数据也会变得越来越复杂，可以使用azkaban或者oozie作为工作流调度引擎，用来解决有多个hadoop或者spark等计算任务之间的依赖关系问题。

(4)数据存储

除了Hadoop中已广泛应用于数据存储的HDFS，常用的还有分布式、面向列的开源数据库Hbase，HBase是一种key/value系统，部署在HDFS上，与Hadoop一样，HBase的目标主要是依赖横向扩展，通过不断的增加廉价的商用服务器，增加计算和存储能力。同时hadoop的资源管理器Yarn，可以为上层应用提供统一的资源管理和调度，为集群在利用率、资源统一等方面带来巨大的好处。

Kudu是一个围绕Hadoop生态圈建立的存储引擎，Kudu拥有和Hadoop生态圈共同的设计理念，可以运行在普通的服务器上，作为一个开源的存储引擎，可以同时提供低延迟的随机读写和高效的数据分析能力。Redis是一种速度非常快的非关系型数据库，可以将存储在内存中的键值对数据持久化到硬盘中，可以存储键与5种不同类型的值之间的映射。

(5)选择数据挖掘工具

Hive可以将结构化的数据映射为一张数据库表，并提供HQL的查询功能，它是建立在Hadoop之上的数据仓库基础架构，是为了减少MapReduce编写工作的批处理系统，它的出现可以让那些精通SQL技能、但是不熟悉MapReduce、编程能力较弱和不擅长Java的用户能够在HDFS大规模数据集上很好的利用SQL语言查询、汇总、分析数据。Impala是对Hive的一个补充，可以实现高效的SQL查询，但是Impala将整个查询过程分成了一个执行计划树，而不是一连串的MapReduce任务，相比Hive有更好的并发性和避免了不必要的中间sort和shuffle。

Spark可以将Job中间输出结果保存在内存中，不需要读取HDFS，Spark启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。Solr是一个运行在Servlet容器的独立的企业级搜索应用的全文搜索服务器，用户可以通过http请求，向搜索引擎服务器提交一定格式的XML，生成索引，或者通过HTTP GET操作提出查找请求，并得到XML格式的返回结果。

还可以对数据进行建模分析，会用到机器学习相关的知识，常用的机器学习算法，比如贝叶斯、逻辑回归、决策树、神经网络、协同过滤等。

(6)数据的可视化以及输出API

对于处理得到的数据可以对接主流的BI系统，比如国外的Tableau、Qlikview、PowrerBI等，国内的SmallBI和新兴的网易有数(可免费试用)等，将结果进行可视化，用于决策分析;或者回流到线上，支持线上业务的发展。

成熟的搭建一套大数据分析平台不是一件简单的事情，本身就是一项复杂的工作，在这过程中需要考虑的因素有很多，比如：

稳定性，可以通过多台机器做数据和程序运行的备份，但服务器的质量和预算成本相应的会限制平台的稳定性;
可扩展性：大数据平台部署在多台机器上，如何在其基础上扩充新的机器是实际应用中经常会遇到的问题;
安全性：保障数据安全是大数据平台不可忽视的问题，在海量数据的处理过程中，如何防止数据的丢失和泄漏一直是大数据安全领域的研究热点。

推荐阅读

post
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
post
构建用户画像环境：Hive与SparkSQL的高效整合

本文介绍如何通过整合SparkSQL与Hive来构建高效的用户画像环境，提高数据处理速度和查询效率。 ... [详细]

蜡笔小新 2024-11-19 09:44:24
post
大数据领域的职业路径与角色解析

本文将深入探讨大数据领域的各种职业和工作角色，帮助读者全面了解大数据行业的需求、市场趋势，以及从入门到高级专业人士的职业发展路径。文章还将详细介绍不同公司对大数据人才的需求，并解析各岗位的具体职责、所需技能和经验。 ... [详细]

蜡笔小新 2024-11-16 08:54:03
post
龙蜥社区开发者访谈：技术生涯的三次蜕变 | 第3期

龙蜥社区的开发者们通过自己的实践和经验，推动着开源技术的发展。本期「龙蜥开发者说」聚焦于一位资深开发者的三次技术转型，分享他在龙蜥社区的成长故事。 ... [详细]

蜡笔小新 2024-11-21 11:12:28
window
流处理中的计数挑战与解决方案

本文探讨了在流处理中进行计数的各种技术和挑战，并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性，还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]

蜡笔小新 2024-11-20 13:50:01
export
日志处理流程：Flume+MapReduce+Hive+Sqoop+MySQL

本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS，然后通过MapReduce清洗数据，使用Hive进行数据分析，并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]

蜡笔小新 2024-11-13 18:47:34
ascii
2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南

2012年9月12日，优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分，有一道题目涉及中国人的血型分布情况，具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中，至少有一人为B型血的概率不低于90%，则需要选取的最少人数是多少？该问题不仅考察了概率统计的基本知识，还要求考生具备一定的逻辑推理能力。 ... [详细]

蜡笔小新 2024-11-06 15:25:14
ascii
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
process
MongoDB 高可用集群搭建指南：分片、读写分离与负载均衡

本文详细介绍了如何搭建一个高可用的MongoDB集群，包括环境准备、用户配置、目录创建、MongoDB安装、配置文件设置、集群组件部署等步骤。特别关注分片、读写分离及负载均衡的实现。 ... [详细]

蜡笔小新 2024-11-20 18:28:16
process
Nacos 0.3 数据持久化详解与实践

本文详细介绍了如何将 Nacos 0.3 的数据持久化到 MySQL 数据库，并提供了具体的步骤和注意事项。 ... [详细]

蜡笔小新 2024-11-14 18:26:40
process
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
process
Spark与HBase结合处理大规模流量数据结构设计

本文将详细介绍如何利用Spark和HBase进行大规模流量数据的分析与处理，包括数据结构的设计和优化方法。 ... [详细]

蜡笔小新 2024-11-12 19:49:05
utf-8
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
export
优化Hadoop 2.7.2源代码以支持Snappy压缩和解压功能的Native编译

为了在Hadoop 2.7.2中实现对Snappy压缩和解压功能的原生支持，本文详细介绍了如何重新编译Hadoop源代码，并优化其Native编译过程。通过这一优化，可以显著提升数据处理的效率和性能。此外，还探讨了编译过程中可能遇到的问题及其解决方案，为用户提供了一套完整的操作指南。 ... [详细]

蜡笔小新 2024-11-09 19:45:36
ascii
在CentOS系统中部署与配置ZooKeeper详解

在CentOS系统中部署与配置ZooKeeper详解 ... [详细]

蜡笔小新 2024-11-06 19:44:56

LY萍

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章