当前位置: 开发笔记 > 编程语言 > 正文

大数据敲门砖，想入行大数据必须学习这些知识

作者：p欧阳宏生 | 来源：互联网 | 2023-07-28 13:45

基础概念大数据的本质一、数据的存储：分布式文件系统(分布式存储)二、数据的计算：分部署计算基础知识学习大数据需要具备Java知识基础及Linux知识基础学习路线大数据学习群1429

基础概念

大数据的本质

一、数据的存储：分布式文件系统(分布式存储)

二、数据的计算：分部署计算

基础知识

学习大数据需要具备Java知识基础及Linux知识基础

学习路线

大数据学习群142973723

(1)Java基础和Linux基础

(2)Hadoop的学习：体系结构、原理、编程

第一阶段：HDFS、MapReduce、HBase(NoSQL数据库)

第二阶段：数据分析引擎 -> Hive、Pig

数据采集引擎 -> Sqoop、Flume

第三阶段：HUE：Web管理工具

ZooKeeper：实现Hadoop的HA

Oozie：工作流引擎

(3)Spark的学习

第一阶段：Scala编程语言

第二阶段：Spark Core -> 基于内存、数据的计算

第三阶段：Spark SQL -> 类似于mysql 的sql语句

第四阶段：Spark Streaming ->进行流式计算：比如：自来水厂

(4)Apache Storm 类似：Spark Streaming ->进行流式计算

NoSQL：Redis基于内存的数据库

HDFS

分布式文件系统解决以下问题：

• 硬盘不够大：多几块硬盘，理论上可以无限大

• 数据不够安全：冗余度，hdfs默认冗余为3 ，用水平复制提高效率，传输按照数据库为单位：Hadoop1.x 64M，Hadoop2.x 128M

• 管理员：NameNode 硬盘：DataNode

MapReduce

基础编程模型：把一个大任务拆分成小任务，再进行汇总

• MR任务：Job = Map + Reduce

Map的输出是Reduce的输入、MR的输入和输出都是在HDFS

MapReduce数据流程分析：

• Map的输出是Reduce的输入，Reduce的输入是Map的集合

在这里插入图片描述

HBase

什么是BigTable?: 把所有的数据保存到一张表中，采用冗余 —> 好处：提高效率

• 因为有了bigtable的思想：NoSQL：HBase数据库

• HBase基于Hadoop的HDFS的

• 描述HBase的表结构

核心思想是：利用空间换效率.大数据学习群142973723

在这里插入图片描述

推荐阅读

nosql
大数据领域的职业路径与角色解析

本文将深入探讨大数据领域的各种职业和工作角色，帮助读者全面了解大数据行业的需求、市场趋势，以及从入门到高级专业人士的职业发展路径。文章还将详细介绍不同公司对大数据人才的需求，并解析各岗位的具体职责、所需技能和经验。 ... [详细]

蜡笔小新 2024-11-16 08:54:03
php
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
php
构建用户画像环境：Hive与SparkSQL的高效整合

本文介绍如何通过整合SparkSQL与Hive来构建高效的用户画像环境，提高数据处理速度和查询效率。 ... [详细]

蜡笔小新 2024-11-19 09:44:24
export
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
export
在Linux系统中配置环境变量以切换不同版本Python的方法与实践

在Linux系统中，原本已安装了多个版本的Python 2，并且还安装了Anaconda，其中包含了Python 3。本文详细介绍了如何通过配置环境变量，使系统默认使用指定版本的Python，以便在不同版本之间轻松切换。此外，文章还提供了具体的实践步骤和注意事项，帮助用户高效地管理和使用不同版本的Python环境。 ... [详细]

蜡笔小新 2024-10-30 09:39:09
export
流处理中的计数挑战与解决方案

本文探讨了在流处理中进行计数的各种技术和挑战，并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性，还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]

蜡笔小新 2024-11-20 13:50:01
export
Java 容器学习笔记

通过马老师的视频学习了Java中的容器相关内容，包括Collection、Set、List、Map及其常见实现类，并深入了解了这些容器的基本操作方法。 ... [详细]

蜡笔小新 2024-11-15 08:31:19
export
日志处理流程：Flume+MapReduce+Hive+Sqoop+MySQL

本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS，然后通过MapReduce清洗数据，使用Hive进行数据分析，并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]

蜡笔小新 2024-11-13 18:47:34
export
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
export
Hadoop集群搭建常见问题与解决方案（一）：避免配置过程中的常见陷阱

在搭建Hadoop集群以处理大规模数据存储和频繁读取需求的过程中，经常会遇到各种配置难题。本文总结了作者在实际部署中遇到的典型问题，并提供了详细的解决方案，帮助读者避免常见的配置陷阱。通过这些经验分享，希望读者能够更加顺利地完成Hadoop集群的搭建和配置。 ... [详细]

蜡笔小新 2024-11-03 19:59:23
export
构建高可用性Spark分布式集群：大数据环境下的最佳实践

在构建高可用性的Spark分布式集群过程中，确保所有节点之间的无密码登录是至关重要的一步。通过在每个节点上生成SSH密钥对（使用 `ssh-keygen -t rsa` 命令并保持默认设置），可以实现这一目标。此外，还需将生成的公钥分发到所有节点的 `~/.ssh/authorized_keys` 文件中，以确保节点间的无缝通信。为了进一步提升集群的稳定性和性能，建议采用负载均衡和故障恢复机制，并定期进行系统监控和维护。 ... [详细]

蜡笔小新 2024-11-02 14:18:50
export
深入理解Spark框架：RDD核心概念与操作详解

RDD是Spark框架的核心计算模型，全称为弹性分布式数据集（Resilient Distributed Dataset）。本文详细解析了RDD的基本概念、特性及其在Spark中的关键操作，包括创建、转换和行动操作等，帮助读者深入理解Spark的工作原理和优化策略。通过具体示例和代码片段，进一步阐述了如何高效利用RDD进行大数据处理。 ... [详细]

蜡笔小新 2024-10-29 20:10:01
fetch
优化后的标题：利用Hive分析用户最长连续登录天数

本文介绍了如何使用Hive分析用户最长连续登录天数的方法。首先对数据进行排序，然后计算相邻日期之间的差值，接着按用户ID分组并累加连续登录天数，最后求出每个用户的最大连续登录天数。此外，还探讨了该方法在其他领域的应用，如股票市场中最大连续涨停天数的分析。 ... [详细]

蜡笔小新 2024-10-27 21:47:17
client
Storm集成Kakfa

一、整合说明Storm官方对Kafka的整合分为两个版本，官方说明文档分别如下：StormKafkaIntegratio ... [详细]

蜡笔小新 2024-10-16 20:20:41
get
HDFS API

Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类：(1)Configurati ... [详细]

蜡笔小新 2024-11-13 17:31:50

p欧阳宏生

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章