从另外一个角度来学习大数据入门教学

作者：RealMadrid | 来源：互联网 | 2023-08-19 10:25

学习大数据，学什么？怎么学？1、原理和运行机制、体系结构（非常重要）2、动手：搭建环境、写程序目

学习大数据，学什么？怎么学？
1、原理和运行机制、体系结构（非常重要）
2、动手：搭建环境、写程序
 
目的：1、学习内容   2、熟悉一些名词
 
一、各章概述（Hadoop部分）
    (一)、Hadoop的起源与背景知识
        1、什么是大数据？两个例子、大数据的核心问题是什么？
            举例：（1）商品推荐：问题1：大量的订单如何存储？       问题2：大量的订单如何计算？
                  （2）天气预报：问题1：大量的天气数据如何存储？   问题2：大量的天气数据如何计算？
                   
                  大数据的核心问题：（1）数据的存储：分布式文件系统（分布式存储）
                                    （2）数据的计算：分布式计算
         
        2、概念：数据仓库（Data warehouse）
            （1）我们可以把Hadoop和Spark看成是数据仓库的一种实现方式
            （2）数据仓库就是一个数据库，一般只做select
            （3）重要：掌握数据仓库搭建的过程
            （4）数据仓库又是一种OLAP的应用系统
                 
        3、概念：OLTP和OLAP
            （1）OLTP：online transaction processing 联机事务处理
            （2）OLAP：online analytic processing 联机分析处理 ------> 一般：不会修改（删除）数据
         
        4、（最重要的内容）Google的几篇论文：3篇
            （1）GFS：Google File System   -----> HDFS              ----> 解决：数据的存储  
            （2）MapReduce计算模型         -----> Hadoop MapReduce  ----> 解决：数据的计算
            （3）BigTable大表              -----> HBase是NoSQL数据库
     
    (二)、实验环境
     
    (三)、Apache Hadoop的体系结构（重要）：实现Google的思想论文
        1、HDFS：Hadoop Distributed File System
            （*）主从结构
            （*）主节点：NameNode名称节点
            （*）从节点：DataNode数据节点
            （*）SecondaryNameNode：第二名称节点
         
        2、Yarn:是一个容器，运行MapReduce程序
            （*）主从结构 
            （*）主节点：ResourceManager 资源管理器
            （*）从节点：NodeManager     节点管理器
         
        3、HBase：需要单独安装
            （*）主从结构 
            （*）主节点：HMaster
            （*）从节点：RegionServer

     
    (四)、Hadoop 2.X的安装与配置
        Hadoop有三种安装模式
        1、本地模式      一台Linux
        2、伪分布模式    一台Linux
        3、全分布模式    三台Linux
        4、掌握免密码登录的原理和配置
     
    (五)、Hadoop应用案例分析
        1、大数据背景下，企业级系统的架构的变化
        2、HBase进行日志分析
        3、了解：Hadoop在淘宝的应用
     
    (六)、HDFS：Hadoop的分布式文件系统，数据存储
        1、操作HDFS：（1）命令行  （2）Java API  （3）网页：Web Console
        2、原理：数据上传的过程
                 数据下载的过程
        3、HDFS的底层实现：RPC和Java动态代理
                           RPC：remote procedure call
        4、高级特性
            （*）回收站
            （*）快照snapshot：是一种备份
            （*）配额quota：（1）名称配额  （2）空间配额
            （*）安全模式：safemode
            （*）权限              
     
    (七)、MapReduce：是一个计算模型，可以用Java来实现
        1、Demo：经典WordCount
        2、重点：MapReduce处理数据的过程
        3、原理：Yarn执行MapReduce的过程
        4、MapReduce的高级特性
            （*）序列化
            （*）排序
            （*）分区
            （*）合并
        5、MapReduce的核心：Shuffle（洗牌）
        6、编程案例：
            （*）排序：order by
            （*）去重：distinct
            （*）多表查询
            （*）倒排索引
     
    补充：MySQL数据库
    (八)、Hive：蜂巢  数据分析的引擎：翻译器   SQL ---------------> MapReduce
    (九)、Pig： 猪    数据分析的引擎：翻译器   PigLatin语言 ------> MapReduce
         
    (十)、HBase: NoSQL数据库
        1、是基于Hadoop之上的NoSQL
        2、体系结构：HMaster、RegionServer
        3、搭建：本地模式、伪分布模式、全分布模式
        4、操作：命令行、Java API、Web Console
        5、过滤器：实现复杂的查询
        6、HBase上的MapReduce
     
    (十一)、Sqoop：数据采集引擎，采集关系型数据库中的数据
    (十二)、Flume：数据采集引擎，采集日志
         
    (十三)、HUE：基于Web的管理工具
     
    (十四)、ZooKeeper： 相当于是一个”数据库“，实现HA（High Avaiblity高可用性）
     
    (十五)、Hadoop的集群和HA
        1、HDFS的联盟（Federation）
        2、Hadoop的HA（High Avaiblity高可用性）
     
    (十六)、Redis：基于内存的NoSQL数据库，提高性能
     
    (十七)、Storm：处理流式数据（实时计算）
                   集成Storm和Redis
 
     
     
     
     
     
     
     
     
     
     
     
    

推荐阅读

sum
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
sum
Spark与HBase结合处理大规模流量数据结构设计

本文将详细介绍如何利用Spark和HBase进行大规模流量数据的分析与处理，包括数据结构的设计和优化方法。 ... [详细]

蜡笔小新 2024-11-12 19:49:05
java
Hadoop集群搭建常见问题与解决方案（一）：避免配置过程中的常见陷阱

在搭建Hadoop集群以处理大规模数据存储和频繁读取需求的过程中，经常会遇到各种配置难题。本文总结了作者在实际部署中遇到的典型问题，并提供了详细的解决方案，帮助读者避免常见的配置陷阱。通过这些经验分享，希望读者能够更加顺利地完成Hadoop集群的搭建和配置。 ... [详细]

蜡笔小新 2024-11-03 19:59:23
java
构建高可用性Spark分布式集群：大数据环境下的最佳实践

在构建高可用性的Spark分布式集群过程中，确保所有节点之间的无密码登录是至关重要的一步。通过在每个节点上生成SSH密钥对（使用 `ssh-keygen -t rsa` 命令并保持默认设置），可以实现这一目标。此外，还需将生成的公钥分发到所有节点的 `~/.ssh/authorized_keys` 文件中，以确保节点间的无缝通信。为了进一步提升集群的稳定性和性能，建议采用负载均衡和故障恢复机制，并定期进行系统监控和维护。 ... [详细]

蜡笔小新 2024-11-02 14:18:50
sum
如何在Hive中合理配置Map和Reduce任务数量以优化不同场景下的性能表现

在Hive中合理配置Map和Reduce任务的数量对于优化不同场景下的性能至关重要。本文探讨了如何控制Hive任务中的Map数量，分析了当输入数据超过128MB时是否会自动拆分，以及Map数量是否越多越好的问题。通过实际案例和实验数据，本文提供了具体的配置建议，帮助用户在不同场景下实现最佳性能。 ... [详细]

蜡笔小新 2024-10-31 14:33:41
filter
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
join
NoSQL 数据查询与检索技术解析

NoSQL数据库，即非关系型数据库，有时也被称作Not Only SQL，是一种区别于传统关系型数据库的管理系统。这类数据库设计用于处理大规模、高并发的数据存储与查询需求，特别适用于需要快速读写大量非结构化或半结构化数据的应用场景。NoSQL数据库通过牺牲部分一致性来换取更高的可扩展性和性能，支持分布式部署，能够有效应对互联网时代的海量数据挑战。 ... [详细]

蜡笔小新 2024-10-28 18:13:15
java
Phoenix 使用体验分享与深度解析

闲来无事看了下hbase方面的东西，发现还好理解不过不大习惯于是找到个phoenix感觉不错性能指标如下好像还不错了准备工作：启动hadoop集群启动zookkeeper启动hba ... [详细]

蜡笔小新 2024-10-22 14:57:42
less
分布式一致性算法：Paxos 的企业级实战

一、简介首先我们这个平台是ES专题技术的分享平台，众所周知，ES是一个典型的分布式系统。在工作和学习中，我们可能都已经接触和学习过多种不同的分布式系统了，各 ... [详细]

蜡笔小新 2024-10-21 16:29:21
object
pyspark RDD数据的读取与保存

数据读取hadoopFileParameters:path–pathtoHadoopfileinputFormatClass–fullyqualifiedclassnameo ... [详细]

蜡笔小新 2024-10-17 18:31:13
java
FileBeat + Flume + Kafka + HDFS + Neo4j + SparkStreaming + MySQL：【案例】三度关系推荐V1.0版本11：每周一计算最近一月主播视频评级

一、数据计算步骤汇总下面我们通过文字梳理一下具体的数据计算步骤。第一步：历史粉丝关注数据初始化第二步：实时维护粉丝关注数据第三步：每天定 ... [详细]

蜡笔小新 2024-10-17 15:50:44
java
HDFS API

Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类：(1)Configurati ... [详细]

蜡笔小新 2024-11-13 17:31:50
function
在Linux系统中配置环境变量以切换不同版本Python的方法与实践

在Linux系统中，原本已安装了多个版本的Python 2，并且还安装了Anaconda，其中包含了Python 3。本文详细介绍了如何通过配置环境变量，使系统默认使用指定版本的Python，以便在不同版本之间轻松切换。此外，文章还提供了具体的实践步骤和注意事项，帮助用户高效地管理和使用不同版本的Python环境。 ... [详细]

蜡笔小新 2024-10-30 09:39:09
sum
Storm集成Kakfa

一、整合说明Storm官方对Kafka的整合分为两个版本，官方说明文档分别如下：StormKafkaIntegratio ... [详细]

蜡笔小新 2024-10-16 20:20:41
sum
Hadoop——实验七：MapReduce编程实践

文章目录一.实验目的二.实验内容三.实验步骤及结果分析 1.基于ubuntukylin14.04(7)版本，安装hadoop-eclipse-kepler-plugi ... [详细]

蜡笔小新 2024-10-14 18:07:40

RealMadrid

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章