热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

从另外一个角度来学习大数据入门教学

学习大数据,学什么?怎么学?1、原理和运行机制、体系结构(非常重要)2、动手:搭建环境、写程序目



学习大数据,学什么?怎么学?

1、原理和运行机制、体系结构(非常重要)
2、动手:搭建环境、写程序
 
目的:1、学习内容   2、熟悉一些名词
 
一、各章概述(Hadoop部分)
    (一)、Hadoop的起源与背景知识
        1、什么是大数据?两个例子、大数据的核心问题是什么?
            举例:(1)商品推荐:问题1:大量的订单如何存储?       问题2:大量的订单如何计算?
                  (2)天气预报:问题1:大量的天气数据如何存储?   问题2:大量的天气数据如何计算?
                   
                  大数据的核心问题:(1)数据的存储:分布式文件系统(分布式存储)
                                    (2)数据的计算:分布式计算
         
        2、概念:数据仓库(Data warehouse)
            (1)我们可以把Hadoop和Spark看成是数据仓库的一种实现方式
            (2)数据仓库就是一个数据库,一般只做select
            (3)重要:掌握数据仓库搭建的过程
            (4)数据仓库又是一种OLAP的应用系统
                 
        3、概念:OLTP和OLAP
            (1)OLTP:online transaction processing 联机事务处理
            (2)OLAP:online analytic processing 联机分析处理 ------> 一般:不会修改(删除)数据
         
        4、(最重要的内容)Google的几篇论文:3篇
            (1)GFS:Google File System   -----> HDFS              ----> 解决:数据的存储 
            (2)MapReduce计算模型         -----> Hadoop MapReduce  ----> 解决:数据的计算

            (3)BigTable大表              -----> HBase是NoSQL数据库

     
    (二)、实验环境
     
    (三)、Apache Hadoop的体系结构(重要):实现Google的思想论文
        1、HDFS:Hadoop Distributed File System
            (*)主从结构
            (*)主节点:NameNode名称节点
            (*)从节点:DataNode数据节点
            (*)SecondaryNameNode:第二名称节点
         
        2、Yarn:是一个容器,运行MapReduce程序
            (*)主从结构
            (*)主节点:ResourceManager 资源管理器
            (*)从节点:NodeManager     节点管理器
         
        3、HBase:需要单独安装
            (*)主从结构
            (*)主节点:HMaster

            (*)从节点:RegionServer


     
    (四)、Hadoop 2.X的安装与配置
        Hadoop有三种安装模式
        1、本地模式      一台Linux
        2、伪分布模式    一台Linux
        3、全分布模式    三台Linux
        4、掌握免密码登录的原理和配置
     
    (五)、Hadoop应用案例分析
        1、大数据背景下,企业级系统的架构的变化
        2、HBase进行日志分析
        3、了解:Hadoop在淘宝的应用
     
    (六)、HDFS:Hadoop的分布式文件系统,数据存储
        1、操作HDFS:(1)命令行  (2)Java API  (3)网页:Web Console
        2、原理:数据上传的过程
                 数据下载的过程
        3、HDFS的底层实现:RPC和Java动态代理
                           RPC:remote procedure call
        4、高级特性
            (*)回收站
            (*)快照snapshot:是一种备份
            (*)配额quota:(1)名称配额  (2)空间配额
            (*)安全模式:safemode
            (*)权限             
     
    (七)、MapReduce:是一个计算模型,可以用Java来实现
        1、Demo:经典WordCount
        2、重点:MapReduce处理数据的过程
        3、原理:Yarn执行MapReduce的过程
        4、MapReduce的高级特性
            (*)序列化
            (*)排序
            (*)分区
            (*)合并
        5、MapReduce的核心:Shuffle(洗牌)
        6、编程案例:
            (*)排序:order by
            (*)去重:distinct
            (*)多表查询

            (*)倒排索引

     
    补充:MySQL数据库
    (八)、Hive:蜂巢  数据分析的引擎:翻译器   SQL ---------------> MapReduce
    (九)、Pig: 猪    数据分析的引擎:翻译器   PigLatin语言 ------> MapReduce
         
    (十)、HBase: NoSQL数据库
        1、是基于Hadoop之上的NoSQL
        2、体系结构:HMaster、RegionServer
        3、搭建:本地模式、伪分布模式、全分布模式
        4、操作:命令行、Java API、Web Console
        5、过滤器:实现复杂的查询
        6、HBase上的MapReduce
     
    (十一)、Sqoop:数据采集引擎,采集关系型数据库中的数据
    (十二)、Flume:数据采集引擎,采集日志
         
    (十三)、HUE:基于Web的管理工具
     
    (十四)、ZooKeeper: 相当于是一个”数据库“,实现HA(High Avaiblity高可用性)
     
    (十五)、Hadoop的集群和HA
        1、HDFS的联盟(Federation)
        2、Hadoop的HA(High Avaiblity高可用性)
     
    (十六)、Redis:基于内存的NoSQL数据库,提高性能
     
    (十七)、Storm:处理流式数据(实时计算)
                   集成Storm和Redis
 

     
     
     
     
     
     
     
     
     
     
     
    




推荐阅读
  • 技术日志:深入探讨Spark Streaming与Spark SQL的融合应用
    技术日志:深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]
  • Spark与HBase结合处理大规模流量数据结构设计
    本文将详细介绍如何利用Spark和HBase进行大规模流量数据的分析与处理,包括数据结构的设计和优化方法。 ... [详细]
  • 在搭建Hadoop集群以处理大规模数据存储和频繁读取需求的过程中,经常会遇到各种配置难题。本文总结了作者在实际部署中遇到的典型问题,并提供了详细的解决方案,帮助读者避免常见的配置陷阱。通过这些经验分享,希望读者能够更加顺利地完成Hadoop集群的搭建和配置。 ... [详细]
  • 构建高可用性Spark分布式集群:大数据环境下的最佳实践
    在构建高可用性的Spark分布式集群过程中,确保所有节点之间的无密码登录是至关重要的一步。通过在每个节点上生成SSH密钥对(使用 `ssh-keygen -t rsa` 命令并保持默认设置),可以实现这一目标。此外,还需将生成的公钥分发到所有节点的 `~/.ssh/authorized_keys` 文件中,以确保节点间的无缝通信。为了进一步提升集群的稳定性和性能,建议采用负载均衡和故障恢复机制,并定期进行系统监控和维护。 ... [详细]
  • 在Hive中合理配置Map和Reduce任务的数量对于优化不同场景下的性能至关重要。本文探讨了如何控制Hive任务中的Map数量,分析了当输入数据超过128MB时是否会自动拆分,以及Map数量是否越多越好的问题。通过实际案例和实验数据,本文提供了具体的配置建议,帮助用户在不同场景下实现最佳性能。 ... [详细]
  • HBase在金融大数据迁移中的应用与挑战
    随着最后一台设备的下线,标志着超过10PB的HBase数据迁移项目顺利完成。目前,新的集群已在新机房稳定运行超过两个月,监控数据显示,新集群的查询响应时间显著降低,系统稳定性大幅提升。此外,数据消费的波动也变得更加平滑,整体性能得到了显著优化。 ... [详细]
  • NoSQL数据库,即非关系型数据库,有时也被称作Not Only SQL,是一种区别于传统关系型数据库的管理系统。这类数据库设计用于处理大规模、高并发的数据存储与查询需求,特别适用于需要快速读写大量非结构化或半结构化数据的应用场景。NoSQL数据库通过牺牲部分一致性来换取更高的可扩展性和性能,支持分布式部署,能够有效应对互联网时代的海量数据挑战。 ... [详细]
  • Phoenix 使用体验分享与深度解析
    闲来无事看了下hbase方面的东西,发现还好理解不过不大习惯于是找到个phoenix感觉不错性能指标如下好像还不错了准备工作:启动hadoop集群启动zookkeeper启动hba ... [详细]
  • 分布式一致性算法:Paxos 的企业级实战
    一、简介首先我们这个平台是ES专题技术的分享平台,众所周知,ES是一个典型的分布式系统。在工作和学习中,我们可能都已经接触和学习过多种不同的分布式系统了,各 ... [详细]
  • 数据读取hadoopFileParameters:path–pathtoHadoopfileinputFormatClass–fullyqualifiedclassnameo ... [详细]
  • FileBeat + Flume + Kafka + HDFS + Neo4j + SparkStreaming + MySQL:【案例】三度关系推荐V1.0版本11:每周一计算最近一月主播视频评级
    一、数据计算步骤汇总下面我们通过文字梳理一下具体的数据计算步骤。第一步:历史粉丝关注数据初始化第二步:实时维护粉丝关注数据第三步:每天定 ... [详细]
  • Hadoop的文件操作位于包org.apache.hadoop.fs里面,能够进行新建、删除、修改等操作。比较重要的几个类:(1)Configurati ... [详细]
  • 在Linux系统中,原本已安装了多个版本的Python 2,并且还安装了Anaconda,其中包含了Python 3。本文详细介绍了如何通过配置环境变量,使系统默认使用指定版本的Python,以便在不同版本之间轻松切换。此外,文章还提供了具体的实践步骤和注意事项,帮助用户高效地管理和使用不同版本的Python环境。 ... [详细]
  • Storm集成Kakfa
    一、整合说明Storm官方对Kafka的整合分为两个版本,官方说明文档分别如下:StormKafkaIntegratio ... [详细]
  • Hadoop——实验七:MapReduce编程实践
    文章目录一.实验目的二.实验内容三.实验步骤及结果分析 1.基于ubuntukylin14.04(7)版本,安装hadoop-eclipse-kepler-plugi ... [详细]
author-avatar
RealMadrid
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有