当前位置: 开发笔记 > 运维 > 正文

＂Hadoop/MapReduce/HBase＂分享总结

作者：Wx丶华少 | 来源：互联网 | 2018-06-11 06:18

概述：此分享是关于hadoop生态系统的简单介绍包括起源到相对应用技术点：1.hadoop核心包括Common，HDFS和MapReduce；2.Pig，Hbase，Hive，Zookeeper；3.Hadoop日志分析工具Chukwa；4.MR解决的问题：海量输入数据，简单任务划分和集群计算环境；5.执行流程

概述：此分享是关于hadoop生态系统的简单介绍包括起源到相对应用技术点： 1.hadoop核心包括Common，HDFS和MapReduce；2.Pig，Hbase，Hive，Zookeeper；3.Hadoop日志分析工具Chukwa；4.MR解决的问题：海量输入数据，简单任务划分和集群计算环境；5.执行流程

概述：

此分享是关于hadoop生态系统的简单介绍包括起源到相对应用

技术点：

1.hadoop核心包括Common，HDFS和MapReduce；
2.Pig，Hbase，Hive，Zookeeper；
3.Hadoop日志分析工具Chukwa；
4.MR解决的问题：海量输入数据，简单任务划分和集群计算环境；
5.执行流程：FileSplit / Map / Combine(Partition)和Copy / Sort / Reduce 
6.分布式计算包括:作业和任务调度和执行，预测执行，故障处理和针对不同应用环境的优化
7.HDFS可靠性措施：NameNode备份，多数据结点(冗余)，数据结点的心跳检测，块报告和完整性检验，NameNode的日志文件和镜像文件；
8.两个系列版本：Apache和Cloudera；
9.SSH无密码访问；
10.内置web服务器：
JobTrackerIP:50030 
TaskTrackerIP:50060 
NamenodeIP:50070 
DatanodeIP:50075 
11.HBase以以Region为单位管理region(startKey,endKey)；
12.HBase的每个Column Family单独存储：storeFile；
13.HBase的RegionServer为Region读写操作的场所；
14.HBase的Master管理Region的分配和基于zookeeper来保证HA；
15.HBase的强一致性：同一行数据的读写只在同一台regionserver上进行；
16.HBase的水平伸缩：region的自动分裂以及master的balance，只用增加datanode机器即可增加容量和增加regionserver机器即可增加读写吞吐量；
17.HBase的行事务；
18.HBase三维有序rowKey (ASC) + columnLabel(ASC) + Version (DESC)  --> value 
19.HBase支持范围查询和高性能随机写 ；
20.HBase基于Hadoop；
21.HBase不支持二级索引和join操作;
22.Hbase具有特定的适用场景;

详情参见附件

Hadoop和HBase.pdf (2.1 MB)

已有 0 人发表留言，猛击->> 这里<<-参与讨论

ITeye推荐

—软件人才免语言低担保赴美带薪读研！—

IT 资讯

原文地址："Hadoop/MapReduce/HBase"分享总结, 感谢原作者分享。

推荐阅读

apache
Hadoop发行版本选择指南：技术解析与应用实践

本文详细介绍了Hadoop的不同发行版本及其特点，帮助读者根据实际需求选择最合适的Hadoop版本。内容涵盖Apache Hadoop、Cloudera CDH等主流版本的特性及应用场景。 ... [详细]

蜡笔小新 2024-12-22 20:38:12
cron
解决Hive启动时权限被拒问题

本文详细分析了Hive在启动过程中遇到的权限拒绝错误，并提供了多种解决方案，包括调整文件权限、用户组设置以及环境变量配置等。 ... [详细]

蜡笔小新 2024-12-26 19:14:29
linux
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
apache
深入解析BookKeeper的设计与应用场景

本文介绍了由Yahoo在2009年开发并于2011年开源的BookKeeper技术。BookKeeper是一种高效且可靠的日志流存储解决方案，广泛应用于需要高性能和强数据持久性的场景。 ... [详细]

蜡笔小新 2024-12-19 11:08:57
apache
window下kafka的安装以及测试

目录一、安装JDK（需要安装依赖javaJDK）二、安装Kafka三、测试参考在Windows系统上安装消息队列kafka一、安装JDKÿ ... [详细]

蜡笔小新 2024-12-16 12:01:36
linux
ZooKeeper集群构建与详解

本文详细介绍了使用ZooKeeper构建高可用集群的方法，包括必要的软件环境准备、配置文件调整及集群启动等关键步骤。通常，一个ZooKeeper集群由奇数个节点组成，以确保Leader选举的有效性。 ... [详细]

蜡笔小新 2024-12-16 11:16:22
apache
深入解析Spark核心架构与部署策略

本文详细探讨了Spark的核心架构，包括其运行机制、任务调度和内存管理等方面，以及四种主要的部署模式：Standalone、Apache Mesos、Hadoop YARN和Kubernetes。通过本文，读者可以深入了解Spark的工作原理及其在不同环境下的部署方式。 ... [详细]

蜡笔小新 2024-12-14 20:02:45
tomcat
优化使用Apache + Memcached-Session-Manager + Tomcat集群方案

本文探讨了使用Apache、Memcached-Session-Manager和Tomcat集群构建高性能Web应用过程中遇到的问题及解决方案。通过重新设计物理架构，解决了单虚拟机环境无法真实模拟分布式环境的问题，并详细记录了性能测试结果。 ... [详细]

蜡笔小新 2024-12-14 10:07:53
apache
Zookeeper面试常见问题解析

本文详细介绍了Zookeeper中的ZAB协议、节点类型、ACL权限控制机制、角色分工、工作状态、Watch机制、常用客户端、分布式锁实现、默认通信框架以及消息广播和领导选举的流程。 ... [详细]

蜡笔小新 2024-12-12 12:41:06
apache
HDFS与Hive中的数据存储和管理机制

本文探讨了Hive中内部表和外部表的区别及其在HDFS上的路径映射，详细解释了两者的创建、加载及删除操作，并提供了查看表详细信息的方法。通过对比这两种表类型，帮助读者理解如何更好地管理和保护数据。 ... [详细]

蜡笔小新 2024-12-27 20:21:48
apache
HBase运维工具全解析

本文深入探讨了HBase常用的运维工具，详细介绍了每种工具的功能、使用场景及操作示例。对于HBase的开发人员和运维工程师来说，这些工具是日常管理和故障排查的重要手段。 ... [详细]

蜡笔小新 2024-12-24 17:00:59
服务器
ZooKeeper集群脑裂问题及其解决方案

本文深入探讨了ZooKeeper集群中可能出现的脑裂问题，分析其成因，并提供了多种有效的解决方案，确保集群在高可用性环境下的稳定运行。 ... [详细]

蜡笔小新 2024-12-22 17:19:52
nginx
全面解析运维监控：白盒与黑盒监控及四大黄金指标

本文深入探讨了白盒和黑盒监控的概念，以及它们在系统监控中的应用。通过详细分析基础监控和业务监控的不同采集方法，结合四个黄金指标的解读，帮助读者更好地理解和实施有效的监控策略。 ... [详细]

蜡笔小新 2024-12-22 14:02:29
centos
离线安装Grafana Cloudera Manager插件并监控CDH集群

本文详细介绍如何离线安装Cloudera Manager (CM) 插件，并通过Grafana监控CDH集群的健康状况和资源使用情况。该插件利用CM提供的API接口进行数据获取和展示。 ... [详细]

蜡笔小新 2024-12-21 17:56:30
apache
深入解析Spring Cloud微服务架构与分布式系统实战

本文详细介绍了Spring Cloud在微服务架构和分布式系统中的应用，结合实际案例和最新技术，帮助读者全面掌握微服务的实现与优化。 ... [详细]

蜡笔小新 2024-12-19 16:02:50

Wx丶华少

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章