热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Hadoop学习基础知识

1初识HadoopHadoop两个核心组件:HDFS和MapReduceHDFS:分布式文件系统,存储海量数据MapReduce&#

 

 

1 初识Hadoop

Hadoop两个核心组件:HDFS和MapReduce

HDFS:分布式文件系统,存储海量数据

MapReduce:并行处理矿建,实现任务分解和调度

 

Hadoop能够做什么?处理PB级别的数据处理、分析、统计、查询。

有点,高扩展,低成本,成熟的生态。

Hadoop大数据首选,人才缺口大:hadoop编程人员,hadoop运维人员

 

2 安装hadoop(主要介绍java和hadoop安装)

java和hadoop伪分布式安装文档参考:https://blog.csdn.net/sa726663676/article/details/113046277

 

 

3 HDFS(分布式文件存储)

hdfs设计架构:块(block) namenode  datanode

:所有文件存储的时候都切成相同大小的块,hdfs默认块大小是64M,块是文件存储的基本单元。

namenode:是管理节点,存放元数据(1)文件与数据块的映射表(2)数据块与数据节点的映射表

datanode:是hdfs的工作节点,是存放真正的数据块数据。

hdfs的特点:1数据冗余,硬件容错,2流式数据访问(存储数据不能被修改)3 适合储存大文件(因为namenode存储元数据也需要占空间)

适用性和局限性:适合批量读写,吞吐量高,不适合交互式应用,低延迟难满足。

适合一次写入多次读取,顺序读写。不支持多用户并发写相同文件。

 

hadoop fs -mkdir input #建立一个input文件夹存储hadoop文件

 

 

4 Mapreduce(分布式计算框架)

将一个大任务分成很多个小任务(map),并行执行后,合并结果(reduce)

 

 

基本概念

 

MapReduce的容错机制。

(1)重复执行。当程序出错时,程序首先会重复执行4次,如果4次都错了就放弃执行。

(2)推测执行。有一个节点执行慢的话会找其他节点执行相同任务,第一个执行完成的通知其它节点停止执行。

 

 

5 Hadoop应用程序编程(java api编程)

WordCount单词计数(Hadoop入门程序)

以下是通过java程序控制hadoop api编写程序,具体流程有以下4个步骤

1.编写WordCount.java:包含Mapper类和Reducer类

2.编译WordCount.java javac -classpath

3 打包jar -cvf WordCount.jar classes/*

4作业提交到hadoop运行:hadoop jar WourCount.jar WordCount input output

程序如下:

视频:https://www.imooc.com/video/8086

 

 

 

6 总结

 

 

7 hadoop高级进阶

 

 

以上参考学习视频:https://www.imooc.com/video/7645

 

 


推荐阅读
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • flowable工作流 流程变量_信也科技工作流平台的技术实践
    1背景随着公司业务发展及内部业务流程诉求的增长,目前信息化系统不能够很好满足期望,主要体现如下:目前OA流程引擎无法满足企业特定业务流程需求,且移动端体 ... [详细]
  • 云原生应用最佳开发实践之十二原则(12factor)
    目录简介一、基准代码二、依赖三、配置四、后端配置五、构建、发布、运行六、进程七、端口绑定八、并发九、易处理十、开发与线上环境等价十一、日志十二、进程管理当 ... [详细]
  • Hadoop源码解析1Hadoop工程包架构解析
    1 Hadoop中各工程包依赖简述   Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。   GoogleCluster:ht ... [详细]
  • 【转】腾讯分析系统架构解析
    TA(TencentAnalytics,腾讯分析)是一款面向第三方站长的免费网站分析系统,在数据稳定性、及时性方面广受站长好评,其秒级的实时数据更新频率也获得业界的认可。本文将从实 ... [详细]
  • 伸缩性|发生_分布式文件系统设计,该从哪些方面考虑?
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了分布式文件系统设计,该从哪些方面考虑?相关的知识,希望对你有一定的参考价值。点击上方关注“ ... [详细]
  • 既然HDFS是存取数据的分布式文件系统,那么对HDFS的操作,就是文件系统的基本操作,比如文件的创建、修改、删除、修改权限等,文件夹的创建、删除、重命名等。对HDFS的操作命令类似于Linux的she ... [详细]
  • t-io 2.0.0发布-法网天眼第一版的回顾和更新说明
    本文回顾了t-io 1.x版本的工程结构和性能数据,并介绍了t-io在码云上的成绩和用户反馈。同时,还提到了@openSeLi同学发布的t-io 30W长连接并发压力测试报告。最后,详细介绍了t-io 2.0.0版本的更新内容,包括更简洁的使用方式和内置的httpsession功能。 ... [详细]
  • 本文总结了初学者在使用dubbo设计架构过程中遇到的问题,并提供了相应的解决方法。问题包括传输字节流限制、分布式事务、序列化、多点部署、zk端口冲突、服务失败请求3次机制以及启动时检查。通过解决这些问题,初学者能够更好地理解和应用dubbo设计架构。 ... [详细]
  • 智慧博物馆信息系统建设方案
    3.信息化系统建设3.1博物馆RFID藏品管理系统3.1.1系统概述博物馆藏品保管是一项十分复杂又繁琐的工作。从事保管工作除了经常、及时地进行藏品的登记、分类、编目、保养和修 ... [详细]
  • 《Spark核心技术与高级应用》——1.2节Spark的重要扩展
    本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章,第1.2节Spark的重要扩展,作者于俊向海代其锋马海平,更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]
  •        在搭建Hadoop环境之前,请先阅读如下博文,把搭建Hadoop环境之前的准备工作做好,博文如下:       1、CentOS6.7下安装JDK,地址:http:b ... [详细]
  • 我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]
  • MapReduce工作流程最详细解释
    MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型,MapReduce的计算过程被封装的很好,我们只用使用Map和Reduce函数,所以对其整体的计算过程不是太 ... [详细]
  • Zookeeper 总结与面试题汇总
    Zookeeper总结与面试题汇总,Go语言社区,Golang程序员人脉社 ... [详细]
author-avatar
手机用户2502873425
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有