Hdoop入门

作者：左手抽烟吹寂寞 | 来源：互联网 | 2023-10-10 12:27

一、背景1、起源MapReduce编程模型的思想来源于函数式编程语言Lisp，由Google公司于2004年提出并首先应用于大型集群。同时，Google

一、背景

1、起源

MapReduce编程模型的思想来源于函数式编程语言Lisp，由Google公司于2004年提出并首先应用于大型集群。同时，Google也发表了GFS、BigTable等底层系统以应用MapReduce模型。在2007年，Google’s MapReduce Programming Model-Revisted论文发表，进一步详细介绍了Google MapReduce模型以及Sazwall并行处理海量数据分析语言。Google公司以MapReduce作为基石，逐步发展成为全球互联网企业的领头羊。

2、项目起源和发展

Hadoop作为Apache基金会资助的开源项目，由Doug Cutting带领的团队进行开发，基于Lucene和Nutch等开源项目，实现了Google的GFS和Hadoop能够稳定运行在20个节点的集群；2006年1月，Doug Cutting加入雅虎公司，同年2月Apache Hadoop项目正式支持HDFS和MapReduce的独立开发。同时，新兴公司Cloudera为Hadoop提供了商业支持，帮助企业实现标准化安装，并志愿贡献社区。Hadoop的最新版本是0.21.0，说明其还在不断完善发展之中。

二、Hadoop基础原理

1、定义

Hadoop原来是Apache Lucene下的一个子项目，它最初是从Nutch项目中分离出来的专门负责分布式存储以及分布式运算的项目。简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。

2、组成

Hadoop由分布式存储HDFS和分布式计算MapReduce两部分组成。HDFS是一个master/slave的结构，就通常的部署来说，在master上只运行一个Namenode，而在每一个slave上运行一个Datanode。MapReduce是Google的一项重要技术，它是一个编程模型，用以进行大数据量的计算。MapReduce的名字源于这个模型中的两项核心操作：Map和Reduce。Map是把一组数据一对一的映射为另外的一组数据，Reduce是对一组数据进行归约，映射和归约的规则都由一个函数指定。

三、国内外应用

1、国外应用

2008年2月，雅虎宣布搭建出世界上最大的基于Hadoop的集群系统—Yahoo! Search Webmap，另外还被广泛应用到雅虎的日志分析、广告计算、科研实验中；Amazon的搜索门户A9.com中的商品搜索的索引生成就是基于Hadoop完成的；互联网电台和音乐社区网站Last.fm使用Hadoop集群运行日志分析、A/B测试评价、AdHoc处理和图表生成等日常作业；著名SNS网站Facebook用Hadoop构建了整个网站的数据仓库，它目前有320多台机器进行网站的日志分析和数据挖掘。 UC Berkeley等著名高校也对Hadoop进行应用和研究，以提高其整体性能，包括Matei Zaharia等人改进了Hadoop的推测式执行技术并发表了Improving MapReduce Performance in Heterogeneous Environment；Tyson Condie等人改进了MapReduce体系，允许数据在操作之间用管道传送，开发了Hadoop Online Prototype（HOP）系统，并发表了MapReduce Online。

2、国内应用

2008年之后，国内应用和研究Hadoop的企业也越来越多，包括淘宝、百度、腾讯、网易、金山等。淘宝是国内最先使用Hadoop的公司之一；百度在Hadoop上进行广泛应用并对它进行改进和调整，同时赞助了HyperTable的开发。总之，互联网企业是Hadoop在国内的主要使用力量。同样的，很多科研院所也投入到Hadoop的应用和研究中，包括中科院、清华大学、浙江大学和华中科技大学等。

四、文档说明

1、来源

该文档在编写的过程中添加了hadoop自带的中文说明文档，同时也借鉴了网上一些朋友编写资料。主要目的就是将这里信息汇总，方便查阅和推广。

2、环境

该文档中涉及的例子我采用的都是Linux操作系统、Apache发布的Hadoop版本0.20.2、JDK使用的是1.6，Hive使用的是0.5、HBase使用的是0.20.5

Hadoop入门（二）——安装

一、安装准备

1、所需软件

hadoop 0.20.2地址：http://www.apache.org/dist/hadoop/core/hadoop-0.20.2/

JDK版本：jdk-6u26-linux-i586.rpm.bin （必须是1.6）

操作系统：CentOS

三台机器：10.2.33.151（master），10.2.33.152（slave），10.2.33.153（slave）

二、安装操作

1、软件安装

拷贝以上文件到Linux的“/opt/”目录下。

安装JDK，此步省略……。

解压hdaoop：tar -zxvf hadoop-0.20.2.tar.gz

配置151机器可以通过SSH直接访问152和153。

2、系统SSH配置

在151、152、153三台机器上分别执行以下操作：

ssh-keygen -t dsa

直接回车，完成后会在~/.ssh/生成两个文件：id_dsa 和id_dsa.pub。这两个是成对出现，类似钥匙和锁。再把id_dsa.pub 追加到授权key 里面（当前并没有authorized_keys文件)：

$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys。

注：若想多台机器登陆一台机器，则将3台机器的id_dsa.pub合并为1个authorized_keys，换行分割即可。

完成后可以实现无密码登录：

$ ssh root@IP

3、系统环境变量配置

JAVA_HOME=/usr/java/jdk1.6.0_26

CLASSPATH=.:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:$CLASSPATH

HADOOP_HOME=/opt/hadoop-0.20.2

PATH=$JAVA_HOME/bin:$HOME/bin:$HADOOP_HOME/bin:$HIVE_HOME/bin:$PATH

export PATH HADOOP_HOME CLASSPATH JAVA_HOME

最后记得source /etc/profile生效。

4、系统HOSTS配置

修改ect/hosts配置文件，内容如下：

127.0.0.1 localhost

10.2.33.151 test-01

10.2.33.152 test-02

10.2.33.153 test-03

注：以上hosts信息很重要，每台机器都要配置，test-01为服务器名

5、Hadoop配置

修改/opt/hadoop-0.20.2/conf/目录下的master文件，内容如下：

10.2.33.151

修改/opt/hadoop-0.20.2/conf/目录下的slaves文件，内容如下：

10.2.33.152

10.2.33.153

修改/opt/hadoop-0.20.2/conf/hadoop-env.sh文件的环境变量：

# The java implementation to use. Required.

export JAVA_HOME=/usr/java/jdk1.6.0_26

拷贝/opt/hadoop-0.20.2/src/core/core-default.xml到/opt/hadoop-0.20.2/conf/core-site.xml，修改部分内容如下：

hadoop.tmp.dir

/hadoopdata

fs.default.name

hdfs://10.2.33.151:9000

拷贝/opt/hadoop-0.20.2/src/hdfs/hdfs-default.xml到/opt/hadoop-0.20.2/conf/hdfs-site.xml配置文件，内容不变。

拷贝/opt/hadoop-0.20.2/src/mapred/mapred-default.xml到/opt/hadoop-0.20.2/conf/mapred-site.xml配置文件，修改部分内容如下：

mapred.job.tracker

10.2.33.151:9001

将/opt/hadoop-0.20.2拷贝到10.2.33.152和10.2.33.153对应的目录下。将/ect/profile和/etc/hosts也拷贝到152和153机器上。注意profile需要做生效操作。建议打包拷贝或者scp拷贝。

四、初始配置

1、格式化HDFS文件系统

进入/opt/hadoop-0.20.2/bin目录。执行：

hadoop namenode –format

2、启动/停止hadoop

启动hadoop。执行：

/opt/hadoop-0.20.2/bin/start-all.sh

停止hadoop。执行：

/opt/hadoop-0.20.2/bin/stop-all.sh

3、查看hadoop信息

在/opt/hadoop-0.20.2/bin目录下，执行：

hadoop fs -ls /

如果控制台返回结果，表示初始化成功。可以向里面录入数据。

通过WEB查看hadoop

查看集群状态：http://10.2.33.151:50070dfshealth.jsp

查看JOB状态：http://10.2.33.151:50030/jobtracker.jsp

五、注意事项

1、hadoop的安装千万记得修改/etc/hosts文件，而且要把所有master和slaves的内容都配置进去，所有机器的host配置，在hadoop方面是一样的。

2、master和slaves这2个配置文件可以不拷贝到152和153机器上，只在master上保存即可，保险起见，还是都拷贝下吧。

3、通过web查看hadoop的时候，如果使用IE一些图形工具显示不出来，建议使用opera或是chrome。

转载于:https://www.cnblogs.com/zhishan/archive/2013/04/25/3041724.html

推荐阅读

php
深入解析Go语言：为何值得学习及其在Web开发中的应用

本文探讨了Go语言（Golang）的学习价值及其在Web开发领域的应用潜力，包括其独特的语言特性和为什么它是现代软件开发的理想选择。 ... [详细]

蜡笔小新 2024-12-01 01:41:40
php
Apache Axis2 403 Forbidden 错误分析与解决方案

本文详细分析了一个生产系统中遇到的 Apache Axis2 403 Forbidden 错误，并提供了具体的排查步骤和解决方案。 ... [详细]

蜡笔小新 2024-11-30 18:39:02
php
致信息安全爱好者的成长指南

本文旨在为信息安全爱好者提供一份详尽的成长指南，涵盖从学习心态调整到具体技能提升的各个方面。 ... [详细]

蜡笔小新 2024-12-03 19:44:46
request
Flask RESTful API 设计指南

本文探讨了为何采用RESTful架构及其优势，特别是在现代Web应用开发中的重要性。通过前后端分离和统一接口设计，RESTful API能够提高开发效率，支持多种客户端，并简化维护。 ... [详细]

蜡笔小新 2024-12-03 19:41:21
php
深入理解FastDFS

FastDFS是一款高效、简洁的分布式文件系统，广泛应用于互联网应用中，用于处理大量用户上传的文件，如图片、视频等。本文探讨了FastDFS的设计理念及其如何通过独特的架构设计提高性能和可靠性。 ... [详细]

蜡笔小新 2024-12-03 14:42:56
php
Ubuntu下构建LAMP环境及PHP开发实践

本文详细记录了在Ubuntu 9.10操作系统上从零开始搭建LAMP（Linux, Apache, MySQL, PHP）环境的过程，包括遇到的问题及解决方案。旨在为初次尝试搭建LAMP环境的开发者提供参考。 ... [详细]

蜡笔小新 2024-11-30 20:30:52
merge
新技术频现，开发经验仍是决定工作质量的关键

Mario Peshev，自1999年起从事编程工作，现任DevriX首席执行官。本文最初发布于Quora，探讨了计算机技术与编程语言的区别及其对软件开发的影响。 ... [详细]

蜡笔小新 2024-11-30 16:01:20
php
2023年最新：PHP本地端口配置详解

本文详细介绍了PHP在不同环境下的本地端口配置方法及常见问题解决方案，帮助开发者更好地理解和配置PHP端口。 ... [详细]

蜡笔小新 2024-11-30 14:27:53
php
高效利用Java异常处理

本文探讨了Java异常处理的本质，提出了设计模式以优化异常处理，并分析了在AOP模型中异常处理的应用。文章强调了正确使用Java异常对于提升代码质量和维护性的关键作用。 ... [详细]

蜡笔小新 2024-11-30 10:46:18
php
2023年PHP处理请求超时的全面指南

本文详细介绍了在PHP中处理请求超时的各种方法，包括设置脚本执行时间、处理file_get_contents函数超时以及优化AJAX请求等，适合开发者参考学习。 ... [详细]

蜡笔小新 2024-11-29 12:55:50
format
解决 ClickOnce 部署时自动更新功能失效的问题

本文探讨了在使用 ClickOnce 部署方式时遇到的自动更新失败问题，包括本地安装与服务器安装的不同表现，并提供了详细的解决方案。 ... [详细]

蜡笔小新 2024-11-28 17:00:42
format
匠心|传统_2021年度总结 | 葡萄城软件开发技术回顾（上）

匠心|传统_2021年度总结 | 葡萄城软件开发技术回顾（上） ... [详细]

蜡笔小新 2024-11-28 16:47:46
php
PHP网站部署指南：从零开始搭建PHP网站

本文提供了详细的步骤指导，帮助开发者在不同环境下成功部署PHP网站，包括在IIS和Apache服务器上的具体操作。 ... [详细]

蜡笔小新 2024-11-28 11:23:57
request
Flink与Kafka集成时事务频繁失败及解决方案

本文探讨了在使用Apache Flink向Kafka发送数据过程中遇到的事务频繁失败问题，并提供了详细的解决方案，包括必要的配置调整和最佳实践。 ... [详细]

蜡笔小新 2024-11-27 20:17:44
merge
Python流程控制与条件判断详解

本文详细介绍了Python中的流程控制与条件判断技术，包括数据导入、数据变换、统计描述、假设检验、可视化以及自定义函数的创建等方面的内容。 ... [详细]

蜡笔小新 2024-11-27 20:04:59

左手抽烟吹寂寞

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章