当前位置: 开发笔记 > 编程语言 > 正文

初学hadoop的个人历程

作者：帅哥大香蕉 | 来源：互联网 | 2023-06-10 16:56

在学习hadoop之前，我就明确了要致力于大数据行业,成为优秀的大数据研发工程师的目标，有了大目标之后要分几步走，然后每一步不断细分，采用大事化小的方法去学习hadoop。下面

　在学习hadoop之前，我就明确了要致力于大数据行业,成为优秀的大数据研发工程师的目标，有了大目标之后要分几步走，然后每一步不断细分，采用大事化小的方法去学习hadoop。下面开始叙述我是如何初学hadoop的。

　　Hadoop学习两步走:linux学习、hadoop学习。

　　在接触hadoop之前我有java基础，为此我的计划是首先学习Linux,然后学习hadoop生态系统,为此学习hadoop第一步计划就是学习linux了，然后linux又可以分为四个步骤走。

　　linux任务第一个目标就是要熟练操作linux常用命令以及网络配置;

　　第二个目标就是熟悉用户以及权限管理操作;

　　第三个目标就是熟悉软件包以及系统命令管理，第四个就是要学习shell编程了。

　　Linux系统学习完毕之后，紧接着就是第二个计划了学习Hadoop。

　　Hadoop阶段分两步走。

　　第一阶段能熟练搭建伪分布式集群以及完全分布式集群，我个人认为先搭建hadoop环境然后再学习hadoop这样效果更好。就如同看别人代码一样，我们先把别人代码能跑起来，然后再分析代码，如果代码都跑不起来，何谈代码分析，所以先让hadoop环境搭建起来，能正常运行wordcount程序，我们才能慢慢分析整个Hadoop生态系统，这样我们能对hadoop有个整体上的认识。

　　Hadoop第二阶段就是基于第一阶段的基础上，再细分几大阶段：

　　首先第一阶段整体上认识hadoop生态系统，了解MapReduce分布式计算框架、Yarn集群资源管理和调度平台、hdfs分布式文件系统、hive数据仓库、HBase实时分布式数据库、Flume日志收集工具、sqoop数据库ETL工具、zookeeper分布式协作服务、Mahout数据挖掘库;

　　第二阶段学习MapReduce,MapReduce作为hadoop核心内容，要先易后难，首先了解Mapper、Reducer、Configuration、job等这些类，熟悉MapReduce流程图，然后写简单的单词统计代码，整体上对MapReduce认识，之后学习MapReduce运行机制，熟练掌握，MapReduce输入格式，MapReduce输出格式，以及MapReduce优化;

　　第三阶段学习hadoop另一个核心内容HDFS，首先明白什么是hdfs,然后再分析hdfs的优点，然后再了解Hdfs的缺点有哪些，HDFS是如何存储数据的，采用什么样的架构，我们如何实现读取和写入HDFS中的文件，以及了解HDFS副本存放策略，同时熟练掌握HDFS的shell访问和java访问。

　　第三阶段就是学习hadoop另一个核心内容:Yarn,首先我们要了解Yarn是什么，为什么使用Yarn，Yarn的构架，Yarn的原理。我个人认为，hadoop初学者只要掌握了提供海量数据存储的HDFS，分布式计算的MapReduce,以及集群资源管理和调度平台的yarn，基本上也就掌握了Hadoop最核心的东西，也为以后的hbase、hive学习打下了坚实的基础。

　　以下是我个人初学hadoop学习历程的思维导图，仅供参考。

初学hadoop的个人历程

转载：http://www.chinacloud.cn/show.aspx?id=24165&cid=22

推荐阅读

php
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
go
Hadoop的分布式架构改进与应用

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2024-10-11 14:10:35
go
Android 构建基础流程详解

Android 构建基础流程详解 ... [详细]

蜡笔小新 2024-11-10 15:45:20
go
精选Linux经典著作在数字图书馆展出

数字图书馆近期展出了一批精选的Linux经典著作，这些书籍虽然部分较为陈旧，但依然具有重要的参考价值。如需转载相关内容，请务必注明来源：小文论坛（http://www.xiaowenbbs.com）。 ... [详细]

蜡笔小新 2024-11-08 10:55:29
php
在 Windows 系统上使用 Docker 构建 NGINX、PHP、MySQL、Redis 和 Elasticsearch 的集成开发环境

本文介绍了如何在 Windows 系统上利用 Docker 构建一个包含 NGINX、PHP、MySQL、Redis 和 Elasticsearch 的集成开发环境。通过详细的步骤说明，帮助开发者快速搭建和配置这一复杂的技术栈，提升开发效率和环境一致性。 ... [详细]

蜡笔小新 2024-11-07 06:06:15
byte
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
int
在Ubuntu系统中配置Python环境变量的方法与技巧

在Ubuntu系统中配置Python环境变量是确保项目顺利运行的关键步骤。本文介绍了如何将Windows上的Django项目迁移到Ubuntu，并解决因虚拟环境导致的模块缺失问题。通过详细的操作指南，帮助读者正确配置虚拟环境，确保所有第三方库都能被正确识别和使用。此外，还提供了一些实用的技巧，如如何检查环境变量配置是否正确，以及如何在多个虚拟环境之间切换。 ... [详细]

蜡笔小新 2024-11-05 21:42:25
int
《Hadoop》系列深度探索（三）：物联网技术综述与应用前景

在前一篇文章《Hadoop》系列之“踽踽独行”（二）中，我们详细探讨了云计算的核心概念。本章将重点转向物联网技术，全面解析其基本原理、应用场景及未来发展前景。通过深入分析物联网的架构和技术栈，我们将揭示其在智能城市、工业自动化和智能家居等领域的广泛应用潜力。此外，还将讨论物联网面临的挑战，如数据安全和隐私保护等问题，并展望其在未来技术融合中的重要角色。 ... [详细]

蜡笔小新 2024-11-03 18:20:22
int
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
join
NoSQL 数据查询与检索技术解析

NoSQL数据库，即非关系型数据库，有时也被称作Not Only SQL，是一种区别于传统关系型数据库的管理系统。这类数据库设计用于处理大规模、高并发的数据存储与查询需求，特别适用于需要快速读写大量非结构化或半结构化数据的应用场景。NoSQL数据库通过牺牲部分一致性来换取更高的可扩展性和性能，支持分布式部署，能够有效应对互联网时代的海量数据挑战。 ... [详细]

蜡笔小新 2024-10-28 18:13:15
jar
Hadoop——实验七：MapReduce编程实践

文章目录一.实验目的二.实验内容三.实验步骤及结果分析 1.基于ubuntukylin14.04(7)版本，安装hadoop-eclipse-kepler-plugi ... [详细]

蜡笔小新 2024-10-14 18:07:40
config
解决 Ubuntu 环境下 Hadoop 集群 SSH 密钥认证问题

本文详细介绍了在 Ubuntu 系统上搭建 Hadoop 集群时遇到的 SSH 密钥认证问题及其解决方案。通过本文，读者可以了解如何在多台虚拟机之间实现无密码 SSH 登录，从而顺利启动 Hadoop 集群。 ... [详细]

蜡笔小新 2024-11-13 09:14:02
go
利用树莓派畅享落网电台音乐体验

最近重新拾起了闲置已久的树莓派，这台小巧的开发板已经沉寂了半年多。上个月闲暇时间较多，我决定将其重新启用。恰逢落网电台进行了改版，回忆起之前在树莓派论坛上看到有人用它来播放豆瓣音乐，便萌生了同样的想法。通过一番调试，终于实现了在树莓派上流畅播放落网电台音乐的功能，带来了全新的音乐享受体验。 ... [详细]

蜡笔小新 2024-11-05 09:20:37
int
Direct3D如何建立一个立方体然后把我的ViewPoint 放到里面！我给300分

我要用Direct3D建立一个虚拟的屋子，然后把我的视角放到屋子里面，并且可以水平旋转，就象是虚拟现实空间那样。其实就跟DOOM类游戏一样。并且能够用PICK函数去选取在指定点 ... [详细]

蜡笔小新 2024-10-12 21:48:34
int
APMpinpoint（分布式集群环境下的性能监控）

[官方参考](https:github.comnaverpinpointblobmasterdocinstallation.md”pinpoint官方文档”)中文文档参考环境要求： ... [详细]

蜡笔小新 2024-10-10 14:13:27

帅哥大香蕉

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章