大数据方向学习指南

作者：命运2502901041_350 | 来源：互联网 | 2023-08-17 09:26

前置知识：Linux用户管理，Linux文件权限管理，文件打包与解压，SQL语句Step1熟悉工作室软件环境Step2VirtualBox使用&启动vimtutorStep3熟悉云

前置知识：Linux用户管理，Linux文件权限管理，文件打包与解压，SQL语句

Step1 熟悉工作室软件环境
Step2 VirtualBox使用&启动vimtutor
Step3 熟悉云平台的使用
Step4 初识Hadoop
Step5 Hadoop单节点安装（1）本地模式
Step6 Hadoop单节点安装（2）伪分布式模式
Step7 添加PATH变量，方便使用java与hadoop命令
Step8 伪分布式模式下运行mapreduce
Step9 run a MapReduce job on YARN in a pseudo-distributed mode
Step10 Archives Examples-(1)Creating an Archive
Step11 Archives Examples-(2)Looking Up Files
Step12 Hadoop Commands Guide
Step13 编辑java开发的mapreduce源文件并且在集群上运行
Step13.1 使用eclipse-java开发mapreduce程序sample
Step13.2 MapReduce实现去重-NullWritable的使用
Step14 完全分布式安装Hadoop
Step15 修改复制块数与上传文件到hdfs
Step16 mapreduce使用yarn进行资源调度
Step17 Hive安装（使用mysql存储元数据）
Step18 Hive安装（使用默认的derby存储元数据）
Step19 使用Hive进行mapreduce计算
Step20 一个更加复杂的实例
Step21 理解目录/user/hive/warehouse/与表的关系
Step22 一个关于hive的官网示例
Step23 查询选课信息的简单示例
Step24 网络日志的Hive简单查询
Step24.1 一个Hive练习（解答2017年大数据行业大赛一题）
Step24.5 zookeeper的安装
Step25 Hbase官网快速入门教程
Step26 Hbase安装
Step27 HBase学习目录
Step35 spark本地运行
Step36 spark集群安装
Step37 spark交互式开发wordcount
Step38 spark示例程序wordcount开发
Step51 sqoop的安装
Step52 使用sqoop将数据从mysql导入到hdfs
Step53 使用sqoop将数据从mysql导入到hive

【hadoop入门视频教程】理论考核内容：

考核方式：新建简书文章，提交重要步骤截图
考核时间：10.11周三下午3点到4点半

第一步使用Virtulbox搭建hadoop集群（1个master,3个slave1，slave2,slave3）

要求：
1.Centos7操作系统采用最小化安装
2.可以通过master节点，统一启动与关闭dfs
3.每个hdfs块文件备份2份
4.从节点的心跳检查时间间隔10秒
5.hadoop.tmp.dir配置为/var/tmphadoop/

第二步使用hadoop fs -put命令上传测试文件hello.txt到hdfs的根目录。用java判断该文件是否存在，如果存在，则删除该文件，如果不存在则上传该文件。

第三步启动Yarn集群，并且配置mapreduce使用yarn做为资源调度，执行wordcount样例程序。

【hadoop入门视频教程】理论考核内容：

待定&＃8230;&＃8230;

2017.10行业大赛分工

推荐阅读

command
Azkaban（三）Azkaban的使用

界面介绍首页有四个菜单projects：最重要的部分，创建一个工程，所有flows将在工程中运行。scheduling:显示定时任务executing:显示当前运行的任务histo ... [详细]

蜡笔小新 2023-10-15 23:43:11
install
Hadoop （CDH4发行版）集群部署（部署脚本，namenode高可用，hadoop管理）

前言折腾了一段时间hadoop的部署管理，写下此系列博客记录一下。为了避免各位做部署这种重复性的劳动，我已经把部署的步骤写成脚本，各位只需要按着本文把脚本执行完，整个环境基本就部署 ... [详细]

蜡笔小新 2023-10-16 15:11:51
go
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
default
HDFS2.x新特性

一、集群间数据拷贝scp实现两个远程主机之间的文件复制scp-rhello.txtroothadoop103:useratguiguhello.txt推pushscp-rr ... [详细]

蜡笔小新 2023-12-13 13:52:40
cmd
windows部署hadoop2.7.0

这里使用自己编译的hadoop-2.7.0版本部署在windows上，记得几年前，部署hadoop需要借助于cygwin，还需要开启ssh服务，最近发现，原来不需要借助cy ... [详细]

蜡笔小新 2023-10-17 21:04:04
command
Hadoop2.6.0 + 云centos +伪分布式只谈部署

3.0.3玩不好，现将2.6.0tar.gz上传到usr,chmod-Rhadoop:hadophadoop-2.6.0，rm掉3.0.32.在etcp ... [详细]

蜡笔小新 2023-10-17 19:28:24
command
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
default
Hadoop学习笔记1：伪分布式环境搭建

在搭建Hadoop环境之前，请先阅读如下博文，把搭建Hadoop环境之前的准备工作做好，博文如下： 1、CentOS6.7下安装JDK,地址：http:b ... [详细]

蜡笔小新 2023-10-16 16:04:04
default
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
default
sqoop自定义分隔符的实现方法及步骤详解

本文介绍了在sqoop1.4.*版本中，如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件，并重新编译，可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码，重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ... [详细]

蜡笔小新 2023-12-10 11:29:22
default
MR程序的几种提交运行模式

MR程序的几种提交运行模式本地模型运行1在windows的eclipse里面直接运行main方法，就会将job提交给本地执行器localjobrunner执行-- ... [详细]

蜡笔小新 2023-10-16 18:29:26
default
《Spark核心技术与高级应用》——1.2节Spark的重要扩展

本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章，第1.2节Spark的重要扩展，作者于俊向海代其锋马海平，更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]

蜡笔小新 2023-10-16 18:07:56
default
Kylin 单节点安装

软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]

蜡笔小新 2023-10-16 16:09:42
default
Hadoop之Yarn

目录1Hadoop1.x和Hadoop2.x架构区别2Yarn概述3Yarn基本架构4Yarn工作机制5作业提交全过程6资源调度器7任务的推测执行1Hadoop1.x和Hadoo ... [详细]

蜡笔小新 2023-10-15 12:16:30
byte
数据完整性_HDFS数据完整性

本文由编程笔记#小编为大家整理，主要介绍了HDFS数据完整性相关的知识，希望对你有一定的参考价值。数据完整性Hadoop用户肯定都希望系统在存储和处理 ... [详细]

蜡笔小新 2023-10-15 11:26:50