热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【Spark实战】慕课网日志分析:Hadoop环境配置和基本操作

重要路径说明:app:所有软件的安装目录software:安装包目录data:测试数据目录source:软件

重要路径说明:

app:所有软件的安装目录
software:安装包目录
data:测试数据目录
source:软件源码目录
app/hadoop-2.6.0-cdh5.7.0/bin:包含客户端相关的脚本
app/hadoop-2.6.0-cdh5.7.0/sbin/:包含服务端相关的脚本,例如start-yarn.sh start-dfs.sh


查看虚拟机ip

命令:ifconfig


修改主机名到ip地址的映射

命令:sudo vim /etc/hosts


HDFS环境配置

修改app/hadoop-2.6.0-cdh5.7.0/etc/hadoop的三个文件:
1.hadoop-env.sh
根据命令echo $JAVA_HOME可知:

[hadoop@hadoop001 hadoop]$ echo $JAVA_HOME
/home/hadoop/app/jdk1.7.0_51

因此,将JAVA_HOME修改为/home/hadoop/app/jdk1.7.0_51:

2.core-site.xml
原来是

<configuration>
<property><name>fs.default.namename><value>hdfs://hadoop001:8020value>
property>
configuration>

现修改为&#xff1a;

<configuration>
<property><name>fs.defaultFSname><value>hdfs://hadoop001:8020value>
property>
configuration>

3.hdfs-site.xml
复制个数设置为1&#xff0c;不用改&#xff0c;这个镜像里面已经默认配置好了。

<property><name>dfs.replicationname><value>1value>
property>

格式化HDFS

格式化后&#xff0c;HDFS上的数据会被清空&#xff0c;因此只在第一次的时候格式化。
执行命令&#xff1a;./bin/hdfs namenode -format

使用这个教程的linux镜像直接格式化的话&#xff0c;会有个坑&#xff1a;jps后发现DataNode不能正常运行&#xff0c;解决方法在此。

如果格式化成功&#xff0c;则会有这么一句提示&#xff1a;

19/04/12 02:10:34 INFO common.Storage: Storage directory /home/hadoop/tmp/dfs/name has been successfully formatted.

启动和停止HDFS

启动&#xff1a;./start-dfs.sh
停止&#xff1a;./stop-dfs.sh
使用jps查看NameNode、DataNode、SecondaryNameNode是否都正常运行&#xff1a;

此外&#xff0c;也可以在浏览器中输入&#xff1a;http://192.168.89.130:50070&#xff0c;结果如下&#xff1a;


查看HDFS文件

hadoop fs -ls /


启动yarn

./sbin/start-yarn.sh&#xff0c;jps可见增加了ResourceManager和NodeManager&#xff1a;


启动hive

./app/hive-1.1.0-cdh5.7.0/bin/hive


启动spark

使用local模式&#xff0c;最后要加上mysql驱动&#xff1a;
./app/spark-2.1.0-bin-2.6.0-cdh5.7.0/bin/spark-shell --master local[2] --jars ~/software/mysql-connector-java-5.1.27-bin.jar



HDFS shell常用命令


  1. 查看文件列表&#xff1a;hadoop fs -ls /

  2. 新建文件夹 hadoop fs -mkdir
    例如&#xff1a;hadoop fs -mkdir /test

  3. 放文件进hdfs&#xff1a;hadoop fs -put
    例如&#xff1a;hadoop fs -put hdfs.cmd /test/

  4. 查看文件内容&#xff1a;hadoop fs -text或者hadoop fs -cat
    例如&#xff1a;hadoop fs -text /test/hdfs.cmd

  5. 从hdfs取出文件到本地&#xff1a;hadoop fs -get
    hadoop fs -get /test/hdfs.cmd a_tmp

  6. 删除文件hadoop fs -rm
    例如&#xff1a;hadoop fs -rm /test/hdfs.cmd


推荐阅读
  • HDFS2.x新特性
    一、集群间数据拷贝scp实现两个远程主机之间的文件复制scp-rhello.txtroothadoop103:useratguiguhello.txt推pushscp-rr ... [详细]
  • 本文介绍了在Mac上搭建php环境后无法使用localhost连接mysql的问题,并通过将localhost替换为127.0.0.1或本机IP解决了该问题。文章解释了localhost和127.0.0.1的区别,指出了使用socket方式连接导致连接失败的原因。此外,还提供了相关链接供读者深入了解。 ... [详细]
  • 本文分析了Wince程序内存和存储内存的分布及作用。Wince内存包括系统内存、对象存储和程序内存,其中系统内存占用了一部分SDRAM,而剩下的30M为程序内存和存储内存。对象存储是嵌入式wince操作系统中的一个新概念,常用于消费电子设备中。此外,文章还介绍了主电源和后备电池在操作系统中的作用。 ... [详细]
  •     这里使用自己编译的hadoop-2.7.0版本部署在windows上,记得几年前,部署hadoop需要借助于cygwin,还需要开启ssh服务,最近发现,原来不需要借助cy ... [详细]
  • Spring源码解密之默认标签的解析方式分析
    本文分析了Spring源码解密中默认标签的解析方式。通过对命名空间的判断,区分默认命名空间和自定义命名空间,并采用不同的解析方式。其中,bean标签的解析最为复杂和重要。 ... [详细]
  • VScode格式化文档换行或不换行的设置方法
    本文介绍了在VScode中设置格式化文档换行或不换行的方法,包括使用插件和修改settings.json文件的内容。详细步骤为:找到settings.json文件,将其中的代码替换为指定的代码。 ... [详细]
  • Nginx使用(server参数配置)
    本文介绍了Nginx的使用,重点讲解了server参数配置,包括端口号、主机名、根目录等内容。同时,还介绍了Nginx的反向代理功能。 ... [详细]
  • 本文介绍了数据库的存储结构及其重要性,强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离,可以实现对物理存储的重新组织和数据库的迁移,而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构,并介绍了表空间的概念和作用。 ... [详细]
  • 本文介绍了如何使用C#制作Java+Mysql+Tomcat环境安装程序,实现一键式安装。通过将JDK、Mysql、Tomcat三者制作成一个安装包,解决了客户在安装软件时的复杂配置和繁琐问题,便于管理软件版本和系统集成。具体步骤包括配置JDK环境变量和安装Mysql服务,其中使用了MySQL Server 5.5社区版和my.ini文件。安装方法为通过命令行将目录转到mysql的bin目录下,执行mysqld --install MySQL5命令。 ... [详细]
  • 本文讨论了在手机移动端如何使用HTML5和JavaScript实现视频上传并压缩视频质量,或者降低手机摄像头拍摄质量的问题。作者指出HTML5和JavaScript无法直接压缩视频,只能通过将视频传送到服务器端由后端进行压缩。对于控制相机拍摄质量,只有使用JAVA编写Android客户端才能实现压缩。此外,作者还解释了在交作业时使用zip格式压缩包导致CSS文件和图片音乐丢失的原因,并提供了解决方法。最后,作者还介绍了一个用于处理图片的类,可以实现图片剪裁处理和生成缩略图的功能。 ... [详细]
  • IT方面的论坛太多了,有综合,有专业,有行业,在各个论坛里混了几年,体会颇深,以前是论坛哪里人多 ... [详细]
  • 单页面应用 VS 多页面应用的区别和适用场景
    本文主要介绍了单页面应用(SPA)和多页面应用(MPA)的区别和适用场景。单页面应用只有一个主页面,所有内容都包含在主页面中,页面切换快但需要做相关的调优;多页面应用有多个独立的页面,每个页面都要加载相关资源,页面切换慢但适用于对SEO要求较高的应用。文章还提到了两者在资源加载、过渡动画、路由模式和数据传递方面的差异。 ... [详细]
  • 本文介绍了关系型数据库和NoSQL数据库的概念和特点,列举了主流的关系型数据库和NoSQL数据库,同时描述了它们在新闻、电商抢购信息和微博热点信息等场景中的应用。此外,还提供了MySQL配置文件的相关内容。 ... [详细]
  • 1.官网下载了mysql-5.7.17-win64.zip包,配置遇到很多麻烦,记录一下;2.解压后放到指定的文件夹,修改mysql-5.7.17的配置文件my-default.i ... [详细]
  • 浅析Mysql数据回滚错误的解决方法_PHP教程:MYSQL的事务处理主要有两种方法。1、用begin,rollback,commit来实现begin开始一个事务rollback事 ... [详细]
author-avatar
洋芋片
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有