Hadoop——Hive简介和环境配置

作者：蟹子的宿命 | 来源：互联网 | 2023-10-14 16:22

一、Hive的简介和配置1.简介Hive是构建在Hadoop之上的数据操作平台lHive是一个SQL解析引擎，它将SQL转译成MapReduce作业，并

一、Hive的简介和配置

　　1.简介

　　　　Hive是构建在Hadoop之上的数据操作平台l Hive是一个SQL解析引擎&＃xff0c;它将SQL转译成MapReduce作业&＃xff0c;并在Hadoop上运行Hive表是HDFS的一个文件目录&＃xff0c;一个表名对应一个目录名&＃xff0c;如果存在分区表的话&＃xff0c;则分区值对应子目录名。

　　2.Hive的体系结构

　　　　Hive作为Hadoop的数据仓库处理工具&＃xff0c;它所有的数据都存储在Hadoop兼容的文件系统中。Hive在加载数据的过程中不会对数据进行任何的修改&＃xff0c;只是将数据移动到HDFS中Hive设置的指定目录下&＃xff0c;因此&＃xff0c;Hive不支持对数据的改写和添加&＃xff0c;所有的数据都是在加载的时候设定的&＃xff0c;Hive的设计特点如下:

　　　　　　　　1.支持索引&＃xff0c;加快数据查询

　　　　　　　　 2.不同的存储类型&＃xff0c;例如:纯文本文件、HBase中的文件

　　　　　　　　 3. 将元数据保存在关系型数据库中&＃xff0c;减少了在查询中执行语义的检查时间

　　　　　　　　 4. 可以直接使用存储在Hadoop文件系统中的数据

　　　　　　　　 5. 内置大量的用户UDF来操作时间&＃xff0c;字符串和其他数据挖掘工具&＃xff0c;支持用户扩展UDF来完成内置函数无法完成的操作

　　　　　　　　 6.类SQL的查询方式&＃xff0c;将SQL查询转换为MapReduce的job在Hadoop集群上执行

　　　　　　　　 7.编码与Hadoop同样采用UTF-8

　　用户接口:

　① CLI&＃xff1a;CLI启动的时候&＃xff0c;会同时启动一个Hive副本

　② JDBC客户端&＃xff1a;封装了Thrift&＃xff0c;Java应用程序可以通过指定的主机和端口连接到在另一个进程中的Hive服务

　 ③ WEB接口:通过浏览器访问Hive服务

Thrift服务器:

　① 基于Socket通讯&＃xff0c;支持跨语言。Hive的Thrift服务简化了在多编程语言中运行Hive命令&＃xff0c;绑定支持C&＃43;&＃43;,JAVA,PHP和Ruby语言。

解析器:

　① 编译器&＃xff1a;完成HQL语句的从词法分析、语法分析、编译优化以及执行计划的生成。

　　② 优化器&＃xff1a;是一个演化组件&＃xff0c;当前它的规则是&＃xff1a;列修剪&＃xff0c;谓词下压

　 ③ 执行器&＃xff1a;会顺序执行所有的Job。如果Task链不存在依赖关系&＃xff0c;可以采取并发方式执行Job

元数据库:

　　 ① Hive的数据由两部分组成&＃xff1a;数据文件和元数据。元数据用于存放Hive库的基础信息&＃xff0c;它存储在关系型数据库中&＃xff0c;如MySQL、Derby。元数据包括&＃xff1a;数据库信息、表的名字、表的列和分区及其属性&＃xff0c;表的属性&＃xff0c;表的数据所在目录等。

Hadoop:

　　 ① Hive的数据文件存储在HDFS中&＃xff0c;大部分的查询由MapReduce构成&＃xff0c;不过对于包含*的查询&＃xff0c;比如select * from lbl不会生成MapReduce作业。

　　3.Hive的运行机制

　　　　　 ① 用户通过用户接口连接Hive&＃xff0c;发布Hive SQL

　　　　② Hive解析查询并制定查询计划

　　　　③ Hive将查询转换为MapReduce作业

　　　　④ Hive在Hadoop上执行MapReduce作业

　　4.Hive的优势　　　

　　　　1. 解决了传统关系数据库在大数据处理上的瓶颈&＃xff0c;适合大数据的批量处理

　　　　2.充分利用集群的CPU计算资源、存储资源&＃xff0c;实现并行计算

　　　　3.Hive支持标准SQL语法&＃xff0c;免去了编写MR程序的过程。提升开发效率

　　　　4.具有良好的扩展性&＃xff0c;拓展功能很方便

　　5.Hive的缺点　　

　　　　1.Hive的HQL表达能力有限&＃xff1a;有些复杂运算HQL不易表达

　　　　2.Hive的效率低&＃xff1a;Hive自动生成MR作业&＃xff0c;通常不够智能&＃xff1b;HQL调优困难&＃xff0c;粒度较粗&＃xff1b;可控性差

　　　　3.针对Hive运行效率低下等问题&＃xff0c;促使人们去寻找一种更快&＃xff0c;更具交互性的分析框架。SparkSQL的出现则有效的提高了Sql在Hadoop上的分析效率

　　6.Hive的配置(Lin集群)

　　　(1).Hive配置前的准备: 完整的hadoop集群; ssh免密登录;安装mysql数据库;安装java

　　　　(2).下载Hive的tar包下载地址:http://mirror.bit.edu.cn/apache/hive/

　　　　(3).上传Hive到Linux系统上 #将压缩包解压到对应目录 tar -zxvf /usr/localhost/apache-hive-2.3.5-bin.tar.gz

　　　　　(4).#将解压的目录重命名为hive mv apache-hive-2.3.5-bin/ hive　　　　　

　　　　(5).#设置hive的环境的变量 vim /etc/profile

　　　　(6).#编辑内容如下(在profile文件)

　　　　　　export HIVE_HOME&＃61;/usr/local/hive (这个路径是自己将解压后的包解压后的位置)

　　　　　　export PATH&＃61;$PATH:$HIVE_HOME/bin

　　　　(7.)#刷新文件(保存后) source /etc/profile
　　　　(8).#检查hive版本 hive --version
　　　　(9).Hive的配置
　　　　　　#切换到hive的配置文件目录
　　　　　　　　cd /usr/local/hive/conf/
　　　　　　#以模板复制一个hive-site.xml
　　　　　　　　cp hive-default.xml.template hive-site.xml
　　　　　　#编辑hive-site.xml文件
　　　　　　　　vim hive-site.xml
　　　　　　#将以下内容插入到hive-site.xml文件,其他内容替换
　　　　　　　　
　　　　　　　　　　javax.jdo.option.ConnectionUserName
　　　　　　　　　　root
　　　　　　　　
　　　　　　　　
　　　　　　　　　　javax.jdo.option.ConnectionPassword
　　　　　　　　　　123456
　　　　　　　　
　　　　　　　　
　　　　　　　　　　javax.jdo.option.ConnectionURL
　　　　　　　　　　jdbc:mysql://127.0.0.1:3306/hive?createDatabaseIfNotExist&＃61;true
　　　　　　　　
　　　　　　　　
　　　　　　　　　　javax.jdo.option.ConnectionDriverName
　　　　　　　　　　com.mysql.jdbc.Driver
　　　　　　　　
　　　　　　　　
　　　　　　　　　　
　　　　　　　　　　hive.metastore.schema.verification
　　　　　　　　　　false
　　　　　　　　

　　　　(9).接下来将mysql的数据库驱动包放置到hive下的lib目录中
　　　　　　　　初始化Hive元数据
　　　　　　　　　　schematool -dbType mysql -initSchema

　　　　(10).beeline连接操作 (找到hadoop的路径在相应的文件下修改以下下文件)

　　　　　　　　　　hdfs-site.xml文件
　　　　　　
　　　　　　　　dfs.webhdfs.enabled
　　　　　　　　true
　　　　　　
　　　　　　　　core-site.xml文件
　　　　　　
　　　　　　　　hadoop.proxyuser.root.hosts
　　　　　　　　*
　　　　　　
　　　　　　
　　　　　　　　hadoop.proxyuser.root.groups
　　　　　　　　*
　　　　　　

　　　(11).使用scp命令发送到slave1与slave2两台节点上&＃xff0c;

　　　　　　scp hdfs-site.xml core-site.xml root&＃64;slave1:/usr/local/hadoop-2.8.0/etc/hadoop/
　　　　　　scp hdfs-site.xml core-site.xml root&＃64;slave2:/usr/local/hadoop-2.8.0/etc/hadoop/
　　　(12).hdfs namenode -format 重启服务格式化namenode节点 (利用dbvis操作hive)
　　　　　　------------------------hiveserver2打开服务
　　　　　　　　hiveserver2
　　　　　　------------------------beeline连接
　　　　　　　　beeline
　　　　　　　　!connect jdbc:hive2://master:10000
　　　　　　　　------------------------安装dbvis

　　　(13).注意事项

　　　　　　在格式化hadoop集群时从起hadoop会发现dataName没有启动成功

　　　　　　解决办法: 进入hadoop的安装路径找到 etc/hadoop 查看hadoop的tmp文件路径然后进入

　　　　　　进入红色圈中的文件夹

　　　　　　复制标红的哪一行代码到从节点的相同目录文件下覆盖原有的一行

　　　　　　从起集群即可解决

转:https://www.cnblogs.com/wuxuewei/p/11465825.html

推荐阅读

扩展
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
扩展
深入理解 SQL 视图、存储过程与事务

本文详细介绍了SQL中的视图、存储过程和事务的概念及应用。视图为用户提供了一种灵活的数据查询方式，存储过程则封装了复杂的SQL逻辑，而事务确保了数据库操作的完整性和一致性。 ... [详细]

蜡笔小新 2024-12-27 17:40:42
扩展
数据库内核开发入门 | 搭建研发环境的初步指南

本课程将带你从零开始，逐步掌握数据库内核开发的基础知识和实践技能，重点介绍如何搭建OceanBase的开发环境。 ... [详细]

蜡笔小新 2024-12-27 16:38:48
heap
MySQL索引详解与优化

本文深入探讨了MySQL中的索引机制，包括索引的基本概念、优势与劣势、分类及其实现原理，并详细介绍了索引的使用场景和优化技巧。通过具体示例，帮助读者更好地理解和应用索引以提升数据库性能。 ... [详细]

蜡笔小新 2024-12-25 19:52:47
heap
SQL数据库面试题解析

本文深入探讨了SQL数据库中常见的面试问题，包括如何获取自增字段的当前值、防止SQL注入的方法、游标的作用与使用、索引的形式及其优缺点，以及事务和存储过程的概念。通过详细的解答和示例，帮助读者更好地理解和应对这些技术问题。 ... [详细]

蜡笔小新 2024-12-22 14:43:35
heap
使用C#开发SQL Server存储过程的指南

本文介绍如何利用C#在SQL Server中创建存储过程，涵盖背景、步骤和应用场景，旨在帮助开发者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-12-27 14:24:17
heap
MySQL缓存机制深度解析

本文详细探讨了MySQL的缓存机制，包括主从复制、读写分离以及缓存同步策略等内容。通过理解这些概念和技术，读者可以更好地优化数据库性能。 ... [详细]

蜡笔小新 2024-12-26 15:15:06
search
Python 爬虫基础教程及代码实例

根据最新发布的《互联网人才趋势报告》，尽管大量IT从业者已转向Python开发，但随着人工智能和大数据领域的迅猛发展，仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-26 10:42:40
search
MySQL LAST_INSERT_ID() 函数深入解析

本文详细介绍了 MySQL 中 LAST_INSERT_ID() 函数的使用方法及其工作原理，包括如何获取最后一个插入记录的自增 ID、多行插入时的行为以及在不同客户端环境下的表现。 ... [详细]

蜡笔小新 2024-12-25 22:04:04
object
深入解析JDBC源码

本文详细探讨了JDBC（Java数据库连接）的内部机制，重点分析其作为服务提供者接口（SPI）框架的应用。通过类图和代码示例，展示了JDBC如何注册驱动程序、建立数据库连接以及执行SQL查询的过程。 ... [详细]

蜡笔小新 2024-12-25 19:59:15
object
Hadoop发行版本选择指南：技术解析与应用实践

本文详细介绍了Hadoop的不同发行版本及其特点，帮助读者根据实际需求选择最合适的Hadoop版本。内容涵盖Apache Hadoop、Cloudera CDH等主流版本的特性及应用场景。 ... [详细]

蜡笔小新 2024-12-22 20:38:12
split
Apache Spark 基础操作指南

本文详细介绍如何使用 Apache Spark 执行基本任务，包括启动 Spark Shell、运行示例程序以及编写简单的 WordCount 程序。同时提供了参数配置的注意事项和优化建议。 ... [详细]

蜡笔小新 2024-12-20 18:01:20
split
深入解析：主流开源分布式文件系统综述

本文详细探讨了几款主流的开源分布式文件系统，包括HDFS、MooseFS、Lustre、GlusterFS和CephFS，重点分析了它们的元数据管理和数据一致性机制，旨在为读者提供深入的技术见解。 ... [详细]

蜡笔小新 2024-12-08 19:30:59
split
全面解析Hive：数据仓库工具概览

本文介绍了Hive作为基于Hadoop的数据仓库工具的核心概念，包括其基本功能、使用理由、特点以及与Hadoop的关系。同时，文章还探讨了Hive相较于传统关系型数据库的不同之处，并展望了Hive的发展前景。 ... [详细]

蜡笔小新 2024-12-05 10:44:18
express
Hive 创建表语法详解

本文详细介绍了在Hive中创建表的基本语法，包括临时表、外部表的创建方法，以及如何设置表的各种属性和约束条件。 ... [详细]

蜡笔小新 2024-12-04 14:16:49

蟹子的宿命

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章