hive入门（一）什么是hive

作者：帅帅考拉_955 | 来源：互联网 | 2023-08-28 16:21

1、Hive基本概念Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射成一张表，并提供类SQL查询功能；Hive是构

1、Hive 基本概念

Hive是基于Hadoop的一个数据仓库工具&＃xff0c;可以将结构化的数据文件映射
成一张表&＃xff0c;并提供类SQL查询功能&＃xff1b;

Hive是构建在Hadoop 之上的数据仓库&＃xff1b;

使用HQL作为查询接口&＃xff1b;
使用HDFS存储&＃xff1b;
使用MapReduce计算&＃xff1b;

简单来说&＃xff0c;Hive就是在Hadoop上架了一层SQL接口&＃xff0c;可以将SQL翻译成MapReduce去Hadoop上执行&＃xff0c;这样就使得数据开发和分析人员很方便的使用SQL来完成海量数据的统计和分析&＃xff0c;而不必使用编程语言开发MapReduce那么麻烦。

2、hive优缺点

优点&＃xff1a; 入门简单&＃xff0c;避免了去写MapReduce&＃xff0c;减少开发人员的学习成本&＃xff1b;

统一的元数据管理&＃xff0c;可与impala/spark等共享元数据&＃xff1b;

灵活性和扩展性比较好&＃xff1a;支持UDF&＃xff0c;自定义存储格式等&＃xff1b;

适合离线数据处理

缺点&＃xff1a; Hive的效率比较低&＃xff0c;由于hive是基于hadoop&＃xff0c;Hadoop本身是一个批处理&＃xff0c;高延迟的计算框架

其计算是通过MapReduce来作业&＃xff0c;具有高延迟性

Hive适合对非实时的、离线的、对响应及时性要求不高的海量数据批量计算&＃xff0c;即查询&＃xff0c;统计分析

3、Hive 架构

用户接口: Client
CLI(hive shell)、JDBC/ODBC(java访问hive)&＃xff0c;WEBUI(浏览器访问hive)
元数据: Metastore
元数据包括&＃xff1a;表名、表所属的数据库&＃xff08;默认是default&＃xff09;、表的拥有者、列/
分区字段、表的类型&＃xff08;是否是外部表&＃xff09;、表的数据所在目录等&＃xff1b;
默认存储在自带的derby数据库中&＃xff0c;推荐使用采用MySQL存储Metastore&＃xff1b;
Hadoop
使用HDFS进行存储&＃xff0c;使用MapReduce进行计算&＃xff1b;

转:https://www.cnblogs.com/linzhong/p/8288210.html

推荐阅读

架构
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
架构
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
shell
Azkaban（三）Azkaban的使用

界面介绍首页有四个菜单projects：最重要的部分，创建一个工程，所有flows将在工程中运行。scheduling:显示定时任务executing:显示当前运行的任务histo ... [详细]

蜡笔小新 2023-10-15 23:43:11
shell
WinPythonHadoop在Win10上安装教程

本文介绍了在Win10上安装WinPythonHadoop的详细步骤，包括安装Python环境、安装JDK8、安装pyspark、安装Hadoop和Spark、设置环境变量、下载winutils.exe等。同时提醒注意Hadoop版本与pyspark版本的一致性，并建议重启电脑以确保安装成功。 ... [详细]

蜡笔小新 2023-12-14 11:26:56
shell
sqoop自定义分隔符的实现方法及步骤详解

本文介绍了在sqoop1.4.*版本中，如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件，并重新编译，可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码，重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ... [详细]

蜡笔小新 2023-12-10 11:29:22
shell
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
process
mapreduce源码分析总结

这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型，它最初是由Google工程师设计并实现的ÿ ... [详细]

蜡笔小新 2023-10-17 12:36:35
process
《Spark核心技术与高级应用》——1.2节Spark的重要扩展

本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章，第1.2节Spark的重要扩展，作者于俊向海代其锋马海平，更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]

蜡笔小新 2023-10-16 18:07:56
install
Hadoop （CDH4发行版）集群部署（部署脚本，namenode高可用，hadoop管理）

前言折腾了一段时间hadoop的部署管理，写下此系列博客记录一下。为了避免各位做部署这种重复性的劳动，我已经把部署的步骤写成脚本，各位只需要按着本文把脚本执行完，整个环境基本就部署 ... [详细]

蜡笔小新 2023-10-16 15:11:51
install
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
format
MapReduce工作流程最详细解释

MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型，MapReduce的计算过程被封装的很好，我们只用使用Map和Reduce函数，所以对其整体的计算过程不是太 ... [详细]

蜡笔小新 2023-10-16 14:14:27
format
MapReduce 切片机制源码分析

总体来说大概有以下2个大的步骤1.连接集群(yarnrunner或者是localjobrunner)2.submitter.submitJobInternal()在该方法中会创建 ... [详细]

蜡笔小新 2023-10-16 13:03:18
shell
YARN回顾（七）——Spark在YARN上的运行模式

SparkOnYarn在YARN上启动Spark应用有两种模式。在cluster模式下，Spark驱动器（driver）在YARNApp ... [详细]

蜡笔小新 2023-10-15 12:39:15
tree
ZooKeeper 学习

前言相信大家对ZooKeeper应该不算陌生。但是你真的了解ZooKeeper是个什么东西吗？如果别人面试官让你给他讲讲ZooKeeper是个什么东西， ... [详细]

蜡笔小新 2023-10-17 17:07:40
install
Maven构建Hadoop,

Maven构建Hadoop工程阅读目录序Maven安装构建示例下载系列索引序　　上一篇，我们编写了第一个MapReduce，并且成功的运行了Job，Hadoop1.x是通过ant ... [详细]

蜡笔小新 2023-10-17 16:11:18

帅帅考拉_955

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章