当前位置: 开发笔记 > 编程语言 > 正文

deletehive_Hive的基本概念和常用命令

作者：骑马的仓鼠 | 来源：互联网 | 2023-07-28 07:35

一、概念：1、结构化和非结构化数据结构化数据：固有的键值对非结构数据：没有固定的键值对，没有明确的映射关系所以就可以理解下面

一、概念&＃xff1a;

1、结构化和非结构化数据

结构化数据&＃xff1a;固有的键值对

非结构数据&＃xff1a;没有固定的键值对&＃xff0c;没有明确的映射关系

所以就可以理解下面这句话&＃xff1a;hive是由facebook开源用于解决海量结构化日志的数据统计项目。

2、Hive是基于Hadoop文件系统上的数据仓库架构&＃xff0c;它为数据仓库的管理提供了许多功能&＃xff1a;数据ETL(抽取、转换和加载)、数据存储管理和大型数据集的查询和分析能力。

RDBMS(关系型数据库)

OLTP(联机事务处理过程)&＃xff1a;一组事务同时去执行&＃xff0c;低延迟&＃xff0c;查询为主。

ACID(原子性、一致性、隔离性、持久性)

OLAP(联机分析处理过程)&＃xff1a;以数据仓库为基础&＃xff0c;高延迟&＃xff0c;分析为主。

3、Hive定义了类SQL语言-Hive QL(HQL),允许用户进行和SQL相似的操作&＃xff0c;它可以将结构化的数据文件映射为一张数据表&＃xff0c;并提供简单的SQL查询功能&＃xff0c;同时允许开发人员方便的使用MR操作&＃xff0c;可以将SQL语言转换为MR任务运行。

二、官网&＃xff1a;

三、ETL

E&＃xff1a;Extract 数据抽取

T&＃xff1a;Transform 数据转换

L&＃xff1a;Load数据装载

ETL是将业务系统的数据经过抽取、清洗转换之后&＃xff0c;装载到数据仓库的过程。目的是将分散、零乱、标准不统一的数据整合到一起。例如项目日志信息、数据爬虫信息等。就可以提供决策分析依据了。

数据抽取&＃xff1a;把不同的数据源数据抓取过来&＃xff0c;存到某个地方。

数据清洗&＃xff1a;过滤哪些不符合要求的数据或修正数据之后再进行抽取。不完整数据&＃xff1a;比如信息缺失。错误数据&＃xff1a;日期格式不正确、日期越界、字符串出现空格等重复数据&＃xff1a;需要去重等

数据转换&＃xff1a;不一致的数据进行转换&＃xff0c;比如一个职工有职工号和人事号&＃xff0c;学生有身份证号和学号等

常见ETL工具&＃xff1a;Oracle的OWB、SQL Server的DTS、SSIS服务、Informatic等等&＃xff0c;工具可以快速建立起ETL工程&＃xff0c;屏蔽了复杂的编码任务、提高了速度&＃xff0c;降低了难度&＃xff0c;但是缺少灵活性。

SQL方法优点是灵活&＃xff0c;提高了ETL效率&＃xff0c;但是编码复杂&＃xff0c;对技术要求高。

Hive结合了前面两种的优点。

四、安装Hive

可参考之前安装Hive的文档教程《CentOS6.5安装Hive-1.2.2》。

也可以进入官网参考

找到Getting Started Guide

选择Running Hive

五、常用命令

安装完成后我们进入hive

在官网上有命令使用的文档

文档内容

我们使用一些命令&＃xff1a;

查看数据库show databases;

创建数据库show database 库名

可以查看HDFS上

使用数据库use 库名

创建表的数据类型&＃xff0c;我们可以查看官网

就可以找到所有的数据类型了

创建表的时候&＃xff0c;如果字段是关键字&＃xff0c;则需要加反飘号&＃96;(Tab键上面)。

那关键字有哪些&＃xff1f;

比如

报错

FAILED: ParseException line 2:0 Failed to recognize predicate &＃39;date&＃39;. Failed rule: &＃39;identifier&＃39; in column specification

所以我们改为&＃xff1a;

但是我们依然不建议使用关键字&＃xff0c;尽量去避免&＃xff0c;不要使用。我们修改下字段名

这其中有两个小细节&＃xff1a;第一CTRL&＃43;L清屏第二从记事本复制表语句的时候前面不要有空格,否则会报错&＃xff0c;Display all 528 possibilities? (y or n)。

我们再看数据加载

我们尽量不要使用insert、update、delete&＃xff0c;我们可以使用load,所以我们点击load

LOAD DATA [LOCAL] INPATH &＃39;filepath&＃39; [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1&＃61;val1, partcol2&＃61;val2 ...)]

如果加Local表示Linux本地的数据文件

如果不加Local,表示HDFS上的数据文件

我们在Linux上准备一个数据文件

我们先加载数据

load data local inpath &＃39;/data/hivetest/stu_info_local&＃39; into table gjz_error;

我们查看数据&＃xff0c;数据全部是NULL&＃xff0c;因为hive默认的分隔符是^A&＃xff0c;也就是001&＃xff0c;而我们的分隔符是一个tab键。

我们把分隔符改为^A(先按Ctrl&＃43;V&＃xff0c;再按Ctrl&＃43;A)

然后我们重新导入数据&＃xff0c;发现数据已经导入了

我们再将数据文件上传到HDFS上

创建数据表

我们导入数据

此时我们查看HDFS上&＃xff0c;发现原来的数据也不在了

但是数据已经加载到hive了

另外数据文件已经在新的目录下了

所以不加local是剪切移动的过程&＃xff0c;而加local是复制的过程。

前面的问题&＃xff1a;如果我们的数据不是默认的分隔符&＃xff0c;即不是^A该怎么办呢&＃xff1f;

我们准备文件

准备数据&＃xff0c;将数据分隔符改为

我们看官网上这个部分

我们重新建表&＃xff0c;加入数据

create table hive_table_local_format(

id int,

name string

)row format delimited fields terminated by &＃39;&＃39;

Hive在HDFS文件系统上的结构

我们在test库下面创建表

导入数据

我们查看

/user/hive/warehouse/test.db/hive_table_local_format

我们可以得到

元数据库开始是derby&＃xff0c;只能开启一个客户端&＃xff0c;再开启一个会话启动会报错&＃xff0c;所以我们改变了元数据库为Mysql,其中可选的是&＃xff1a;

我们创建一个数据库

create database stu_test

使用数据库并创建表

我们准备一个数据文件

将文件上传到HDFS上

我们先创建两个目录

我们把数据上传

我们加载数据到hive中

在加载之前我们可以看到&＃xff0c;我们看到stu_test中没有数据

我们加载数据

我们再加载第二个数据

注&＃xff1a;我们会发现&＃xff0c;自动重命名了。

我们查看我们表的信息&＃xff1a;

show create table
desc [extended][formatted] table
元数据库

或者

我们查看Tals

修改表名

官网

我们修改一个表试一下

给表添加一个列

alter table table_name add columns (age int);

添加注释也在这个部分

清除数据

Truncate table table_name

注意不会删除元数据

Hive的日志文件配置文件

目录修改为hive.log.dir&＃61;/opt/bigdata/hive/logs

我们可以在hive-site.xml.template找到下面两个属性&＃xff0c;这两个属性可以帮助我们在日志中显示数据和列名&＃xff0c;将属性添加到hive-site.xml中

hive.cli.print.current.db

false

Whether to include the current database in the Hive prompt.

hive.cli.print.header

false

Whether to print the names of the columns in query output.

我们添加到配置中&＃xff0c;下次重启进入就可以看到日志了

一些常用的命令

官网的位置

就可以看到命令了

比如&＃xff1a;

quit exit 退出客户端

set 临时设置属性可以参考Mysql中设置编码等方式去理解。另外set也可以用户查看参数的属性。

显示所有函数show functions;

我们可以查询函数的使用比如max

Desc function max;

Desc function extended case;

Hive可以用java写成函数&＃xff0c;使用add jar就可以添加使用

也可以将python脚本添加进来&＃xff0c;使用add file

!感叹号的方式可以查看Linux上的文件

dfs方式可以查看HDFS上的文件

推荐阅读

int
aw多模态融合,多模态话语分析

本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]

蜡笔小新 2023-10-17 19:16:14
java
2018年人工智能大数据的爆发，学Java还是Python？

本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代，Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言，容易上手。其特色之一是强制使用空白符作为语句缩进，使得新手可以快速上手。目前，Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣，欢迎加入qq群458345782。 ... [详细]

蜡笔小新 2023-12-14 20:08:28
java
基于PgpoolII的PostgreSQL集群安装与配置教程

本文介绍了基于PgpoolII的PostgreSQL集群的安装与配置教程。Pgpool-II是一个位于PostgreSQL服务器和PostgreSQL数据库客户端之间的中间件，提供了连接池、复制、负载均衡、缓存、看门狗、限制链接等功能，可以用于搭建高可用的PostgreSQL集群。文章详细介绍了通过yum安装Pgpool-II的步骤，并提供了相关的官方参考地址。 ... [详细]

蜡笔小新 2023-12-14 19:10:25
java
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
jsp
知识图谱——机器大脑中的知识库

本文介绍了知识图谱在机器大脑中的应用，以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例，说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案，如搜索关键词"Marie Curie"，会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革，不仅美国的微软必应，中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]

蜡笔小新 2023-12-14 10:06:19
copy
PhysioNet生理信号处理（三）WFDB Toolbox for Matlab的安装和使用方法

本文介绍了PhysioNet网站提供的生理信号处理工具箱WFDB Toolbox for Matlab的安装和使用方法。通过下载并添加到Matlab路径中或直接在Matlab中输入相关内容，即可完成安装。该工具箱提供了一系列函数，可以方便地处理生理信号数据。详细的安装和使用方法可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-13 20:46:48
java
flowable工作流流程变量_信也科技工作流平台的技术实践

1背景随着公司业务发展及内部业务流程诉求的增长,目前信息化系统不能够很好满足期望,主要体现如下：目前OA流程引擎无法满足企业特定业务流程需求，且移动端体 ... [详细]

蜡笔小新 2023-12-13 10:17:15
int
android studio生成jks,android studio生成 keystore 以及获取 SHA1值等

合并列值－合并为一列问题需求：createtabletab(Aint,Bint,Cint)inserttabselect1,2,3unionallsel ... [详细]

蜡笔小新 2023-12-11 12:32:55
java
一次上线事故，30岁+的程序员踩坑经验之谈

本文主要介绍了一位30岁+的程序员在一次上线事故中踩坑的经验之谈。文章提到了在双十一活动期间，作为一个在线医疗项目，他们进行了优惠折扣活动的升级改造。然而，在上线前的最后一天，由于大量数据请求，导致部分接口出现问题。作者通过部署两台opentsdb来解决问题，但读数据的opentsdb仍然经常假死。作者只能查询最近24小时的数据。这次事故给他带来了很多教训和经验。 ... [详细]

蜡笔小新 2023-12-10 17:25:31
object
org.apache.solr.common.SolrDocument.setField()方法的使用及代码示例

本文整理了Java中org.apache.solr.common.SolrDocument.setField()方法的一些代码示例，展示了SolrDocum ... [详细]

蜡笔小新 2023-12-09 06:54:05
command
ssh免密码登录设置

hadoop1.2.1文档中这样写：Nowcheckthatyoucansshtothelocalhostwithoutapassphrase:$sshlocalhostIfyou ... [详细]

蜡笔小新 2023-10-17 18:22:10
command
ZooKeeper 学习

前言相信大家对ZooKeeper应该不算陌生。但是你真的了解ZooKeeper是个什么东西吗？如果别人面试官让你给他讲讲ZooKeeper是个什么东西， ... [详细]

蜡笔小新 2023-10-17 17:07:40
jsp
3年半巨亏242亿！商汤高估了深度学习，下错了棋？

转自：新智元三年半研发开支近70亿，累计亏损242亿。AI这门生意好像越来越不好做了。近日，商汤科技已向港交所递交IPO申请。招股书显示& ... [详细]

蜡笔小新 2023-10-17 16:41:52
int
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
int
GAMETECH腾讯云游戏行业技术沙龙成都站圆满落幕

11月13日，由腾讯云主办、游戏茶馆协办的2020年首场GAME-TECH腾讯云游戏行业技术沙龙在成都圆满落幕。本次沙龙邀请了腾讯云游戏行业解决方案总监宋永周、腾讯云游戏行业高级解决方案架构师曾梓恩、腾讯云游戏行业高级产品架构师郑晓曦、腾讯云游戏行业高级解决方案架构师温球良和天美L1(王者荣耀)服务器技术副总监杨光，为参会同行们带来了干货满满的技术建议。本文介绍了腾讯云游戏云的优势和为不同游戏研运场景提供的服务。腾讯云在中国游戏云服务市场领跑，成为众多游戏开发者的合作伙伴。 ... [详细]

蜡笔小新 2023-12-12 17:16:00

骑马的仓鼠

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章