当前位置: 开发笔记 > 编程语言 > 正文

hive学习笔记之三：内部表和外部表

作者：骄傲_yi2006 | 来源：互联网 | 2023-05-19 05:51

欢迎访问我的GitHubhttps:github.comzq2599blog_demos内容：所有原创文章分类汇总及配套源码，涉及Java、Docker、Kubernetes、De

欢迎访问我的GitHub

https://github.com/zq2599/blog_demos

内容：所有原创文章分类汇总及配套源码，涉及Java、Docker、Kubernetes、DevOPS等；

《hive学习笔记》系列导航

基本数据类型

复杂数据类型

内部表和外部表

分区表

分桶

HiveQL基础

内置函数

Sqoop

基础UDF

用户自定义聚合函数(UDAF)

UDTF

本篇概览

本文是《hive学习笔记》系列的第三篇，要学习的是各种类型的表及其特点，主要内容如下：

建库

内部表(也叫管理表或临时表)

外部表

表的操作

接下来从最基本的建库开始

建库

创建名为test的数据库(仅当不存在时才创建)，添加备注信息test database：

create database if not exists test comment 'this is a database for test';

查看数据库列表（名称模糊匹配）：

hive> show databases like 't*'; OK test test001 Time taken: 0.016 seconds, Fetched: 2 row(s)

describe database命令查看此数据库信息：

hive> describe database test; OK test this is a database for test hdfs://node0:8020/user/hive/warehouse/test.db hadoop USER Time taken: 0.035 seconds, Fetched: 1 row(s)

上述命令可见，test数据库在hdfs上的存储位置是hdfs://node0:8020/user/hive/warehouse/test.db，打开hadoop的web页面，查看hdfs目录，如下图，该路径的文件夹已经创建，并且是以.db结尾的：

在这里插入图片描述

5. 新建数据库的文件夹都在/user/hive/warehouse下面，这是在中配置的，如下图红框：

在这里插入图片描述

6. 删除数据库，加上if exists，当数据库不存在时，执行该语句不会返回Error：

hive> drop database if exists test; OK Time taken: 0.193 seconds

以上就是常用的库相关操作，接下来实践表相关操作；

内部表

按照表数据的生命周期，可以将表分为内部表和外部表两类；

内部表也叫管理表或临时表，该类型表的生命周期时由hive控制的，默认情况下数据都存放在/user/hive/warehouse/下面；

删除表时数据会被删除；

以下命令创建的就是内部表，可见前面两篇文章中创建的表都是内部表：

create table t6(id int, name string) row format delimited fields terminated by ',';

向t6表新增一条记录：

insert into t6 values (101, 'a101');

使用hadoop命令查看hdfs，可见t6表有对应的文件夹，里面的文件保存着该表数据：

[hadoop@node0 bin]$ ./hadoop fs -ls /user/hive/warehouse/t6 Found 1 items -rwxr-xr-x 3 hadoop supergroup 9 2020-10-31 11:14 /user/hive/warehouse/t6/000000_0

查看这个000000_0文件的内容，如下可见，就是表内的数据：

[hadoop@node0 bin]$ ./hadoop fs -cat /user/hive/warehouse/t6/000000_0 101 a101

执行命令drop table t6;删除t6表，再次查看t6表对应的文件，发现整个文件夹都不存在了：

[hadoop@node0 bin]$ ./hadoop fs -ls /user/hive/warehouse/ Found 5 items drwxr-xr-x - hadoop supergroup 0 2020-10-27 20:42 /user/hive/warehouse/t1 drwxr-xr-x - hadoop supergroup 0 2020-10-29 00:13 /user/hive/warehouse/t2 drwxr-xr-x - hadoop supergroup 0 2020-10-29 00:14 /user/hive/warehouse/t3 drwxr-xr-x - hadoop supergroup 0 2020-10-29 13:04 /user/hive/warehouse/t4 drwxr-xr-x - hadoop supergroup 0 2020-10-29 16:47 /user/hive/warehouse/t5

外部表

创建表的SQL语句中加上external，创建的就是外部表了；

外部表的数据生命周期不受Hive控制；

删除外部表的时候不会删除数据；

外部表的数据，可以同时作为多个外部表的数据源共享使用；

接下来开始实践，下面是建表语句：

create external table t7(id int, name string) row format delimited fields terminated by ',' location '/data/external_t7';

查看hdfs文件，可见目录/data/external_t7/已经创建：

[hadoop@node0 bin]$ ./hadoop fs -ls /data/ Found 1 items drwxr-xr-x - hadoop supergroup 0 2020-10-31 12:02 /data/external_t7

新增一条记录：

insert into t7 values (107, 'a107');

在hdfs查看t7表对应的数据文件，可以见到新增的内容：

[hadoop@node0 bin]$ ./hadoop fs -ls /data/external_t7 Found 1 items -rwxr-xr-x 3 hadoop supergroup 9 2020-10-31 12:06 /data/external_t7/000000_0 [hadoop@node0 bin]$ ./hadoop fs -cat /data/external_t7/000000_0 107,a107

试试多个外部表共享数据的功能，执行以下语句再建个外部表，名为t8，对应的存储目录和t7是同一个：

create external table t8(id_t8 int, name_t8 string) row format delimited fields terminated by ',' location '/data/external_t7';

建好t8表后立即查看数据，发现和t7表一模一样，可见它们已经共享了数据：

hive> select * from t8; OK 107 a107 Time taken: 0.068 seconds, Fetched: 1 row(s) hive> select * from t7; OK 107 a107 Time taken: 0.074 seconds, Fetched: 1 row(s)

接下来删除t7表，再看t8表是否还能查出数据，如下可见，数据没有被删除，可以继续使用：

hive> drop table t7; OK Time taken: 1.053 seconds hive> select * from t8; OK 107 a107 Time taken: 0.073 seconds, Fetched: 1 row(s)

把t8表也删掉，再去看数据文件，如下所示，依然存在：

[hadoop@node0 bin]$ ./hadoop fs -cat /data/external_t7/000000_0 107,a107

可见外部表的数据不会在删除表的时候被删除，因此，在实际生产业务系统开发中，外部表是我们主要应用的表类型；

表的操作

再次创建t8表：

create table t8(id int, name string) row format delimited fields terminated by ',';

修改表名：

alter table t8 rename to t8_1;

可见修改表名已经生效：

hive> alter table t8 rename to t8_1; OK Time taken: 0.473 seconds hive> show tables; OK alltype t1 t2 t3 t4 t5 t6 t8_1 values__tmp__table__1 values__tmp__table__2 Time taken: 0.029 seconds, Fetched: 10 row(s)

添加字段：

alter table t8_1 add columns(remark string);

查看表结构，可见已经生效：

hive> desc t8_1; OK id int name string remark string Time taken: 0.217 seconds, Fetched: 3 row(s)

至此，咱们对内部表和外部表已经有了基本了解，接下来的文章学习另一种常见的表类：分区表；

你不孤单，欣宸原创一路相伴

Java系列

Spring系列

Docker系列

kubernetes系列

数据库+中间件系列

DevOps系列

欢迎关注公众号：程序员欣宸

微信搜索「程序员欣宸」，我是欣宸，期待与您一同畅游Java世界...

https://github.com/zq2599/blog_demos

推荐阅读

web
深入理解Cookie与Session会话管理

本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息，以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制，解释其原理及应用场景。 ... [详细]

蜡笔小新 2024-12-27 18:20:43
web
深入探讨JSP技术的优缺点

本文详细分析了JSP（JavaServer Pages）技术的主要优点和缺点，帮助开发者更好地理解其适用场景及潜在挑战。JSP作为一种服务器端技术，广泛应用于Web开发中。 ... [详细]

蜡笔小新 2024-12-28 11:00:33
ip
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
command
Windows服务与数据库交互问题解析

本文探讨了在Windows 10（64位）环境下开发的Windows服务，旨在定期向本地MS SQL Server (v.11)插入记录。尽管服务已成功安装并运行，但记录并未正确插入。我们将详细分析可能的原因及解决方案。 ... [详细]

蜡笔小新 2024-12-28 10:30:14
command
Java 中 Writer flush()方法，示例

Java 中 Writer flush()方法，示例 ... [详细]

蜡笔小新 2024-12-28 06:41:52
web
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
web
Java 中的 BigDecimal pow()方法，示例

Java 中的 BigDecimal pow()方法，示例 ... [详细]

蜡笔小新 2024-12-27 20:54:03
buffer
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
buffer
MyBatis 动态 SQL 详解与应用

本文深入探讨 MyBatis 中动态 SQL 的使用方法，包括 if/where、trim 自定义字符串截取规则、choose 分支选择、封装查询和修改条件的 where/set 标签、批量处理的 foreach 标签以及内置参数和 bind 的用法。 ... [详细]

蜡笔小新 2024-12-27 16:20:10
ip
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09
web
将Web服务部署到Tomcat

本文介绍了如何在JDeveloper 12c中创建一个Java项目，并将其打包为Web服务，然后部署到Tomcat服务器。内容涵盖从项目创建、编写Web服务代码、配置相关XML文件到最终的本地部署和验证。 ... [详细]

蜡笔小新 2024-12-27 11:48:15
ip
网络攻防实战：从HTTP到HTTPS的演变

本文通过一系列日记记录了从发现漏洞到逐步加强安全措施的过程，探讨了如何应对网络攻击并最终实现全面的安全防护。 ... [详细]

蜡笔小新 2024-12-27 11:34:50
ip
深入探讨DB2数据库性能优化策略

本文详细介绍了IBM DB2数据库在大型应用系统中的应用，强调其卓越的可扩展性和多环境支持能力。文章深入分析了DB2在数据利用性、完整性、安全性和恢复性方面的优势，并提供了优化建议以提升其在不同规模应用程序中的表现。 ... [详细]

蜡笔小新 2024-12-28 13:22:19
ip
MyBatis：深入解析与应用

在当前众多持久层框架中，MyBatis（前身为iBatis）凭借其轻量级、易用性和对SQL的直接支持，成为许多开发者的首选。本文将详细探讨MyBatis的核心概念、设计理念及其优势。 ... [详细]

蜡笔小新 2024-12-27 12:17:16
yaml
调整微软云服务器时区及设置指南

本文详细介绍了如何在Azure DevOps Services和Azure DevOps Server中调整时区设置，以及这些设置对不同功能的影响。 ... [详细]

蜡笔小新 2024-11-21 13:51:52

骄傲_yi2006

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章