Hive之——数据导出

作者：手机用户2502899537 | 来源：互联网 | 2023-05-18 05:35

转载请注明出处：https:blog.csdn.netl1028386804articledetails80550840一、导出的方式1、Hadoop命令方式get

转载请注明出处：https://blog.csdn.net/l1028386804/article/details/80550840

一、导出的方式

1、Hadoop命令方式

get
hadoop fs -get hdfs://liuyazhuang121:9000/user/hive/warehouse/lyz.db/test_p/st=20180602/data
text
hadoop fs -text hdfs://liuyazhuang121:9000/user/hive/warehouse/lyz.db/test_p/st=20180602/data

2、通过insert ... directory方式

insert overwrite [local] directory '/tmp/ca_employees'
[row format delimited fields terminated by '\t']
select name, salary, address
from employees

3、shell命令加管道

hive -f/e sed/grep/awk > file

4、第三方工具 sqoop

二、动态分析

1、不需要为不同的分区添加不同的插入语句

2、分区不确认，需要从数据获取

3、几个参数

#使用动态分区
set hive.exec.dynamic.partition=true;
#无限制模式，如果模式是strict，则必须有一个静态分区，且放在最前面
set hive.exec.dynamic.partition.mode=nonstrict | strict;
#每个节点生成动态分区的最大个数
set hive.exec.max.dynamic.partitions.pernode=10000;
#生成动态分区的最大个数
set hive.exec.max.dynamic.partitiOns=100000;
#一个任务最多可以创建的文件数目
#set hive.exec.max.created.files=150000;
限定一次最多打开的文件数
#set dfs.datanode.max.xcievers=8192;

实例：

#创建动态分区表
create table d_part(
name string
)
partitioned by (value string)
row format delimited fields terminated by '\t' lines terminated by '\n'
stored as textfile;

#根据动态分区导入数据
set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;
insert overwrite table d_part partition(value)
select name, st as value
from test_p;

推荐阅读

shell
日志处理流程：Flume+MapReduce+Hive+Sqoop+MySQL

本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS，然后通过MapReduce清洗数据，使用Hive进行数据分析，并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]

蜡笔小新 2024-11-13 18:47:34
shell
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
object
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
copy
sh cca175problem03evolveavroschema.sh

sh cca175problem03evolveavroschema.sh ... [详细]

蜡笔小新 2024-10-25 14:18:50
copy
sqoop自定义分隔符的实现方法及步骤详解

本文介绍了在sqoop1.4.*版本中，如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件，并重新编译，可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码，重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ... [详细]

蜡笔小新 2023-12-10 11:29:22
copy
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
copy
马蜂窝数据总监分享：从数仓到数据中台，大数据演进技术选型最优解

大家好，今天分享的议题主要包括几大内容：带大家回顾一下大数据在国内的发展，从传统数仓到当前数据中台的演进过程；我个人认为数 ... [详细]

蜡笔小新 2023-10-14 14:20:07
python
推荐引擎数据导入模块的实现

毕设做到后半部分，需要实现将用户在一段时间(比如1天)内产生的新数据导入HDFS的功能，这样数据仓库中的数据才能和数据库中的数据同步在新建了一个PyDev项目后，需要如下操作(拣最 ... [详细]

蜡笔小新 2023-10-14 14:05:02
python
Sqoop 的使用场景分析

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出， ... [详细]

蜡笔小新 2023-10-10 19:29:19
const
WCF类型共享的最佳实践

在使用WCF服务时，经常会遇到同一个实体类型在不同服务中被生成为不同版本的问题。本文将介绍几种有效的类型共享方法，以解决这一常见问题。 ... [详细]

蜡笔小新 2024-11-14 17:56:14
split
构建高可用性Spark分布式集群：大数据环境下的最佳实践

在构建高可用性的Spark分布式集群过程中，确保所有节点之间的无密码登录是至关重要的一步。通过在每个节点上生成SSH密钥对（使用 `ssh-keygen -t rsa` 命令并保持默认设置），可以实现这一目标。此外，还需将生成的公钥分发到所有节点的 `~/.ssh/authorized_keys` 文件中，以确保节点间的无缝通信。为了进一步提升集群的稳定性和性能，建议采用负载均衡和故障恢复机制，并定期进行系统监控和维护。 ... [详细]

蜡笔小新 2024-11-02 14:18:50
copy
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
python
在Linux系统中配置环境变量以切换不同版本Python的方法与实践

在Linux系统中，原本已安装了多个版本的Python 2，并且还安装了Anaconda，其中包含了Python 3。本文详细介绍了如何通过配置环境变量，使系统默认使用指定版本的Python，以便在不同版本之间轻松切换。此外，文章还提供了具体的实践步骤和注意事项，帮助用户高效地管理和使用不同版本的Python环境。 ... [详细]

蜡笔小新 2024-10-30 09:39:09
python
hadoop3.1.2 first programdefault wordcount (Mac)

hadoop3.1.2安装完成后的第一个实操示例程 ... [详细]

蜡笔小新 2024-10-15 11:11:55
python
安装并配置Hadoop伪分布模式

首先进入Downloads文件夹，执行wget-cURL命令将Hadoop2.7下载到Downloads文件夹然后如上图，等下载完毕后查看Downloads文件夹中已经有hadoop-2.7. ... [详细]

蜡笔小新 2024-10-12 18:32:51

手机用户2502899537

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章