热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Hive之——数据导出

转载请注明出处:https:blog.csdn.netl1028386804articledetails80550840一、导出的方式1、Hadoop命令方式get

转载请注明出处:https://blog.csdn.net/l1028386804/article/details/80550840

一、导出的方式

1、Hadoop命令方式

get
    hadoop fs -get hdfs://liuyazhuang121:9000/user/hive/warehouse/lyz.db/test_p/st=20180602/data
text
    hadoop fs -text hdfs://liuyazhuang121:9000/user/hive/warehouse/lyz.db/test_p/st=20180602/data

2、通过insert ... directory方式

insert overwrite [local] directory '/tmp/ca_employees'
[row format delimited fields terminated by '\t']
select name, salary, address
from employees

3、shell命令加管道

hive -f/e sed/grep/awk > file

4、第三方工具 sqoop

二、动态分析

1、不需要为不同的分区添加不同的插入语句

2、分区不确认,需要从数据获取

3、几个参数

#使用动态分区
set hive.exec.dynamic.partition=true;
#无限制模式,如果模式是strict,则必须有一个静态分区,且放在最前面
set hive.exec.dynamic.partition.mode=nonstrict | strict;
#每个节点生成动态分区的最大个数
set hive.exec.max.dynamic.partitions.pernode=10000;
#生成动态分区的最大个数
set hive.exec.max.dynamic.partitiOns=100000;
#一个任务最多可以创建的文件数目
#set hive.exec.max.created.files=150000;
限定一次最多打开的文件数
#set dfs.datanode.max.xcievers=8192;

实例:

#创建动态分区表
create table d_part(
name string
)
partitioned by (value string)
row format delimited fields terminated by '\t' lines terminated by '\n'
stored as textfile;

#根据动态分区导入数据
set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;
insert overwrite table d_part partition(value)
select name, st as value
from test_p;


推荐阅读
  • 本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS,然后通过MapReduce清洗数据,使用Hive进行数据分析,并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 技术日志:深入探讨Spark Streaming与Spark SQL的融合应用
    技术日志:深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]
  • sh cca175problem03evolveavroschema.sh ... [详细]
  • 本文介绍了在sqoop1.4.*版本中,如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件,并重新编译,可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码,重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ... [详细]
  • 我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]
  • 马蜂窝数据总监分享:从数仓到数据中台,大数据演进技术选型最优解
    大家好,今天分享的议题主要包括几大内容:带大家回顾一下大数据在国内的发展,从传统数仓到当前数据中台的演进过程;我个人认为数 ... [详细]
  • 毕设做到后半部分,需要实现将用户在一段时间(比如1天)内产生的新数据导入HDFS的功能,这样数据仓库中的数据才能和数据库中的数据同步在新建了一个PyDev项目后,需要如下操作(拣最 ... [详细]
  • 前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出, ... [详细]
  • WCF类型共享的最佳实践
    在使用WCF服务时,经常会遇到同一个实体类型在不同服务中被生成为不同版本的问题。本文将介绍几种有效的类型共享方法,以解决这一常见问题。 ... [详细]
  • 构建高可用性Spark分布式集群:大数据环境下的最佳实践
    在构建高可用性的Spark分布式集群过程中,确保所有节点之间的无密码登录是至关重要的一步。通过在每个节点上生成SSH密钥对(使用 `ssh-keygen -t rsa` 命令并保持默认设置),可以实现这一目标。此外,还需将生成的公钥分发到所有节点的 `~/.ssh/authorized_keys` 文件中,以确保节点间的无缝通信。为了进一步提升集群的稳定性和性能,建议采用负载均衡和故障恢复机制,并定期进行系统监控和维护。 ... [详细]
  • HBase在金融大数据迁移中的应用与挑战
    随着最后一台设备的下线,标志着超过10PB的HBase数据迁移项目顺利完成。目前,新的集群已在新机房稳定运行超过两个月,监控数据显示,新集群的查询响应时间显著降低,系统稳定性大幅提升。此外,数据消费的波动也变得更加平滑,整体性能得到了显著优化。 ... [详细]
  • 在Linux系统中,原本已安装了多个版本的Python 2,并且还安装了Anaconda,其中包含了Python 3。本文详细介绍了如何通过配置环境变量,使系统默认使用指定版本的Python,以便在不同版本之间轻松切换。此外,文章还提供了具体的实践步骤和注意事项,帮助用户高效地管理和使用不同版本的Python环境。 ... [详细]
  • hadoop3.1.2 first programdefault wordcount (Mac)
    hadoop3.1.2安装完成后的第一个实操示例程 ... [详细]
  • 首先进入Downloads文件夹,执行wget-cURL命令将Hadoop2.7下载到Downloads文件夹然后如上图,等下载完毕后查看Downloads文件夹中已经有hadoop-2.7. ... [详细]
author-avatar
手机用户2502899537
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有