hive有没有update_hive怎么实现update操作

作者：I_amkaiman | 来源：互联网 | 2023-09-04 11:58

展开全部数据更新是一种常见的操作，然后数据仓库的概念一般要求的是数据是集成、稳定的。HIVE作为一e68a84e8a2ad3231313335323631343130

展开全部

数据更新是一种常见的操作&＃xff0c;然后数据仓库的概念一般要求的是数据是集成、稳定的。HIVE作为一e68a84e8a2ad3231313335323631343130323136353331333361316131种分布式环境下以HDFS为支撑的数据仓库&＃xff0c;它同样更多的要求数据是不可变的。

然而现实很多任务中&＃xff0c;往往需要对数据进行更新操作&＃xff0c;经查&＃xff0c;Hive自0.11版本之后就提供了更新操作。于是想着试验一下&＃xff0c;看看HIVE更新的操作和性能。

按照网上办法进行设置.

hive.support.concurrency – true

hive.enforce.bucketing – true (Not required as of Hive 2.0)

hive.exec.dynamic.partition.mode – nonstrict

hive.txn.manager – org.apache.Hadoop.hive.ql.lockmgr.DbTxnManager

hive.compactor.initiator.on – true (for exactly one instance of the Thrift metastore service)

hive.compactor.worker.threads – a positive

同样在建表后面添加: stored as orc TBLPROPERTIES(&＃39;transactional&＃39;&＃61;&＃39;true&＃39;); 以支持ACID的要求.

如以简单的表进行实验:(id int ,name string) , 随意导入几条数据,进行测试.

写入更新操作命令: update ** set name &＃61;&＃39;aaa&＃39; where id &＃61;1;

得到结果如下:

似乎这样操作&＃xff0c;HIVE对UPDATE操作就非常好的。其实经过实验&＃xff0c;发现HIVE的更新机制速度非常的慢&＃xff0c;在一个仅仅为6行的数据测试&＃xff0c;其花费时间也要180S&＃xff0c;这种效率肯定是无法忍受的。猜测其原因可能需要读出原有的表&＃xff0c;进行更新&＃xff0c;然后再写回HDFS&＃xff1f;仅仅是猜测而已。

另外一个非常头疼的事情是&＃xff0c;这种HIVE环境下支持ACID的表&＃xff0c;竟然只能在HIVE内部才能访问到&＃xff0c;而在BEELINE或者Spark环境下&＃xff0c;居然是无法获得数据的。或者对外不提供接口。(中间那行居然不显示数据!!!!)

推荐阅读

service
初学者遇到的dubbo设计架构问题及解决方法总结

本文总结了初学者在使用dubbo设计架构过程中遇到的问题，并提供了相应的解决方法。问题包括传输字节流限制、分布式事务、序列化、多点部署、zk端口冲突、服务失败请求3次机制以及启动时检查。通过解决这些问题，初学者能够更好地理解和应用dubbo设计架构。 ... [详细]

蜡笔小新 2023-12-09 10:07:18
stream
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
stream
LVS-DR直接路由实现负载均衡示例

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2023-10-17 10:27:04
stream
hadoop学习；block数据块；mapreduce实现样例；UnsupportedClassVersionError异常；关联项目源代码...

对于开源的东东，尤其是刚出来不久，我认为最好的学习方式就是能够看源代码和doc，測试它的样例为了方便查看源代码，关联导入源代 ... [详细]

蜡笔小新 2023-10-17 09:49:38
get
Hbase Region Server和Hbase Master启动报错 Direct buffer memory

2018-02-1420:07:13,610ERROR[main]regionserver.HRegionServerCommandLine:Regionserverexiting ... [详细]

蜡笔小新 2023-10-16 20:08:57
get
CentOS 7配置SSH远程访问及控制

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2023-10-16 18:40:50
get
Hadoop学习笔记1：伪分布式环境搭建

在搭建Hadoop环境之前，请先阅读如下博文，把搭建Hadoop环境之前的准备工作做好，博文如下： 1、CentOS6.7下安装JDK,地址：http:b ... [详细]

蜡笔小新 2023-10-16 16:04:04
get
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
get
MapReduce工作流程最详细解释

MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型，MapReduce的计算过程被封装的很好，我们只用使用Map和Reduce函数，所以对其整体的计算过程不是太 ... [详细]

蜡笔小新 2023-10-16 14:14:27
stream
大量研发销售产品设计市场岗位！

关于我们EMQ是一家全球领先的开源物联网基础设施软件供应商，服务新产业周期的IoT&5G、边缘计算与云计算市场，交付全球领先的开源物联网消息服务器和流处理数据 ... [详细]

蜡笔小新 2023-12-13 21:02:32
get
org.apache.catalina.LifecycleEvent类的使用及代码示例

标题： ... [详细]

蜡笔小新 2023-12-13 11:03:10
scala
Spark实现高斯朴素贝叶斯模型的低配版

本文介绍了使用Spark实现低配版高斯朴素贝叶斯模型的原因和原理。随着数据量的增大，单机上运行高斯朴素贝叶斯模型会变得很慢，因此考虑使用Spark来加速运行。然而，Spark的MLlib并没有实现高斯朴素贝叶斯模型，因此需要自己动手实现。文章还介绍了朴素贝叶斯的原理和公式，并对具有多个特征和类别的模型进行了讨论。最后，作者总结了实现低配版高斯朴素贝叶斯模型的步骤。 ... [详细]

蜡笔小新 2023-12-10 21:42:37
web
Activiti7流程定义开发笔记

本文介绍了Activiti7流程定义的开发笔记，包括流程定义的概念、使用activiti-explorer和activiti-eclipse-designer进行建模的方式，以及生成流程图的方法。还介绍了流程定义部署的概念和步骤，包括将bpmn和png文件添加部署到activiti数据库中的方法，以及使用ZIP包进行部署的方式。同时还提到了activiti.cfg.xml文件的作用。 ... [详细]

蜡笔小新 2023-12-10 19:22:56
get
大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记

本文介绍了大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记，包括outputFormat接口实现类、自定义outputFormat步骤和案例。案例中将包含nty的日志输出到nty.log文件，其他日志输出到other.log文件。同时提供了一些相关网址供参考。 ... [详细]

蜡笔小新 2023-12-10 11:44:06
web
shiro java配置问题：加入Shiro listener后启动失败

本文讨论了在shiro java配置中加入Shiro listener后启动失败的问题。作者引入了一系列jar包，并在web.xml中配置了相关内容，但启动后却无法正常运行。文章提供了具体引入的jar包和web.xml的配置内容，并指出可能的错误原因。该问题可能与jar包版本不兼容、web.xml配置错误等有关。 ... [详细]

蜡笔小新 2023-12-10 09:43:05

I_amkaiman

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章