热门标签 | HotTags
当前位置:  开发笔记 > 前端 > 正文

Hive简介,HIV的介绍

hive的本质是hadoop客户端通过写sql转换成MapReduce提交给yarn、hdfs执行hive的优点操作接口采用类sql语法提供快速开发能力避免了去写MapReduce

hive的本质是hadoop客户端通过写sql转换成MapReduce提交给yarn、hdfs执行

hive的优点 操作接口采用类sql语法提供快速开发能力避免了去写MapReduce减少了开发人员学习成本hive执行延迟比较高因此常用于数据分析用于对实时性要求不高的场合hive优势在处理大数据对于小数据没有优势hive支持用户自定义函数可以根据自己的需求来实现自己的函数hive的缺点 hive的hql表达能力有限迭代式算法无法表达数据挖掘方面不擅长由于MapReduce数据处理流程限制效率更高的算法却无法实现hive的效率较低hive自动生成MapReduce作业通常情况下不够智能hive调优困难粒度较粗hive与数据库比较

由于hive采用类sql查询语言hqlhive query language因此很容易将hive理解为数据库。其实结构上看hive和数据库除了拥有类似语言再无相似之处数据库可以用在online的应用但是hive是为数据仓库而设计的

数据存储位置

hive是建立在Hadoop上的所有hive的数据都是存储在hdfs上的而数据库则可以将数据保存在块设备或者本地文件中

数据更新

hive中不建议对数据的改写所有数据都是在加载的时候确定好的数据库则可以经常修改

索引

hive在加载数据时不会对数据有任何处理因此没有对数据有索引hive要访问数据中满足条件的特定值时需要暴力扫描整个数据。由于MapReducehive可以并行访问数据因此尽管没有索引对于大数据量的访问hive仍然可以体现优势

数据库通常会针对一个或者多个列进行建立索引因此对于少量的特定条件的数据访问数据库有很高的效率

由于数据的访问延迟高决定了hive不适合在线数据的查询

执行延迟

hive查询时无索引需要扫描整个表因此延迟较高。此外MapReduce框架本身有较高的延迟利用MapReduce执行hive查询时延迟较高。相对数据库执行延迟较低。低也是有条件的即数据库规模较小当数据规模大到超过数据库的处理能力的时候hive的并行计算显然可以体现优势

可扩展性

由于hive是在hadoop上的因此hive的可扩展性与hadoop可扩展性是一致的

数据规模

由于hive建立在集群上并可以利用MapReduce进行并行计算因此可以支持很大规模的数据数据库的可以支持的数据规模较小管理表

默认创建的表都是管理表也称为内部表当删除一个管理表的时候hive也会删除这个表的数据

也可以建立外部表删除外部表时数据不会被删除不过描述的元数据信息会被删除元数据为描述数据的数据主要是描绘数据属性properties信息用来支持如指示存储位置、历史数据、资源查找、文件记录等功能


推荐阅读
  • 流处理中的计数挑战与解决方案
    本文探讨了在流处理中进行计数的各种技术和挑战,并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性,还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]
  • 大数据核心技术解析
    本文深入探讨了大数据技术的关键领域,包括数据的收集、预处理、存储管理、以及分析挖掘等方面,旨在提供一个全面的技术框架理解。 ... [详细]
  • 本文档详细介绍了服务器与应用系统迁移的策略与实施步骤。迁移不仅涉及数据的转移,还包括环境配置、应用兼容性测试等多个方面,旨在确保迁移过程的顺利进行及迁移后的系统稳定运行。 ... [详细]
  • mysql 分库分表策略_【数据库】分库分表策略
    关系型数据库本身比较容易成为系统瓶颈,单机存储容量、连接数、处理能力都有限。当单表的数据量达到1000W或100G以后,由于查询维度较多, ... [详细]
  • Python作为一种广泛使用的高级编程语言,以其简洁的语法、强大的功能和丰富的库支持著称。本文将详细介绍Python的主要特点及其在现代软件开发中的应用。 ... [详细]
  • databasesync适配openGauss使用指导书
    一、database-sync简介database-sync作为一种开源辅助工具,用于数据库之间的表同步,更确切的说法是复制,可以从一个数据库复制表到另一个数据库该工具支持的功能如 ... [详细]
  • 本文探讨了如何利用脚本文件高效管理Oracle数据库,包括脚本文件的创建、编辑及运行方法,旨在为数据库管理人员提供实用指导。 ... [详细]
  • 深入理解云计算与大数据技术
    本文详细探讨了云计算与大数据技术的关键知识点,包括大数据处理平台、社会网络大数据、城市大数据、工业大数据、教育大数据、数据开放与共享的应用,以及搜索引擎与Web挖掘、推荐技术的研究及应用。文章还涵盖了云计算的基础概念、特点和服务类型分类。 ... [详细]
  • 本文介绍如何通过整合SparkSQL与Hive来构建高效的用户画像环境,提高数据处理速度和查询效率。 ... [详细]
  • 大数据领域的职业路径与角色解析
    本文将深入探讨大数据领域的各种职业和工作角色,帮助读者全面了解大数据行业的需求、市场趋势,以及从入门到高级专业人士的职业发展路径。文章还将详细介绍不同公司对大数据人才的需求,并解析各岗位的具体职责、所需技能和经验。 ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 本文详细探讨了 Java 中 Daemon 线程的特点及其应用场景,并深入分析了 Random 类的源代码,帮助开发者更好地理解和使用这些核心组件。 ... [详细]
  • 解决PHP与MySQL之间的编码不匹配问题
    探讨如何有效解决PHP与MySQL之间常见的编码问题,确保数据的正确传输与显示。 ... [详细]
  • 本文详细介绍了在 Ubuntu 系统上搭建 Hadoop 集群时遇到的 SSH 密钥认证问题及其解决方案。通过本文,读者可以了解如何在多台虚拟机之间实现无密码 SSH 登录,从而顺利启动 Hadoop 集群。 ... [详细]
  • Zookeeper作为Apache Hadoop生态系统中的一个重要组件,主要致力于解决分布式应用中的常见数据管理难题。它提供了统一的命名服务、状态同步服务以及集群管理功能,有效提升了分布式系统的可靠性和可维护性。此外,Zookeeper还支持配置管理和临时节点管理,进一步增强了其在复杂分布式环境中的应用价值。 ... [详细]
author-avatar
爷们疯子2_593_278
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有