热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

(一)Impala

憨1.impala的核心概念2.impala的架构原理3.impala的安装和使用1.impala介绍1.1impala概述impala是Cloudera公司推出,提供对HDFS、

1. impala的核心概念

2. impala的架构原理

3. impala的安装和使用

1. impala介绍

1.1 impala概述



  • impala是Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互SQL查询功能。

  • 官方测试性能比hive快10到100倍,其sql查询比sparksql还要更加快捷,号称是当前大数据领域

最快的查询sql工具。



  • 基于hive使用内存计算,兼顾数据仓库,具有实时、批处理、多并发等优点

impala使用hive的元数据,完全在内存中计算

1.2 impala与hive的关系



  • impala是基于hive的大数据分析查询引擎,直接使用hive的元数据metadata

  • impala元数据都存储在hive的metastore当中,并且impala兼容hive的绝大多数sql语法

  • 安装impala的话,必须先安装hive,保证hive安装成功,并且还需要启动hive的metastore服务

1.3 impala优点

1、基于内存进行计算,能够对PB级数据进行交互式实时查询、分析、只要你内存足够大

2、摒弃了MR的计算,改用C+来实现,有针对性的硬件优化

  在底层对硬件进行优化,LLVM统一编译运行:编译器,比较稳定,效率高

3、具有数据仓库的特性,可对hive数据直接做数据分析

4、支持列式存储

  可以和hbase整合,因为hive可以整合hbase

5、支持DataLocal

  数据本地化:无需数据移动,减少数据的传输

6、支持JDBC/ODBC远程访问

1.4 impala缺点

1、基于内存计算,对内存依赖性较大

2、基于hive,与hive共存亡,紧耦合

3、稳定性不如hive

 

2 impala基础架构

2.1 impala体系架构

图XXXXXXXXXXXXXXXXXX

Catalog  State Store 

Impala Daemon   Impala Daemon

Catalog:同步不同的hive元数据信息

impala集群的主节点



  • 从hive元数据库中同步元数据,分发表的元数据信息到各个impala daemon中

  • 接收来自statestore的所有请求,告知哪些impala节点是健康的

补充:



  • impala1.2中加入的Catalog服务减少了refresh和invalidate metadata语句的使用

  • 在之前的版本中,当在某个节点上执行了create database、drop database、create table

或者drop table语句之后,需要在其它的各个节点上执行命令invalidate metadata 来确保元数据信息的更新。



  • 同样的,当你在某个节点上执行了inset语句,在其它节点上执行查询时就得先执行

refresh table_name这个操作,这样才能识别到新增的数据文件。



  • 需要注意的是,通过impala执行的操作带来的元数据变化,有了Catalog就不需要再执行

refresh和invalidate metadata,但如果是通过hive进行的建表、加载数据,则仍然

需要执行refresh 和invalidate metadata来通知impala更新元数据信息。

 

State Store:对Impala Daemon做一些健康监控

  impala集群的主节点,为impalaDaemon提供查询服务,并周期性地检查impala进程状态

补充:



  • 如果某个impala节点由于硬件错误、软件错误或者其他原因导致离线,statestored

就会通知其他的节点,避免其他节点再向这个离线的节点发送请求。



  • 由于statestored是当集群节点有问题的时候起通知作用,所以它对impala集群并不是

有关键影响的



  • 如果statestored没有运行或者运行失败,其他节点和分布式任务会照常运行,只是说当节点

掉线的时候集群会变得没那么健壮。当statestored恢复正常运行时,它就又开始与其他

节点通信并进行监控。

 

impala



  • impala的核心组件是运行在各个节点上面的impala这个守护进程

  • 接收Client请求、query执行并返回给中心协调节点

  • 子节点上的守护进程,负责向statestore保持通信,汇报工作

执行计算



  • 因内存依赖大,所以最好不要和impala的其他组件放到同一节点

  • 最好是与hdfs的datanode节点部署在一起,提高查询计算(数据本地化)

考虑集群性能问题,一般将statestore与Catalog放在同一节点上,因两者之间要

进行大量的通信。

2.2 impala查询过程

客户端连接impala daemon上,它的内部有三个组件:

query palnner(查询解析器)

将我们的字符串sql语句解释成为执行计划

query coordinator(中心协调节点)

coordinator从state store请求其他的impala daemons,并把查询分发给其他的impala daemon

query Executor(查询执行器)

做查询工作的就是executor

 

*************jdbc impala,会用ok,遇到问题深入研究************************

 


推荐阅读
  • 本文介绍如何通过SQL查询从JDE(JD Edwards)系统中提取所有字典数据,涵盖关键表的关联和字段选择。具体包括F0004和F0005系列表的数据提取方法。 ... [详细]
  • 本文详细介绍了如何通过命令行启动MySQL服务,包括打开命令提示符窗口、进入MySQL的bin目录、输入正确的连接命令以及注意事项。文中还提供了更多相关命令的资源链接。 ... [详细]
  • 本文介绍如何使用 NSTimer 实现倒计时功能,详细讲解了初始化方法、参数配置以及具体实现步骤。通过示例代码展示如何创建和管理定时器,确保在指定时间间隔内执行特定任务。 ... [详细]
  • 本文介绍了在Windows环境下使用pydoc工具的方法,并详细解释了如何通过命令行和浏览器查看Python内置函数的文档。此外,还提供了关于raw_input和open函数的具体用法和功能说明。 ... [详细]
  • 高效解决应用崩溃问题!友盟新版错误分析工具全面升级
    友盟推出的最新版错误分析工具,专为移动开发者设计,提供强大的Crash收集与分析功能。该工具能够实时监控App运行状态,快速发现并修复错误,显著提升应用的稳定性和用户体验。 ... [详细]
  • VPX611是北京青翼科技推出的一款采用6U VPX架构的高性能数据存储板。该板卡搭载两片Xilinx Kintex-7系列FPGA作为主控单元,内置RAID控制器,支持多达8个mSATA盘,最大存储容量可达8TB,持续写入带宽高达3.2GB/s。 ... [详细]
  • 并发编程:深入理解设计原理与优化
    本文探讨了并发编程中的关键设计原则,特别是Java内存模型(JMM)的happens-before规则及其对多线程编程的影响。文章详细介绍了DCL双重检查锁定模式的问题及解决方案,并总结了不同处理器和内存模型之间的关系,旨在为程序员提供更深入的理解和最佳实践。 ... [详细]
  • 本文详细介绍了Git分布式版本控制系统中远程仓库的概念和操作方法。通过具体案例,帮助读者更好地理解和掌握如何高效管理代码库。 ... [详细]
  • 本文介绍如何使用阿里云的fastjson库解析包含时间戳、IP地址和参数等信息的JSON格式文本,并进行数据处理和保存。 ... [详细]
  • MATLAB实现n条线段交点计算
    本文介绍了一种通过逐对比较线段来求解交点的简单算法。此外,还提到了一种基于排序的方法,但该方法较为复杂,尚未完全理解。文中详细描述了如何根据线段端点求交点,并判断交点是否在线段上。 ... [详细]
  • 以下实例展示了locals( ... [详细]
  • andr ... [详细]
  • 本文介绍如何使用Python进行文本处理,包括分词和生成词云图。通过整合多个文本文件、去除停用词并生成词云图,展示文本数据的可视化分析方法。 ... [详细]
  • 本文详细介绍了如何在CentOS 7操作系统上安装和配置Grafana,包括必要的依赖项安装、插件管理以及服务启动等步骤。 ... [详细]
  • 解决JAX-WS动态客户端工厂弃用问题并迁移到XFire
    在处理Java项目中的JAR包冲突时,我们遇到了JaxWsDynamicClientFactory被弃用的问题,并成功将其迁移到org.codehaus.xfire.client。本文详细介绍了这一过程及解决方案。 ... [详细]
author-avatar
少钧13
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有