热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Presto:高效即席查询引擎的深度解析与应用

本文深入解析了Presto这一高效的即席查询引擎,详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式,显著提升了查询性能,相比传统的MapReduce查询,不仅减少了数据传输的延迟,还提高了查询的准确性和效率。然而,Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景,展示了其在大数据分析领域的强大潜力。

一、Presto架构

在这里插入图片描述


二、优缺点


优点


  • 1、Presto采用内存到内存的方式,相对于Mapreduce查询(容错机制,为了保障准确性,中间写入磁盘),减少了中间写入磁盘,从磁盘读取数据的方式。计算更快
  • 2、减少阶段间的等待时间,Mapreduce不支持DAG,maptask未完成,不能执行reduce,Presto采取管道式传输的方式,边清理内存,边计算。
  • 3、可以连接多个数据源,比如同时查询hive和mysql的数据再合并

缺点


  • 1、需要较大的内存
  • 2、关联查询会变慢

三、安装


  • 0)官网地址
    https://prestodb.github.io/

  • 1)下载地址
    https://repo1.maven.org/maven2/com/facebook/presto/presto-server/0.196/presto-server-0.196.tar.gz

  • 2)将presto-server-0.196.tar.gz导入hadoop102的/opt/software目录下,并解压到/opt/module目录

tar -zxvf presto-server-0.196.tar.gz -C /opt/module/

  • 3)修改名称为presto,方便查看

mv presto-server-0.196/ presto

  • 4)进入到/opt/module/presto目录,并创建存储数据文件夹,并创建存储配置文件文件夹

mkdir data etc

  • 5)在presto/etc目录下添加jvm.config配置文件

vim jvm.config

-server
-Xmx16G
-XX:+UseG1GC
-XX:G1HeapRegionSize=32M
-XX:+UseGCOverheadLimit
-XX:+ExplicitGCInvokesConcurrent
-XX:+HeapDumpOnOutOfMemoryError
-XX:+ExitOnOutOfMemoryError

  • 6)Presto可以支持多个数据源catalog,这里我们配置支持Hive的数据源,配置一个Hive的catalog

mkdir catalog
vim hive.properties ## 添加如下内容
connector.name=hive-hadoop2
#在hive中,有metastore的服务,主要为第三方提供读取元数据的信息
#presto通过使用hive提供的metastore提供的服务来读取元数据
#获取元数据需要url,driver驱动,class,username,password
hive.metastore.uri=thrift://hadoop102:9083

  • 7)将hadoop102上的presto同步到hadoop103、hadoop104
  • 8)分发之后,分别进入hadoop102、hadoop103、hadoop104三台主机的/opt/module/presto/etc的路径。配置node属性,node id每个节点都不一样。

[kele@hadoop102 etc]$vim node.properties
node.environment=production
node.id=ffffffff-ffff-ffff-ffff-ffffffffffff
node.data-dir=/opt/module/presto/data[kele@hadoop103 etc]$vim node.properties
node.environment=production
node.id=ffffffff-ffff-ffff-ffff-fffffffffffa
node.data-dir=/opt/module/presto/data[kele@hadoop104 etc]$vim node.properties
node.environment=production
node.id=ffffffff-ffff-ffff-ffff-fffffffffffb
node.data-dir=/opt/module/presto/data

  • 9)Presto是由一个coordinator节点和多个worker节点组成。
    配置方式

hadoop102hadoop103hadoop104
coordinatorworkerworker

  • 10)hadoop102上配置coordinator节点
    进入 etc/config.properties

添加内容如下
coordinator=true
node-scheduler.include-coordinator=false
http-server.http.port=8881
query.max-memory=50GB
discovery-server.enabled=true
discovery.uri=http://hadoop102:8881

(2)hadoop103、hadoop104上配置worker节点,进入 etc/config.properties

添加内容如下
coordinator=false
http-server.http.port=8881
query.max-memory=50GB
discovery.uri=http://hadoop102:8881

  • 11)在hadoop102的/opt/module/hive目录下,启动Hive Metastore,用kele角色,后台启动

[kele@hadoop102 hive]$
nohup bin/hive --service metastore >/dev/null 2>&1 &

  • 12)分别在hadoop102、hadoop103、hadoop104上启动Presto Server

(1)如果前台启动Presto,控制台显示日志

[kele@hadoop102 presto]$ bin/launcher run
[kele@hadoop103 presto]$ bin/launcher run
[kele@hadoop104 presto]$ bin/launcher run

(2)如果后台启动Presto

[kele@hadoop102 presto]$ bin/launcher start
[kele@hadoop103 presto]$ bin/launcher start
[kele@hadoop104 presto]$ bin/launcher start

  • 13)日志查看路径

/opt/module/presto/data/var/log

Client安装


  • 1、使用jar包启动客户端

java -jar presto-cli.jar --server hadoop102:8881 --catalog hive --schema default

启动
在这里插入图片描述
注意:

1、Presto不支持读取Text + Lzo的方式,

在这里插入图片描述
2、如果需要以lzo的方式读取数据,需要添加hadoop-lzo的jar包到presto的hive-hadoop2的目录下

cp /opt/module/hadoop/share/hadoop/common/hadoop-lzo-0.4.20.jar /opt/module/presto/plugin/hive-hadoop2/

四、界面

使用presto连接jdbc,适用于dberver使用即席查询时连接

jdbc连接jar包已上传

注意:Presto使用的是Presto支持的SQL语法和函数!


推荐阅读
  • 本文详细探讨了Java中的ClassLoader类加载器的工作原理,包括其如何将class文件加载至JVM中,以及JVM启动时的动态加载策略。文章还介绍了JVM内置的三种类加载器及其工作方式,并解释了类加载器的继承关系和双亲委托机制。 ... [详细]
  • 2017-2018年度《网络编程与安全》第五次实验报告
    本报告详细记录了2017-2018学年《网络编程与安全》课程第五次实验的具体内容、实验过程、遇到的问题及解决方案。 ... [详细]
  • Google排名优化-面向Google(Search Engine Friendly)的URL设计 ... [详细]
  • 本文介绍了如何在WildFly 10中配置MySQL数据源时遇到的服务依赖问题及其解决方案。 ... [详细]
  • 本文探讨如何利用Java反射技术来模拟Webwork框架中的URL解析过程。通过这一实践,读者可以更好地理解Webwork及其后续版本Struts2的工作原理,尤其是它们在MVC架构下的角色。 ... [详细]
  • Java 架构:深入理解 JDK 动态代理机制
    代理模式是 Java 中常用的设计模式之一,其核心在于代理类与委托类共享相同的接口。代理类主要用于为委托类提供预处理、过滤、转发及后处理等功能,以增强或改变原有功能的行为。 ... [详细]
  • 本文介绍了在Java环境中使用PDFBox和XPDF工具从PDF文件中提取文本内容的方法。重点讨论了处理中文字符集及解决相关错误的技术细节,特别是针对某些特定格式的PDF文件(如网上填写的报名表和下载的论文)遇到的问题及解决方案。 ... [详细]
  • 全面解析运维监控:白盒与黑盒监控及四大黄金指标
    本文深入探讨了白盒和黑盒监控的概念,以及它们在系统监控中的应用。通过详细分析基础监控和业务监控的不同采集方法,结合四个黄金指标的解读,帮助读者更好地理解和实施有效的监控策略。 ... [详细]
  • 实用正则表达式有哪些
    小编给大家分享一下实用正则表达式有哪些,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下 ... [详细]
  • 简化报表生成:EasyReport工具的全面解析
    本文详细介绍了EasyReport,一个易于使用的开源Web报表工具。该工具支持Hadoop、HBase及多种关系型数据库,能够将SQL查询结果转换为HTML表格,并提供Excel导出、图表显示和表头冻结等功能。 ... [详细]
  • 配置PHPStudy环境并使用DVWA进行Web安全测试
    本文详细介绍了如何在PHPStudy环境下配置DVWA( Damn Vulnerable Web Application ),并利用该平台进行SQL注入和XSS攻击的练习。通过此过程,读者可以熟悉常见的Web漏洞及其利用方法。 ... [详细]
  • 本文详细介绍了如何解压并安装MySQL集群压缩包,创建用户和组,初始化数据库,配置环境变量,并启动相关服务。此外,还提供了详细的命令行操作步骤和常见问题的解决方案。 ... [详细]
  • springMVC JRS303验证 ... [详细]
  • Spring Cloud Config 使用 Vault 作为配置存储
    本文探讨了如何在Spring Cloud Config中集成HashiCorp Vault作为配置存储解决方案,基于Spring Cloud Hoxton.RELEASE及Spring Boot 2.2.1.RELEASE版本。文章还提供了详细的配置示例和实践建议。 ... [详细]
  • 本文介绍如何从JSON格式的文件中提取数据并将其分配给Bash脚本中的变量。我们将探讨具体的命令和工具,帮助你高效地完成这一任务。 ... [详细]
author-avatar
fseiei
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有