热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Presto:高效即席查询引擎的深度解析与应用

本文深入解析了Presto这一高效的即席查询引擎,详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式,显著提升了查询性能,相比传统的MapReduce查询,不仅减少了数据传输的延迟,还提高了查询的准确性和效率。然而,Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景,展示了其在大数据分析领域的强大潜力。

一、Presto架构

在这里插入图片描述


二、优缺点


优点


  • 1、Presto采用内存到内存的方式,相对于Mapreduce查询(容错机制,为了保障准确性,中间写入磁盘),减少了中间写入磁盘,从磁盘读取数据的方式。计算更快
  • 2、减少阶段间的等待时间,Mapreduce不支持DAG,maptask未完成,不能执行reduce,Presto采取管道式传输的方式,边清理内存,边计算。
  • 3、可以连接多个数据源,比如同时查询hive和mysql的数据再合并

缺点


  • 1、需要较大的内存
  • 2、关联查询会变慢

三、安装


  • 0)官网地址
    https://prestodb.github.io/

  • 1)下载地址
    https://repo1.maven.org/maven2/com/facebook/presto/presto-server/0.196/presto-server-0.196.tar.gz

  • 2)将presto-server-0.196.tar.gz导入hadoop102的/opt/software目录下,并解压到/opt/module目录

tar -zxvf presto-server-0.196.tar.gz -C /opt/module/

  • 3)修改名称为presto,方便查看

mv presto-server-0.196/ presto

  • 4)进入到/opt/module/presto目录,并创建存储数据文件夹,并创建存储配置文件文件夹

mkdir data etc

  • 5)在presto/etc目录下添加jvm.config配置文件

vim jvm.config

-server
-Xmx16G
-XX:+UseG1GC
-XX:G1HeapRegionSize=32M
-XX:+UseGCOverheadLimit
-XX:+ExplicitGCInvokesConcurrent
-XX:+HeapDumpOnOutOfMemoryError
-XX:+ExitOnOutOfMemoryError

  • 6)Presto可以支持多个数据源catalog,这里我们配置支持Hive的数据源,配置一个Hive的catalog

mkdir catalog
vim hive.properties ## 添加如下内容
connector.name=hive-hadoop2
#在hive中,有metastore的服务,主要为第三方提供读取元数据的信息
#presto通过使用hive提供的metastore提供的服务来读取元数据
#获取元数据需要url,driver驱动,class,username,password
hive.metastore.uri=thrift://hadoop102:9083

  • 7)将hadoop102上的presto同步到hadoop103、hadoop104
  • 8)分发之后,分别进入hadoop102、hadoop103、hadoop104三台主机的/opt/module/presto/etc的路径。配置node属性,node id每个节点都不一样。

[kele@hadoop102 etc]$vim node.properties
node.environment=production
node.id=ffffffff-ffff-ffff-ffff-ffffffffffff
node.data-dir=/opt/module/presto/data[kele@hadoop103 etc]$vim node.properties
node.environment=production
node.id=ffffffff-ffff-ffff-ffff-fffffffffffa
node.data-dir=/opt/module/presto/data[kele@hadoop104 etc]$vim node.properties
node.environment=production
node.id=ffffffff-ffff-ffff-ffff-fffffffffffb
node.data-dir=/opt/module/presto/data

  • 9)Presto是由一个coordinator节点和多个worker节点组成。
    配置方式

hadoop102hadoop103hadoop104
coordinatorworkerworker

  • 10)hadoop102上配置coordinator节点
    进入 etc/config.properties

添加内容如下
coordinator=true
node-scheduler.include-coordinator=false
http-server.http.port=8881
query.max-memory=50GB
discovery-server.enabled=true
discovery.uri=http://hadoop102:8881

(2)hadoop103、hadoop104上配置worker节点,进入 etc/config.properties

添加内容如下
coordinator=false
http-server.http.port=8881
query.max-memory=50GB
discovery.uri=http://hadoop102:8881

  • 11)在hadoop102的/opt/module/hive目录下,启动Hive Metastore,用kele角色,后台启动

[kele@hadoop102 hive]$
nohup bin/hive --service metastore >/dev/null 2>&1 &

  • 12)分别在hadoop102、hadoop103、hadoop104上启动Presto Server

(1)如果前台启动Presto,控制台显示日志

[kele@hadoop102 presto]$ bin/launcher run
[kele@hadoop103 presto]$ bin/launcher run
[kele@hadoop104 presto]$ bin/launcher run

(2)如果后台启动Presto

[kele@hadoop102 presto]$ bin/launcher start
[kele@hadoop103 presto]$ bin/launcher start
[kele@hadoop104 presto]$ bin/launcher start

  • 13)日志查看路径

/opt/module/presto/data/var/log

Client安装


  • 1、使用jar包启动客户端

java -jar presto-cli.jar --server hadoop102:8881 --catalog hive --schema default

启动
在这里插入图片描述
注意:

1、Presto不支持读取Text + Lzo的方式,

在这里插入图片描述
2、如果需要以lzo的方式读取数据,需要添加hadoop-lzo的jar包到presto的hive-hadoop2的目录下

cp /opt/module/hadoop/share/hadoop/common/hadoop-lzo-0.4.20.jar /opt/module/presto/plugin/hive-hadoop2/

四、界面

使用presto连接jdbc,适用于dberver使用即席查询时连接

jdbc连接jar包已上传

注意:Presto使用的是Presto支持的SQL语法和函数!


推荐阅读
  • Hadoop入门与核心组件详解
    本文详细介绍了Hadoop的基础知识及其核心组件,包括HDFS、MapReduce和YARN。通过本文,读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]
  • 本文深入探讨了JavaScript中实现继承的四种常见方法,包括原型链继承、构造函数继承、组合继承和寄生组合继承。对于正在学习或从事Web前端开发的技术人员来说,理解这些继承模式对于提高代码质量和维护性至关重要。 ... [详细]
  • 本文详细介绍了 Dockerfile 的编写方法及其在网络配置中的应用,涵盖基础指令、镜像构建与发布流程,并深入探讨了 Docker 的默认网络、容器互联及自定义网络的实现。 ... [详细]
  • 数据库内核开发入门 | 搭建研发环境的初步指南
    本课程将带你从零开始,逐步掌握数据库内核开发的基础知识和实践技能,重点介绍如何搭建OceanBase的开发环境。 ... [详细]
  • 本文深入探讨 MyBatis 中动态 SQL 的使用方法,包括 if/where、trim 自定义字符串截取规则、choose 分支选择、封装查询和修改条件的 where/set 标签、批量处理的 foreach 标签以及内置参数和 bind 的用法。 ... [详细]
  • MySQL缓存机制深度解析
    本文详细探讨了MySQL的缓存机制,包括主从复制、读写分离以及缓存同步策略等内容。通过理解这些概念和技术,读者可以更好地优化数据库性能。 ... [详细]
  • 该平台旨在为大型企业提供一个高效、灵活且可扩展的分布式微服务架构解决方案。它采用模块化、微服务化和热部署的设计理念,结合当前最先进且无商业限制的主流开源技术,如Spring Cloud、Spring Boot2、MyBatis、OAuth2和Element UI,实现前后端分离的系统管理平台。 ... [详细]
  • 从零开始构建完整手机站:Vue CLI 3 实战指南(第一部分)
    本系列教程将引导您使用 Vue CLI 3 构建一个功能齐全的移动应用。我们将深入探讨项目中涉及的每一个知识点,并确保这些内容与实际工作中的需求紧密结合。 ... [详细]
  • 本文详细介绍了如何在Ubuntu系统中下载适用于Intel处理器的64位版本,涵盖了不同Linux发行版对64位架构的不同命名方式,并提供了具体的下载链接和步骤。 ... [详细]
  • Scala 实现 UTF-8 编码属性文件读取与克隆
    本文介绍如何使用 Scala 以 UTF-8 编码方式读取属性文件,并实现属性文件的克隆功能。通过这种方式,可以确保配置文件在多线程环境下的一致性和高效性。 ... [详细]
  • 本文探讨了领域驱动设计(DDD)的核心概念、应用场景及其实现方式,详细介绍了其在企业级软件开发中的优势和挑战。通过对比事务脚本与领域模型,展示了DDD如何提升系统的可维护性和扩展性。 ... [详细]
  • 前言ReactNative是目前最流行的跨平台框架,并且是Facebook团队开源的项目。架构及实现技术上都有很高的研究价值,本系列就来分析一下Reac ... [详细]
  • Windows 系统下 MySQL 8.0.11 的安装与配置
    本文详细介绍了在 Windows 操作系统中安装和配置 MySQL 8.0.11 的步骤,包括环境准备、安装过程以及后续配置,帮助用户顺利完成数据库的部署。 ... [详细]
  • 本文深入探讨了如何通过调整InnoDB的关键配置参数来优化MySQL的随机IO性能,涵盖了缓存、日志文件、预读机制等多个方面,帮助读者全面提升数据库系统的性能。 ... [详细]
  • 本文详细介绍如何下载并安装MySQL数据库(5.7.10版本),以及配置Navicat管理工具(免费版)。通过本指南,您将了解从下载到安装的完整流程,并掌握基本的数据库管理技能。 ... [详细]
author-avatar
fseiei
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有