Presto：高效即席查询引擎的深度解析与应用

作者：fseiei | 来源：互联网 | 2024-11-07 19:17

本文深入解析了Presto这一高效的即席查询引擎，详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式，显著提升了查询性能，相比传统的MapReduce查询，不仅减少了数据传输的延迟，还提高了查询的准确性和效率。然而，Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景，展示了其在大数据分析领域的强大潜力。

一、Presto架构

在这里插入图片描述

二、优缺点

优点

1、Presto采用内存到内存的方式&＃xff0c;相对于Mapreduce查询&＃xff08;容错机制&＃xff0c;为了保障准确性&＃xff0c;中间写入磁盘&＃xff09;&＃xff0c;减少了中间写入磁盘&＃xff0c;从磁盘读取数据的方式。计算更快
2、减少阶段间的等待时间&＃xff0c;Mapreduce不支持DAG&＃xff0c;maptask未完成&＃xff0c;不能执行reduce&＃xff0c;Presto采取管道式传输的方式&＃xff0c;边清理内存&＃xff0c;边计算。
3、可以连接多个数据源&＃xff0c;比如同时查询hive和mysql的数据再合并

缺点

1、需要较大的内存
2、关联查询会变慢

三、安装

0&＃xff09;官网地址
https://prestodb.github.io/
1&＃xff09;下载地址
https://repo1.maven.org/maven2/com/facebook/presto/presto-server/0.196/presto-server-0.196.tar.gz
2&＃xff09;将presto-server-0.196.tar.gz导入hadoop102的/opt/software目录下&＃xff0c;并解压到/opt/module目录

tar -zxvf presto-server-0.196.tar.gz -C /opt/module/

3&＃xff09;修改名称为presto,方便查看

mv presto-server-0.196/ presto

4&＃xff09;进入到/opt/module/presto目录&＃xff0c;并创建存储数据文件夹,并创建存储配置文件文件夹

mkdir data etc

5&＃xff09;在presto/etc目录下添加jvm.config配置文件

vim jvm.config

-server -Xmx16G -XX:&＃43;UseG1GC -XX:G1HeapRegionSize&＃61;32M -XX:&＃43;UseGCOverheadLimit -XX:&＃43;ExplicitGCInvokesConcurrent -XX:&＃43;HeapDumpOnOutOfMemoryError -XX:&＃43;ExitOnOutOfMemoryError

6&＃xff09;Presto可以支持多个数据源catalog&＃xff0c;这里我们配置支持Hive的数据源&＃xff0c;配置一个Hive的catalog

mkdir catalog vim hive.properties ## 添加如下内容 connector.name&＃61;hive-hadoop2 #在hive中&＃xff0c;有metastore的服务&＃xff0c;主要为第三方提供读取元数据的信息 #presto通过使用hive提供的metastore提供的服务来读取元数据 #获取元数据需要url&＃xff0c;driver驱动&＃xff0c;class&＃xff0c;username&＃xff0c;password hive.metastore.uri&＃61;thrift://hadoop102:9083

7&＃xff09;将hadoop102上的presto同步到hadoop103、hadoop104
8&＃xff09;分发之后&＃xff0c;分别进入hadoop102、hadoop103、hadoop104三台主机的/opt/module/presto/etc的路径。配置node属性&＃xff0c;node id每个节点都不一样。

[kele&＃64;hadoop102 etc]$vim node.properties node.environment&＃61;production node.id&＃61;ffffffff-ffff-ffff-ffff-ffffffffffff node.data-dir&＃61;/opt/module/presto/data[kele&＃64;hadoop103 etc]$vim node.properties node.environment&＃61;production node.id&＃61;ffffffff-ffff-ffff-ffff-fffffffffffa node.data-dir&＃61;/opt/module/presto/data[kele&＃64;hadoop104 etc]$vim node.properties node.environment&＃61;production node.id&＃61;ffffffff-ffff-ffff-ffff-fffffffffffb node.data-dir&＃61;/opt/module/presto/data

9&＃xff09;Presto是由一个coordinator节点和多个worker节点组成。
配置方式

hadoop102	hadoop103	hadoop104
coordinator	worker	worker

10&＃xff09;hadoop102上配置coordinator节点
进入 etc/config.properties

添加内容如下 coordinator&＃61;true node-scheduler.include-coordinator&＃61;false http-server.http.port&＃61;8881 query.max-memory&＃61;50GB discovery-server.enabled&＃61;true discovery.uri&＃61;http://hadoop102:8881

&＃xff08;2&＃xff09;hadoop103、hadoop104上配置worker节点,进入 etc/config.properties

添加内容如下 coordinator&＃61;false http-server.http.port&＃61;8881 query.max-memory&＃61;50GB discovery.uri&＃61;http://hadoop102:8881

11&＃xff09;在hadoop102的/opt/module/hive目录下&＃xff0c;启动Hive Metastore&＃xff0c;用kele角色&＃xff0c;后台启动

[kele&＃64;hadoop102 hive]$ nohup bin/hive --service metastore >/dev/null 2>&1 &

12&＃xff09;分别在hadoop102、hadoop103、hadoop104上启动Presto Server

&＃xff08;1&＃xff09;如果前台启动Presto&＃xff0c;控制台显示日志

[kele&＃64;hadoop102 presto]$ bin/launcher run [kele&＃64;hadoop103 presto]$ bin/launcher run [kele&＃64;hadoop104 presto]$ bin/launcher run

&＃xff08;2&＃xff09;如果后台启动Presto

[kele&＃64;hadoop102 presto]$ bin/launcher start [kele&＃64;hadoop103 presto]$ bin/launcher start [kele&＃64;hadoop104 presto]$ bin/launcher start

13&＃xff09;日志查看路径

/opt/module/presto/data/var/log

Client安装

1、使用jar包启动客户端

java -jar presto-cli.jar --server hadoop102:8881 --catalog hive --schema default

启动
在这里插入图片描述
注意&＃xff1a;

1、Presto不支持读取Text &＃43; Lzo的方式&＃xff0c;

在这里插入图片描述
2、如果需要以lzo的方式读取数据&＃xff0c;需要添加hadoop-lzo的jar包到presto的hive-hadoop2的目录下

cp /opt/module/hadoop/share/hadoop/common/hadoop-lzo-0.4.20.jar /opt/module/presto/plugin/hive-hadoop2/

四、界面

使用presto连接jdbc&＃xff0c;适用于dberver使用即席查询时连接

jdbc连接jar包已上传

注意&＃xff1a;Presto使用的是Presto支持的SQL语法和函数&＃xff01;

推荐阅读

server
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
string
JavaScript前端开发中常用的四种继承方法详解

本文深入探讨了JavaScript中实现继承的四种常见方法，包括原型链继承、构造函数继承、组合继承和寄生组合继承。对于正在学习或从事Web前端开发的技术人员来说，理解这些继承模式对于提高代码质量和维护性至关重要。 ... [详细]

蜡笔小新 2024-12-18 11:08:28
config
Dockerfile 编写与 Docker 网络配置详解

本文详细介绍了 Dockerfile 的编写方法及其在网络配置中的应用，涵盖基础指令、镜像构建与发布流程，并深入探讨了 Docker 的默认网络、容器互联及自定义网络的实现。 ... [详细]

蜡笔小新 2024-12-27 17:31:41
main
数据库内核开发入门 | 搭建研发环境的初步指南

本课程将带你从零开始，逐步掌握数据库内核开发的基础知识和实践技能，重点介绍如何搭建OceanBase的开发环境。 ... [详细]

蜡笔小新 2024-12-27 16:38:48
main
MyBatis 动态 SQL 详解与应用

本文深入探讨 MyBatis 中动态 SQL 的使用方法，包括 if/where、trim 自定义字符串截取规则、choose 分支选择、封装查询和修改条件的 where/set 标签、批量处理的 foreach 标签以及内置参数和 bind 的用法。 ... [详细]

蜡笔小新 2024-12-27 16:20:10
main
MySQL缓存机制深度解析

本文详细探讨了MySQL的缓存机制，包括主从复制、读写分离以及缓存同步策略等内容。通过理解这些概念和技术，读者可以更好地优化数据库性能。 ... [详细]

蜡笔小新 2024-12-26 15:15:06
main
基于Spring Cloud与Spring Boot2的分布式微服务云架构快速开发平台

该平台旨在为大型企业提供一个高效、灵活且可扩展的分布式微服务架构解决方案。它采用模块化、微服务化和热部署的设计理念，结合当前最先进且无商业限制的主流开源技术，如Spring Cloud、Spring Boot2、MyBatis、OAuth2和Element UI，实现前后端分离的系统管理平台。 ... [详细]

蜡笔小新 2024-12-26 14:04:12
install
从零开始构建完整手机站：Vue CLI 3 实战指南（第一部分）

本系列教程将引导您使用 Vue CLI 3 构建一个功能齐全的移动应用。我们将深入探讨项目中涉及的每一个知识点，并确保这些内容与实际工作中的需求紧密结合。 ... [详细]

蜡笔小新 2024-12-26 13:30:37
install
Ubuntu系统中下载64位Intel版本的指南

本文详细介绍了如何在Ubuntu系统中下载适用于Intel处理器的64位版本，涵盖了不同Linux发行版对64位架构的不同命名方式，并提供了具体的下载链接和步骤。 ... [详细]

蜡笔小新 2024-12-26 11:24:01
config
Scala 实现 UTF-8 编码属性文件读取与克隆

本文介绍如何使用 Scala 以 UTF-8 编码方式读取属性文件，并实现属性文件的克隆功能。通过这种方式，可以确保配置文件在多线程环境下的一致性和高效性。 ... [详细]

蜡笔小新 2024-12-26 08:25:19
python
深入理解领域驱动设计及其实践

本文探讨了领域驱动设计（DDD）的核心概念、应用场景及其实现方式，详细介绍了其在企业级软件开发中的优势和挑战。通过对比事务脚本与领域模型，展示了DDD如何提升系统的可维护性和扩展性。 ... [详细]

蜡笔小新 2024-12-25 18:45:55
install
React Native Android 源码分析之前期准备

前言ReactNative是目前最流行的跨平台框架，并且是Facebook团队开源的项目。架构及实现技术上都有很高的研究价值，本系列就来分析一下Reac ... [详细]

蜡笔小新 2024-12-12 20:19:17
install
Windows 系统下 MySQL 8.0.11 的安装与配置

本文详细介绍了在 Windows 操作系统中安装和配置 MySQL 8.0.11 的步骤，包括环境准备、安装过程以及后续配置，帮助用户顺利完成数据库的部署。 ... [详细]

蜡笔小新 2024-12-27 13:16:32
random
优化MySQL InnoDB的IO性能：配置参数详解

本文深入探讨了如何通过调整InnoDB的关键配置参数来优化MySQL的随机IO性能，涵盖了缓存、日志文件、预读机制等多个方面，帮助读者全面提升数据库系统的性能。 ... [详细]

蜡笔小新 2024-12-27 13:00:29
random
MySQL数据库安装指南

本文详细介绍如何下载并安装MySQL数据库（5.7.10版本），以及配置Navicat管理工具（免费版）。通过本指南，您将了解从下载到安装的完整流程，并掌握基本的数据库管理技能。 ... [详细]

蜡笔小新 2024-12-27 10:53:40

fseiei

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章