作者:天佑千行 | 来源:互联网 | 2023-06-10 13:27
大数据组件Presto,SparkSQL,Hive相互关系https:blog.csdn.netyilulvxingarticledetails86220888blog.csdn
大数据组件Presto,Spark SQL,Hive相互关系
https://blog.csdn.net/yilulvxing/article/details/86220888 blog.csdn.net
1.Hive是一个数据仓库,是一个交互式比较弱一点的查询引擎,交互式没有presto那么强,而且只能访问hdfs的数据;Hive在查询100Gb级别的数据时,消耗时间已经是分钟级了;
2.Presto是一个交互式查询引擎,可以在很短的时间内返回查询结果,秒级,分钟级,能访问很多数据源;
Presto入门介绍
https://blog.csdn.net/cakexuexi/article/details/80820170 blog.csdn.net
Presto适用的SQL函数
https://blog.csdn.net/zhangmary/article/details/82992424 blog.csdn.net
presto分布式大数据SQL查询引擎官方文档
Presto | Distributed SQL Query Engine for Big Data prestodb.jd.com
3.Spark SQL的一大用处就是执行SQL查询语句,Spark SQL也可以用来从Hive中读取数据,当我们使用其它编程语言来运行一个SQL语句,结果返回的是一个Dataset或者DataFrame.你可以使用命令行,JDBC或者ODBC的方式来与SQL进行交互。
总结:
1:在数据源的级联查询时,用Presto写SQL语句进行查询;
2:在进行简单的数据查询时,可以用HQL进行建表,查询,关联等;
3:当数据量较大时,可用SparkSQL进行建表,查询,关联等;