大数据和开源查询和框架有哪些

作者：手机用户2602898385 | 来源：互联网 | 2023-05-19 11:08

本篇内容主要讲解“大数据和开源查询和框架有哪些”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学

本篇内容主要讲解“大数据和开源查询和框架有哪些”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“大数据和开源查询和框架有哪些”吧!

阿帕奇Hive

Apache Hive是基于Hadoop生态系统的旗舰数据仓库工具。它不仅将结构化的数据文件映射到数据库表，而且还提供SQL(HQL)查询功能(例如SQL语句)并将SQL语句转换为MapReduce任务以供执行。

它是由Facebook开发的，于2008年进入Apache孵化器，并于2010年9月成为优秀Apache项目。背后的原理是利用熟悉的SQL模型来处理HDFS(Hadoop)上的数据。借助Hive，学习成本低，并且可以通过HQL语句快速转换简单的MapReduce统计信息，而无需担心开发其他特殊的MapReduce应用程序。

Hive非常方便地在整个企业范围内对数据仓库进行建模和构建，而Hive SQL模型则可以对数据仓库中的数据进行统计和分析。

但是，Hive的底层被转换为MR，而MR的改组依赖于系统磁盘，因此它只能处理离线分析，这效率相对较低，在开发人员社区中不可接受。Hive通常使用Hive在整个组织中构建数据仓库。

Apache SparkSQL

Apache SparkSQL是主要的Spark组件构建，用于处理结构化数据。Spark SQL于2014年发布，并吸收了Hive-on-Spark项目，该项目现在是使用最广泛的Spark模块。它提供了一个称为DataFrames的可编程抽象数据模型，并被视为分布式SQL查询引擎。

SparkSQL取代了Hive的查询引擎，但也与hive系统兼容。关于Spark RDD API，Spark SQL提供的接口将为Spark提供有关结构化数据和计算的更多信息。SparkSQL最底层是Spark Core，它使您可以轻松地在不同的SQL和API之间切换。

Presto

Presto是一个分布式数据查询引擎，但从不存储数据本身Presto将提供对多个数据源的访问，并支持跨不同数据源的级联查询。它是一个分布式SQL交互式查询引擎，它也在2012年由Facebook开发，并于2013年开源。

Presto是一种OLAP工具，适用于海量数据的复杂分析，但不适用于OLTP方案。Presto仅提供计算和分析功能，而不能用作数据库系统。

就Hive而言，Presto是一种低延迟，高并发性的内存计算引擎。它的执行效率比Hive高得多。它的MPP(大规模并行处理)模型可以处理PB级数据。Presto的原理只是将一些数据放入内存中进行计算，完成后将其取出，然后再次处理其他一些数据，例如循环和类似于管道处理模式。

Apache Kylin

Apache Kylin是针对Hadoop生态系统的开源分布式分析引擎。其针对Hadoop / Spark的SQL查询接口和OLAP功能广泛支持超大规模数据。它使用基于多维数据集的预计算技术，该技术可快速高效地处理大数据SQL查询。Kylin由eBay开发，并于2014年11月进入Apache孵化器。

凯林(Kylin)的出现是为了解决分析需要的TB数据。它可以在蜂巢中预先计算数据，并使用Hadoop的MapReduce框架实施。它可以在几秒钟内查询大量的Hive表。

麒麟最关键的两个过程是

多维数据集的预计算过程，并将SQL查询转换为多维数据集。
此外，在查询时要预先计算汇总结果并同时获得查询结果，避免直接扫描。

Apache Impala

与其他框架相比，它是用于大数据的实时交互式SQL查询引擎。Apache Impala是由Cloudera开发的SQL MPP查询工具，受Google Dremel的启发，后来于2012年10月开源，并于2017年11月28日成为优秀项目。

Impala使用完全开放且不同的形式集成到Hadoop生态系统中，从而使其使用者可以使用SQL来处理Hadoop生态系统中的大量数据。

目前，它支持多种类型的存储选项，例如：

Apache Kudu
亚马逊S3
微软ADLS
本地存储

它诞生时仅支持对大量HDFS数据的交互式分析。它的灵活性和领先的分析数据库性能促进了在全球企业中的大量部署。

Ir为企业业务提供BI和交互式SQL高效分析，并允许第三方生态系统快速增长。

Apache Druid

Apache Druid是用于实时数据分析的开源工具，旨在快速处理大规模数据。它的分布式实时分析通过快速查询和大规模数据集解决了复杂的任务。

2018年2月28日进入Apache孵化器。它提供了以交互方式访问数据的功能。进入Druid系统后，可以实时摄取数据并立即进行验证。输入的数据a几乎是不可变的。通常是基于时间顺序的事实事件。

Elastic Search

它是一个分布式，可伸缩的实时搜索和分析引擎。它由Shay Banon于2010年建造，后来开源。它具有全文搜索引擎的功能，并具有RESTful Web界面的分布式多用户支持。

ES的工作原理主要分为以下几个步骤。

首先，用户将数据输入ES数据库
然后利用分词控制器对相应的句子进行分段
存储细分结果的权重。

当用户搜索特定数据时，将根据权重对结果进行排名和评分，然后返回给用户。ES是完全用Java开发的，并且是当前比较受欢迎的企业搜索引擎。

它稳定，可靠，快速且易于安装，专为在云计算环境中使用而设计。

官方客户提供以下语言版本

Java
.NET(C#)
PHP
Python
Apache Groovy
Ruby

Apache HAWQ

Apache HAWQ(带有查询的Hadoop)是Hadoop本机并行SQL分析引擎。它是Pivotal在2012年推出的具有商业许可的高性能SQL引擎。

它是Hadoop的本机SQL查询引擎，结合了MPP数据库的技术优势，巨大的可扩展性和Hadoop的便利性。

经验证，HAWQ的OLAP性能是Hive和Impala的4倍以上。它非常适合在Hadoop平台上快速构建数据仓库系统。

HAWQ具有以下功能，例如

大规模并行处理
完全的SQL兼容性，
支持存储过程和事务。

它也可以轻松地与其他开源数据挖掘库(如MADLib)集成。

Apache Lucene

Apache Lucene是基于Java的开源全文搜索引擎工具箱。它是功能比较强大且被广泛采用的搜索引擎。Lucene不是完整的搜索引擎，而是全文搜索引擎体系结构，使用此原型，您可以制造其他搜索引擎产品。它是一种全文本搜索引擎体系结构，可提供完整的索引创建和查询索引以及文本分析引擎。

Lucene的目标是为软件开发人员提供一个简单易用的工具包，以促进在所需系统中实现全文搜索功能，甚至基于此原型构建完整的全文搜索引擎。它提供了一个简单但功能强大的应用程序编程接口(API)，可以进行全文索引和搜索。

Apache Solr

Apache Solr是一个基于Apache Lucene架构的开源企业搜索平台。它于2004年发布，于2007年1月17日成为Apache优秀项目。

它的高可靠性，可伸缩性和容错能力提供分布式索引，复制和负载平衡查询，自动故障转移，恢复和集中式配置。它是一个完全用Java语言编写的独立全文搜索服务器，并在Servlet容器环境(Apache Tomcat或Jetty)中运行。

Solr依靠Lucene Java搜索库进行全文索引和搜索，并使用HTTP / XML和JSON API执行类似REST的操作。Solr强大的外部配置功能使其无需使用Java语言即可进行调整，以适合多种类型的软件。Solr支持许多大型Internet企业站点的搜索和导航功能。

Apache Phoenix

Apache Phoenix是基于HBase的SQL类型框架。Apache Phoenix JDBC API取代了传统的HBase客户端API的需求，它还创建表，插入数据和查询HBase数据。基本上，这是Java中间层，允许开发人员使用HBase中的数据表，例如关系数据库(例如，通过Phoenix的MySQL)。

Phoenix会将SQL查询语句编译为一系列Scan操作，并生成JDBC结果集并将其返回给服务使用者。它使您能够使用基础层，例如HBase协处理器和过滤器。无论数据响应时间以秒为单位，小规模查询都会以毫秒为单位进行响应。

到此，相信大家对“大数据和开源查询和框架有哪些”有了更深的了解，不妨来实际操作一番吧！这里是编程笔记网站，更多相关内容可以进入相关频道进行查询，关注我们，继续学习！

推荐阅读

spark
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
int
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
search
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
schema
《Spark核心技术与高级应用》——1.2节Spark的重要扩展

本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章，第1.2节Spark的重要扩展，作者于俊向海代其锋马海平，更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]

蜡笔小新 2023-10-16 18:07:56
schema
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
java
Java开发实战讲解！字节跳动三场技术面+HR面

二、回顾整理阿里面试题基本就这样了，还有一些零星的问题想不起来了，答案也整理出来了。自我介绍JVM如何加载一个类的过程，双亲委派模型中有 ... [详细]

蜡笔小新 2023-10-15 19:48:25
config
Hadoop学习笔记1：伪分布式环境搭建

在搭建Hadoop环境之前，请先阅读如下博文，把搭建Hadoop环境之前的准备工作做好，博文如下： 1、CentOS6.7下安装JDK,地址：http:b ... [详细]

蜡笔小新 2023-10-16 16:04:04
config
Zookeeper详解应用程序（七）

Zookeeper为分布式环境提供灵活的协调基础架构。ZooKeeper框架支持许多当今最好的工业应用程序。我们将在本章中讨论ZooKeeper的一些最显着的应用。雅虎ZooKee ... [详细]

蜡笔小新 2023-10-16 08:30:29
java
Hadoop——Hive简介和环境配置

一、Hive的简介和配置1.简介Hive是构建在Hadoop之上的数据操作平台lHive是一个SQL解析引擎，它将SQL转译成MapReduce作业，并 ... [详细]

蜡笔小新 2023-10-14 16:22:56
java
MapReduce编程(一) Intellij Idea配置MapReduce编程环境

介绍怎样在IntellijIdea中通过创建mavenproject配置MapReduce的编程环境。一、软件环境我使用的软件版本号例如以下:IntellijIdea2017.1M ... [详细]

蜡笔小新 2023-10-13 16:56:06
post
揭秘双11丝滑般剁手之路背后的网络监控技术

概要：刚刚结束的2020天猫双11中，MaxCompute交互式分析（下称Hologres）实时计算Flink搭建的云原生实 ... [详细]

蜡笔小新 2023-10-09 19:54:08
java
kylin怎样安装使用

这篇文章给大家分享的是有关kylin怎样安装使用的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。环境我选的kylin版 ... [详细]

蜡笔小新 2023-09-25 18:01:32
java
Maven构建Hadoop,

Maven构建Hadoop工程阅读目录序Maven安装构建示例下载系列索引序　　上一篇，我们编写了第一个MapReduce，并且成功的运行了Job，Hadoop1.x是通过ant ... [详细]

蜡笔小新 2023-10-17 16:11:18
java
开发笔记:大数据之Hadoop(MapReduce)：GroupingComparator分组案例实操

篇首语：本文由编程笔记#小编为大家整理，主要介绍了大数据之Hadoop(MapReduce)：GroupingComparator分组案例实操相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-15 14:29:15
int
Hadoop之Yarn

目录1Hadoop1.x和Hadoop2.x架构区别2Yarn概述3Yarn基本架构4Yarn工作机制5作业提交全过程6资源调度器7任务的推测执行1Hadoop1.x和Hadoo ... [详细]

蜡笔小新 2023-10-15 12:16:30

手机用户2602898385

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章