当前位置: 开发笔记 > 前端 > 正文

CDH中ApacheKylin使用spark引擎构建Cube

作者：zzzzzzzzssss | 来源：互联网 | 2022-12-14 12:10

简介Kylinv2.0引入了Spark引擎，可以在构建Cube步骤中替换MapReduce，目前还是beta版本，以下是配置步骤。

简介

Kylin v2.0引入了Spark引擎，可以在构建Cube步骤中替换MapReduce，目前还是beta版本，以下是配置步骤。

配置步骤

1.在kylin的安装目录下，新建目录hadoop_conf

mkdir $KYLIN_HOME/hadoop_conf

2.将core-site.xml，hdfs-site.xml,hbase-site.xml,hive-site.xml,yarn-site.xml 5个配置文件放入刚才建立的目录。

（如果使用的是Apache的Hadoop，hbase，hive等，去配置文件目录复制或者建立软连接，我使用的是CDH管理集群，那么配置文件就在/etc/hadoop/conf,/etc/hive/conf,/etc/hbase/conf路径下，直接复制过去）

cp /etc/hadoop/conf/hdfs-site.xml $KYLIN_HOME/hadoop_conf

cp /etc/hadoop/conf/yarn-site.xml $KYLIN_HOME/hadoop_conf

cp /etc/hadoop/conf/core-site.xml $KYLIN_HOME/hadoop_conf

cp /etc/hbase/conf/hdfs-site.xml $KYLIN_HOME/hadoop_conf

cp /etc/hive/conf/hdfs-site.xml $KYLIN_HOME/hadoop_conf

3.修改kylin.properties，添加以下配置（这里写 hadoop-conf的全路径，路径根据自己hadoo_conf目录所在位置决定）

kylin.env.hadoop-conf-dir=/opt/apache-kylin-2.1.0-bin-cdh57/hadoop_conf

4.重启kylin

bin/kylin.sh stop

bin/kylin.sh start

注：1.如果直接使用bin/kylin.sh restart重启，有可能配置会不生效，我就遇到了，用上面的方式重启就没问题

2.在kylin的web页面上，有system选项卡，里面有reload config，本来我以为修改配置文件后可以点击此按钮，不用重启，但是实验证明这样配置也无法生效。所以保险的方法就是按照上面的方式重启。

5.下面是官方，关于配置spark引擎的文档，给出链接以便查阅

http://kylin.apache.org/docs20/tutorial/cube_spark.html

推荐阅读

html
流处理中的计数挑战与解决方案

本文探讨了在流处理中进行计数的各种技术和挑战，并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性，还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]

蜡笔小新 2024-11-20 13:50:01
html
深入解析Hadoop的核心组件与工作原理

本文详细介绍了Hadoop的三大核心组件：分布式文件系统HDFS、资源管理器YARN和分布式计算框架MapReduce。通过分析这些组件的工作机制，帮助读者更好地理解Hadoop的架构及其在大数据处理中的应用。 ... [详细]

蜡笔小新 2024-12-19 17:17:51
html
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38
html
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
html
HBase运维工具全解析

本文深入探讨了HBase常用的运维工具，详细介绍了每种工具的功能、使用场景及操作示例。对于HBase的开发人员和运维工程师来说，这些工具是日常管理和故障排查的重要手段。 ... [详细]

蜡笔小新 2024-12-24 17:00:59
上传
Flink 与 YARN 的集成

本文详细介绍了 Flink 和 YARN 的交互机制。YARN 是 Hadoop 生态系统中的资源管理组件，类似于 Spark on YARN 的配置方式。我们将基于官方文档，深入探讨如何在 YARN 上部署和运行 Flink 任务。 ... [详细]

蜡笔小新 2024-12-24 11:15:38
上传
深入解析Spark核心架构与部署策略

本文详细探讨了Spark的核心架构，包括其运行机制、任务调度和内存管理等方面，以及四种主要的部署模式：Standalone、Apache Mesos、Hadoop YARN和Kubernetes。通过本文，读者可以深入了解Spark的工作原理及其在不同环境下的部署方式。 ... [详细]

蜡笔小新 2024-12-14 20:02:45
上传
深入浅出：Hadoop架构详解

Hadoop作为大数据处理的核心技术，包含了一系列组件如HDFS（分布式文件系统）、YARN（资源管理框架）和MapReduce（并行计算模型）。本文将通过实例解析Hadoop的工作原理及其优势。 ... [详细]

蜡笔小新 2024-11-26 13:26:40
上传
Hadoop MapReduce 实战案例：手机流量使用统计分析

本文通过一个具体的Hadoop MapReduce案例，详细介绍了如何利用MapReduce框架来统计和分析手机用户的流量使用情况，包括上行和下行流量的计算以及总流量的汇总。 ... [详细]

蜡笔小新 2024-11-23 20:11:23
json
构建用户画像环境：Hive与SparkSQL的高效整合

本文介绍如何通过整合SparkSQL与Hive来构建高效的用户画像环境，提高数据处理速度和查询效率。 ... [详细]

蜡笔小新 2024-11-19 09:44:24
json
离线安装Grafana Cloudera Manager插件并监控CDH集群

本文详细介绍如何离线安装Cloudera Manager (CM) 插件，并通过Grafana监控CDH集群的健康状况和资源使用情况。该插件利用CM提供的API接口进行数据获取和展示。 ... [详细]

蜡笔小新 2024-12-21 17:56:30
上传
Apache Spark 基础操作指南

本文详细介绍如何使用 Apache Spark 执行基本任务，包括启动 Spark Shell、运行示例程序以及编写简单的 WordCount 程序。同时提供了参数配置的注意事项和优化建议。 ... [详细]

蜡笔小新 2024-12-20 18:01:20
html
集成Spark Streaming与Flume：V1.4.1实践指南

本文详细介绍了如何配置Apache Flume与Spark Streaming，实现高效的数据传输。文中提供了两种集成方案，旨在帮助用户根据具体需求选择最合适的配置方法。 ... [详细]

蜡笔小新 2024-12-13 15:12:31
html
全面解读Apache Flink的核心架构与优势

Apache Flink作为大数据处理领域的新兴力量，凭借其独特的流处理能力和高效的批处理性能，迅速获得了广泛的关注。本文旨在深入探讨Flink的关键技术特点及其应用场景，为大数据处理提供新的视角。 ... [详细]

蜡笔小新 2024-12-01 10:03:17
html
深入理解Spark 2.2.0集群模式

本文详细介绍了Apache Spark 2.2.0版本中集群模式的基本概念和工作流程，包括如何通过集群管理器分配资源，以及Spark应用程序在集群中的运行机制。链接：http://spark.apache.org/docs/2.2.0/cluster-overview.html ... [详细]

蜡笔小新 2024-11-24 08:56:47

zzzzzzzzssss

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章