热门标签 | HotTags
当前位置:  开发笔记 > 前端 > 正文

CDH中ApacheKylin使用spark引擎构建Cube

简介Kylinv2.0引入了Spark引擎,可以在构建Cube步骤中替换MapReduce,目前还是beta版本,以下是配置步骤。
简介

    Kylin v2.0引入了Spark引擎,可以在构建Cube步骤中替换MapReduce,目前还是beta版本,以下是配置步骤。

配置步骤

    1.在kylin的安装目录下,新建目录hadoop_conf
          
  mkdir  $KYLIN_HOME/hadoop_conf
    
    2.将core-site.xml,hdfs-site.xml,hbase-site.xml,hive-site.xml,yarn-site.xml 5个配置文件放入刚才建立的目录。
     (如果使用的是Apache的Hadoop,hbase,hive等,去配置文件目录复制或者建立软连接,我使用的是CDH管理集群,那么配置文件 就在/etc/hadoop/conf,/etc/hive/conf,/etc/hbase/conf路径下,直接复制过去)
    cp /etc/hadoop/conf/hdfs-site.xml    $KYLIN_HOME/hadoop_conf
    cp /etc/hadoop/conf/yarn-site.xml    $KYLIN_HOME/hadoop_conf
    cp /etc/hadoop/conf/core-site.xml    $KYLIN_HOME/hadoop_conf
    cp /etc/hbase/conf/hdfs-site.xml    $KYLIN_HOME/hadoop_conf
    cp /etc/hive/conf/hdfs-site.xml    $KYLIN_HOME/hadoop_conf
        
    3.修改kylin.properties,添加以下配置(这里写 hadoop-conf的全路径,路径根据自己hadoo_conf目录所在位置决定
    kylin.env.hadoop-conf-dir=/opt/apache-kylin-2.1.0-bin-cdh57/hadoop_conf

            4.重启kylin
     
   bin/kylin.sh  stop
   bin/kylin.sh  start
        注:1.如果直接使用bin/kylin.sh restart重启,有可能配置会不生效,我就遇到了,用上面的方式重启就没问题
               2.在kylin的web页面上,有system选项卡,里面有reload   config,本来我以为修改配置文件后可以点击此按钮,不用重启,但是实验证明这样配置也无法生效。所以保险的方法就是按照上面的方式重启。
    
    5.下面是官方,关于配置spark引擎的文档,给出链接以便查阅
                 http://kylin.apache.org/docs20/tutorial/cube_spark.html

推荐阅读
  • 流处理中的计数挑战与解决方案
    本文探讨了在流处理中进行计数的各种技术和挑战,并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性,还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]
  • 深入解析Hadoop的核心组件与工作原理
    本文详细介绍了Hadoop的三大核心组件:分布式文件系统HDFS、资源管理器YARN和分布式计算框架MapReduce。通过分析这些组件的工作机制,帮助读者更好地理解Hadoop的架构及其在大数据处理中的应用。 ... [详细]
  • Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成,其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法,并详细介绍了 MapReduce 日志管理的最佳实践,旨在帮助用户更好地理解和优化日志处理流程,提高系统运维效率。 ... [详细]
  • Hadoop入门与核心组件详解
    本文详细介绍了Hadoop的基础知识及其核心组件,包括HDFS、MapReduce和YARN。通过本文,读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]
  • HBase运维工具全解析
    本文深入探讨了HBase常用的运维工具,详细介绍了每种工具的功能、使用场景及操作示例。对于HBase的开发人员和运维工程师来说,这些工具是日常管理和故障排查的重要手段。 ... [详细]
  • 本文详细介绍了 Flink 和 YARN 的交互机制。YARN 是 Hadoop 生态系统中的资源管理组件,类似于 Spark on YARN 的配置方式。我们将基于官方文档,深入探讨如何在 YARN 上部署和运行 Flink 任务。 ... [详细]
  • 深入解析Spark核心架构与部署策略
    本文详细探讨了Spark的核心架构,包括其运行机制、任务调度和内存管理等方面,以及四种主要的部署模式:Standalone、Apache Mesos、Hadoop YARN和Kubernetes。通过本文,读者可以深入了解Spark的工作原理及其在不同环境下的部署方式。 ... [详细]
  • 深入浅出:Hadoop架构详解
    Hadoop作为大数据处理的核心技术,包含了一系列组件如HDFS(分布式文件系统)、YARN(资源管理框架)和MapReduce(并行计算模型)。本文将通过实例解析Hadoop的工作原理及其优势。 ... [详细]
  • Hadoop MapReduce 实战案例:手机流量使用统计分析
    本文通过一个具体的Hadoop MapReduce案例,详细介绍了如何利用MapReduce框架来统计和分析手机用户的流量使用情况,包括上行和下行流量的计算以及总流量的汇总。 ... [详细]
  • 本文介绍如何通过整合SparkSQL与Hive来构建高效的用户画像环境,提高数据处理速度和查询效率。 ... [详细]
  • 离线安装Grafana Cloudera Manager插件并监控CDH集群
    本文详细介绍如何离线安装Cloudera Manager (CM) 插件,并通过Grafana监控CDH集群的健康状况和资源使用情况。该插件利用CM提供的API接口进行数据获取和展示。 ... [详细]
  • 本文详细介绍如何使用 Apache Spark 执行基本任务,包括启动 Spark Shell、运行示例程序以及编写简单的 WordCount 程序。同时提供了参数配置的注意事项和优化建议。 ... [详细]
  • 本文详细介绍了如何配置Apache Flume与Spark Streaming,实现高效的数据传输。文中提供了两种集成方案,旨在帮助用户根据具体需求选择最合适的配置方法。 ... [详细]
  • 全面解读Apache Flink的核心架构与优势
    Apache Flink作为大数据处理领域的新兴力量,凭借其独特的流处理能力和高效的批处理性能,迅速获得了广泛的关注。本文旨在深入探讨Flink的关键技术特点及其应用场景,为大数据处理提供新的视角。 ... [详细]
  • 本文详细介绍了Apache Spark 2.2.0版本中集群模式的基本概念和工作流程,包括如何通过集群管理器分配资源,以及Spark应用程序在集群中的运行机制。链接:http://spark.apache.org/docs/2.2.0/cluster-overview.html ... [详细]
author-avatar
zzzzzzzzssss
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有