热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

记一次ApacheCarbondataPR的经历

前言前段时间有幸接触到ApacheCarbondata,试用过程中发现了一个小小的问题,并且又很快的定位到了问题。然后在社区群里反映了下,负责人问愿不愿意提个JIRA,PR,然后我

 前言

        前段时间有幸接触到Apache Carbondata,试用过程中发现了一个小小的问题,并且又很快的定位到了问题。然后在社区群里反映了下,负责人问愿不愿意提个JIRA,PR,然后我在没有任何开源项目PR过的情况下竟然欣然答应了。(可能跟ZB心有关吧o(╥﹏╥)o)然后来说说这段美妙而又酸爽的经历吧【学习到了很多】!

 

简介

        CarbonData是首个由中国公司发起并捐献给Apache基金会的开源项目,于2017年4月正式成为Apache***项目,由华为开源并支持Hadoop的高性能列式存储文件格式,其目的是提供一种统一的数据存储方案,以一份数据同时支持大数据分析的多种应用场景,All In One,并通过多级索引、字典编码、列式存储等特性提升 I/O 扫描和计算性能,实现百亿数据级秒级响应。目前最新版是1.5.1,集成了spark 2.1.0,2.2.1,2.3.2和Hadoop2.7.2,如果是其它版本,则需要自己编译源码!

 

问题

      先抛出来试用过程中出现的问题。carbondata版本:1.5.0,spark 2.3.2     模式:本地 spark-shell

       例子:http://carbondata.apache.org/quick-start-guide.html

          

 

         

 

        问题描述:   

        上面是提交JIRA的时候提交的bug再现流程,总的就是在创建 carbondata 的时候,getOrCreateCarbonSession方法默认有两个参数 storePath(存储table数据) metaStorePath(t存储able元数据),不传的话会默认创建,但可能好多人第一次使用的时候不清楚,然后会根据quick start 传一个空字符串,造成的结果就是每一步都显示成功,但最终carbondata表结果查询却是空。通过查看源码,在carbondata\integration\spark2模块中发现 getOrCreateCarbonSession  方法的storePath,metaStorePath参数都只是简单的 null 的判断,所以造成了本地创建storePath存储在空字符串中,导致最终查询不出来结果。

       解决方案:

       使用 StringUtils.isNotBlank 替代原来的简单 null 判断。

流程

      1) 首先注册Apache JIRA 账号(没有的话),注意在这一定要描述清楚你的问题的是什么,属于什么类型(优先级不一样)  例子:https://issues.apache.org/jira/projects/CARBONDATA/issues/CARBONDATA-3119?filter=allopenissues

       2)fork ,https://github.com/apache/carbondata。

             

 

     

    3)a. git config:    

        $ git config --global user.email "xxxxx@163.com"     --输入自己的git邮箱
        $ git config --global user.name "xxxxx"                     --输入自己的git name

 

       b. git clone

       $ git clone https://github.com/apache/carbondata.git   --把源码下载到自己置顶的本地目录

 

      c.

      git remote add XXXX https://github.com/XXXX/carbondata.git   --跟fork下来的carbondata git仓库关联起来

 

     d.

     git fetch --all

     git checkout -b  master   --直接使用master分支(当然也可以创建自己的分支)

   

     e.

     git add 修改的文件

     git commit -m "本次commit说明"

     git rebase -i  分支名字                             -- 这个命令是用来修改 已提交的 commit  的说明的。就是开源项目都有自己严格的规范,不合格需要重新提交commit说明

 

   f:

    git push 远程主机名 分支名     --提交到远程仓库  本地分支名和远程分支名一致

  

  当然远程提交之前确保测试用例是通过的,然后就可以直接在fork下来的仓库中 点击 Pull request了,一般这的说明都会有严格的模板例子,所以不要擅自改格式。提交了PR之后,就注意邮件消息等回复,需要修改或者不规范的地方需要回工,知道最终被merge。然后恭喜你就成为一名Apache carbondata 的contributors之一了。 那么楼主我自己很荣幸也是拿到了奖励的华为 小天鹅 蓝牙音箱,最主要的是荣誉感满满(虽然是小小的一次修改,但毕竟是第一次嘛,第一次还是很值得留念的博友们)

 

 项目编译过程中遇到的问题:

  1)在windows编译的的时候 maven 命令:

clean -DskipTests -Pbuild-with-format -Pspark-2.3 -Pwindows install

 

 

  2)首先需要本地安装 thrift 0.93,并配置环境变量。  根据 thrift --version查看是否安装成功

  3)import scala 包是有分组和组内排序的,注释也有严格的格式。 不然编译的时候会报 代码style不对,编译通不过的。

 

Apache carbondata官方网站:   http://carbondata.apache.org/

 

 

 

 

      

 

 

      

posted on 2018-12-17 11:38 独孤败天1 阅读(...) 评论(...) 编辑 收藏

推荐阅读
  • 本文详细介绍了 Apache ZooKeeper 的 FileTxnLog 类中的 setPreallocSize 方法,并提供了多个实际应用中的代码示例。通过这些示例,读者可以更好地理解如何在不同场景下合理设置日志文件的预分配大小。 ... [详细]
  • 本文详细介绍了如何在 Android 中使用值动画(ValueAnimator)来动态调整 ImageView 的高度,并探讨了相关的关键属性和方法,包括图片填充后的高度、原始图片高度、动画变化因子以及布局重置等。 ... [详细]
  • CentOS 6.8 上安装 Oracle 10.2.0.1 的常见问题及解决方案
    本文记录了在 CentOS 6.8 系统上安装 Oracle 10.2.0.1 数据库时遇到的问题及解决方法,包括依赖库缺失、操作系统版本不兼容、用户权限不足等问题。 ... [详细]
  • 尾花|花萼_相关性Correlations 皮尔逊相关系数(pearson)和斯皮尔曼等级相关系数(spearman)
    尾花|花萼_相关性Correlations 皮尔逊相关系数(pearson)和斯皮尔曼等级相关系数(spearman) ... [详细]
  • MapReduce原理是怎么剖析的
    这期内容当中小编将会给大家带来有关MapReduce原理是怎么剖析的,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。1 ... [详细]
  • 深入解析Spark核心架构与部署策略
    本文详细探讨了Spark的核心架构,包括其运行机制、任务调度和内存管理等方面,以及四种主要的部署模式:Standalone、Apache Mesos、Hadoop YARN和Kubernetes。通过本文,读者可以深入了解Spark的工作原理及其在不同环境下的部署方式。 ... [详细]
  • 本文详细探讨了如何在 SparkSQL 中创建 DataFrame,涵盖了从基本概念到具体实践的各种方法。作为持续学习的一部分,本文将持续更新以提供最新信息。 ... [详细]
  • 本文探讨了图像标签的多种分类场景及其在以图搜图技术中的应用,涵盖了从基础理论到实际项目实施的全面解析。 ... [详细]
  • 大数据时代的机器学习:人工特征工程与线性模型的局限
    本文探讨了在大数据背景下,人工特征工程与线性模型的应用及其局限性。随着数据量的激增和技术的进步,传统的特征工程方法面临挑战,文章提出了未来发展的可能方向。 ... [详细]
  • 本文详细探讨了Scala中单例模式的实现方式,通过关键字object来模拟其他语言中的静态成员功能,同时介绍了伴生对象的概念及其应用场景。 ... [详细]
  • 全面解读Apache Flink的核心架构与优势
    Apache Flink作为大数据处理领域的新兴力量,凭借其独特的流处理能力和高效的批处理性能,迅速获得了广泛的关注。本文旨在深入探讨Flink的关键技术特点及其应用场景,为大数据处理提供新的视角。 ... [详细]
  • 本文探讨了在使用Apache Flink向Kafka发送数据过程中遇到的事务频繁失败问题,并提供了详细的解决方案,包括必要的配置调整和最佳实践。 ... [详细]
  • 时序数据是指按时间顺序排列的数据集。通过时间轴上的数据点连接,可以构建多维度报表,揭示数据的趋势、规律及异常情况。 ... [详细]
  • 本文详细介绍了如何配置Apache Flume与Spark Streaming,实现高效的数据传输。文中提供了两种集成方案,旨在帮助用户根据具体需求选择最合适的配置方法。 ... [详细]
  • 探讨毕业论文撰写的策略与方法
    本文基于作者的个人经验和学术背景,详细探讨了撰写毕业论文的过程,包括选题、研究方向的选择、资料收集、论文结构的构建以及最终的写作和修改过程。文章旨在为即将面临毕业论文撰写的本科生和研究生提供实用的建议。 ... [详细]
author-avatar
骑单车追梦的小男孩
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有