热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

关于sparkhbase在pyspark上的那些破事

背景:项目需要读取Hbase并把计算结果保存在Hbase里供其他接口获取。算法由pyspark实现。原先Hbase的Thrift接口三天两头宕,而且性能低下。充满糟点的backgr

背景:

项目需要读取Hbase并把计算结果保存在Hbase里供其他接口获取。

算法由pyspark实现。

原先Hbase的Thrift接口三天两头宕,而且性能低下。

充满糟点的background结束

结论:

先说结论,想节约时间的可以跳过后面的”充满糟点过程”部分。

前提:

1. 你要有个可以通repo的spark集群,或通过某种手段可以通repo(自建内网 http://repo.hortonworks.com/content/groups/public/ 的clone,或proxy)

2. spark-shell/spark-submit部分:

spark-submit \
--conf "spark.driver.extraJavaOptiOns=-Dhttp.proxyHost=<代理服务器IP> \
-Dhttp.proxyPort=<代理服务器端口> -Dhttps.proxyHost=<代理服务器IP> \
-Dhttps.proxyPort=<代理服务器端口>"\
--packages com.hortonworks:shc-core:1.1.1-2.1-s_2.11 \
--repositories http://repo.hortonworks.com/content/groups/public/ \
--files files:////hbase-site.xml script.py arg1, arg2

相关的lib依赖会自动下载, 如果实在没有手段通外网, 可以考虑先用此命令在通外网的机器上产生ivy2的cache,然后复制到master服务器上(client只需要master有相关lib即可)。

配置及注意点:

此方法未在Spark Yarn/Yarn Client 模式下测试,有童鞋搞定了且愿意分享的话可以补充。

代理只能HTTP或HTTPS协议(自己用polipo转一个就可以,不赘述)。

Local及Standalone模式经测试无问题。

由于用的是shc-core,因此保险起见推荐将hbase-site.xml复制进$SPARK_HOME/conf, 之前直接-files里提交文件,结果查库的时候连接失败了(emmmm)

用pyspark DataFrame操作Hbase:

和JAVA/Scala版的shc一样,先要定义catalog

catalog = ''.join("""{
"table":{"namespace":"test", "name":"test_table"},
"rowkey":"key",
"columns":{
"col0":{"cf":"rowkey", "col":"key", "type":"string"},
"col1":{"cf":"result", "col":"class", "type":"string"}
}
}""".split())

造一个dataframe来测试写入:

data_source_format = 'org.apache.spark.sql.execution.datasources.hbase'
df = sc.parallelize([('a', '1.0'), ('b', '2.0')]).toDF(schema=['col0', 'col1'])
df.show()
df.write.options(catalog=catalog,newTable="5").format(data_source_format).save()

注: 推荐写入时加上&#8221;newTable&#8221;选项,否则当表不存在时会报如下错误,也就是提醒你新表至少要有3个regions:

Py4JJavaError: An error occurred while calling o510.save.:
org.apache.spark.sql.execution.datasources.hbase.InvalidRegionNumberException:
Number of regions specified for new table must be greater than 3.

再读取数据:

df_read = spark.read.options(catalog=catalog).format(data_source_format).load()
df_read.show()

注: 读取的时候可以在load()之后加上各种select where 语句, 会自动转换为各种不人性的scan filters,并延迟加载到读取时执行。注意,因为spark是lazy执行的,如果where特别复杂的话推荐先load().cache()完之后接一句dataframe.count()再进行where处理,否则语句会被转换为各种filter,并在Hbase中处理,value filter的速度有目共睹…当然Hbase集群够强也可以无视。

充满糟点的过程:

在Thrift接口N**N次 OOM 之后,终于忍无可忍的想直接用原生spark-hbase读写数据。

OK,先去Hbase官网上找了reference,关于spark的部分只有Java和Scala有木有?spark-hbase项目不知死活有木有?最可气的是reference上那个版本号(带beta)全宇宙的repo都找不到有木有?github只有个空页面有木有?
虽然是开源项目,好歹reference也稍微上点心好不好-_-||。
(未完待续)


推荐阅读
  • Spring – Bean Life Cycle
    Spring – Bean Life Cycle ... [详细]
  • 网站访问全流程解析
    本文详细介绍了从用户在浏览器中输入一个域名(如www.yy.com)到页面完全展示的整个过程,包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]
  • 原文网址:https:www.cnblogs.comysoceanp7476379.html目录1、AOP什么?2、需求3、解决办法1:使用静态代理4 ... [详细]
  • 本文介绍了一种自定义的Android圆形进度条视图,支持在进度条上显示数字,并在圆心位置展示文字内容。通过自定义绘图和组件组合的方式实现,详细展示了自定义View的开发流程和关键技术点。示例代码和效果展示将在文章末尾提供。 ... [详细]
  • 为了在Hadoop 2.7.2中实现对Snappy压缩和解压功能的原生支持,本文详细介绍了如何重新编译Hadoop源代码,并优化其Native编译过程。通过这一优化,可以显著提升数据处理的效率和性能。此外,还探讨了编译过程中可能遇到的问题及其解决方案,为用户提供了一套完整的操作指南。 ... [详细]
  • 本文详细探讨了OpenCV中人脸检测算法的实现原理与代码结构。通过分析核心函数和关键步骤,揭示了OpenCV如何高效地进行人脸检测。文章不仅提供了代码示例,还深入解释了算法背后的数学模型和优化技巧,为开发者提供了全面的理解和实用的参考。 ... [详细]
  • Spring Boot 中配置全局文件上传路径并实现文件上传功能
    本文介绍如何在 Spring Boot 项目中配置全局文件上传路径,并通过读取配置项实现文件上传功能。通过这种方式,可以更好地管理和维护文件路径。 ... [详细]
  • DVWA学习笔记系列:深入理解CSRF攻击机制
    DVWA学习笔记系列:深入理解CSRF攻击机制 ... [详细]
  • 深入解析Struts、Spring与Hibernate三大框架的面试要点与技巧 ... [详细]
  • Android 构建基础流程详解
    Android 构建基础流程详解 ... [详细]
  • 本文介绍了如何利用Struts1框架构建一个简易的四则运算计算器。通过采用DispatchAction来处理不同类型的计算请求,并使用动态Form来优化开发流程,确保代码的简洁性和可维护性。同时,系统提供了用户友好的错误提示,以增强用户体验。 ... [详细]
  • 深入探索HTTP协议的学习与实践
    在初次访问某个网站时,由于本地没有缓存,服务器会返回一个200状态码的响应,并在响应头中设置Etag和Last-Modified等缓存控制字段。这些字段用于后续请求时验证资源是否已更新,从而提高页面加载速度和减少带宽消耗。本文将深入探讨HTTP缓存机制及其在实际应用中的优化策略,帮助读者更好地理解和运用HTTP协议。 ... [详细]
  • 本文详细介绍了在Linux系统上编译安装MySQL 5.5源码的步骤。首先,通过Yum安装必要的依赖软件包,如GCC、GCC-C++等,确保编译环境的完备。接着,下载并解压MySQL 5.5的源码包,配置编译选项,进行编译和安装。最后,完成安装后,进行基本的配置和启动测试,确保MySQL服务正常运行。 ... [详细]
  • 在探讨Hibernate框架的高级特性时,缓存机制和懒加载策略是提升数据操作效率的关键要素。缓存策略能够显著减少数据库访问次数,从而提高应用性能,特别是在处理频繁访问的数据时。Hibernate提供了多层次的缓存支持,包括一级缓存和二级缓存,以满足不同场景下的需求。懒加载策略则通过按需加载关联对象,进一步优化了资源利用和响应时间。本文将深入分析这些机制的实现原理及其最佳实践。 ... [详细]
  • 本文深入探讨了HTTP头部中的Expires与Cache-Control字段及其缓存机制。Cache-Control字段主要用于控制HTTP缓存行为,其在HTTP/1.1中得到了广泛应用,而HTTP/1.0中主要使用Pragma:no-cache来实现类似功能。Expires字段则定义了资源的过期时间,帮助浏览器决定是否从缓存中读取资源。文章详细解析了这两个字段的具体用法、相互关系以及在不同场景下的应用效果,为开发者提供了全面的缓存管理指南。 ... [详细]
author-avatar
风中摇曳一
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有