当前位置: 开发笔记 > 编程语言 > 正文

关于sparkhbase在pyspark上的那些破事

作者：风中摇曳一 | 来源：互联网 | 2023-09-05 12:13

背景:项目需要读取Hbase并把计算结果保存在Hbase里供其他接口获取。算法由pyspark实现。原先Hbase的Thrift接口三天两头宕，而且性能低下。充满糟点的backgr

背景:

项目需要读取Hbase并把计算结果保存在Hbase里供其他接口获取。

算法由pyspark实现。

原先Hbase的Thrift接口三天两头宕，而且性能低下。

充满糟点的background结束

结论：

先说结论，想节约时间的可以跳过后面的&＃8221;充满糟点过程&＃8221;部分。

前提：

1. 你要有个可以通repo的spark集群，或通过某种手段可以通repo（自建内网 http://repo.hortonworks.com/content/groups/public/ 的clone，或proxy）

2. spark-shell/spark-submit部分：

spark-submit \ --conf "spark.driver.extraJavaOptiOns=-Dhttp.proxyHost=<代理服务器IP> \ -Dhttp.proxyPort=<代理服务器端口> -Dhttps.proxyHost=<代理服务器IP> \ -Dhttps.proxyPort=<代理服务器端口>"\ --packages com.hortonworks:shc-core:1.1.1-2.1-s_2.11 \ --repositories http://repo.hortonworks.com/content/groups/public/ \ --files files:////hbase-site.xml script.py arg1, arg2
相关的lib依赖会自动下载, 如果实在没有手段通外网, 可以考虑先用此命令在通外网的机器上产生ivy2的cache,然后复制到master服务器上(client只需要master有相关lib即可)。

配置及注意点:

此方法未在Spark Yarn/Yarn Client 模式下测试，有童鞋搞定了且愿意分享的话可以补充。

代理只能HTTP或HTTPS协议(自己用polipo转一个就可以,不赘述)。

Local及Standalone模式经测试无问题。

由于用的是shc-core，因此保险起见推荐将hbase-site.xml复制进$SPARK_HOME/conf, 之前直接-files里提交文件，结果查库的时候连接失败了（emmmm）

用pyspark DataFrame操作Hbase:

和JAVA/Scala版的shc一样，先要定义catalog

catalog = ''.join("""{ "table":{"namespace":"test", "name":"test_table"}, "rowkey":"key", "columns":{ "col0":{"cf":"rowkey", "col":"key", "type":"string"}, "col1":{"cf":"result", "col":"class", "type":"string"} } }""".split())

造一个dataframe来测试写入：

data_source_format = 'org.apache.spark.sql.execution.datasources.hbase' df = sc.parallelize([('a', '1.0'), ('b', '2.0')]).toDF(schema=['col0', 'col1']) df.show() df.write.options(catalog=catalog,newTable="5").format(data_source_format).save()

注: 推荐写入时加上&＃8221;newTable&＃8221;选项，否则当表不存在时会报如下错误，也就是提醒你新表至少要有3个regions：

Py4JJavaError: An error occurred while calling o510.save.: org.apache.spark.sql.execution.datasources.hbase.InvalidRegionNumberException: Number of regions specified for new table must be greater than 3.

再读取数据:

df_read = spark.read.options(catalog=catalog).format(data_source_format).load() df_read.show()

注: 读取的时候可以在load()之后加上各种select where 语句, 会自动转换为各种不人性的scan filters，并延迟加载到读取时执行。注意，因为spark是lazy执行的，如果where特别复杂的话推荐先load().cache()完之后接一句dataframe.count()再进行where处理，否则语句会被转换为各种filter，并在Hbase中处理，value filter的速度有目共睹…当然Hbase集群够强也可以无视。

充满糟点的过程：

在Thrift接口N**N次 OOM 之后，终于忍无可忍的想直接用原生spark-hbase读写数据。

OK，先去Hbase官网上找了reference，关于spark的部分只有Java和Scala有木有？spark-hbase项目不知死活有木有？最可气的是reference上那个版本号（带beta）全宇宙的repo都找不到有木有？github只有个空页面有木有？
虽然是开源项目，好歹reference也稍微上点心好不好-_-||。
（未完待续）

推荐阅读

default
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
js
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
config
Spring详解（六）AOP

原文网址：https:www.cnblogs.comysoceanp7476379.html目录1、AOP什么？2、需求3、解决办法1:使用静态代理4 ... [详细]

蜡笔小新 2024-11-12 14:40:40
get
自定义 Android 圆形进度条视图，支持显示数字和中心文字

本文介绍了一种自定义的Android圆形进度条视图，支持在进度条上显示数字，并在圆心位置展示文字内容。通过自定义绘图和组件组合的方式实现，详细展示了自定义View的开发流程和关键技术点。示例代码和效果展示将在文章末尾提供。 ... [详细]

蜡笔小新 2024-11-10 13:04:42
config
优化Hadoop 2.7.2源代码以支持Snappy压缩和解压功能的Native编译

为了在Hadoop 2.7.2中实现对Snappy压缩和解压功能的原生支持，本文详细介绍了如何重新编译Hadoop源代码，并优化其Native编译过程。通过这一优化，可以显著提升数据处理的效率和性能。此外，还探讨了编译过程中可能遇到的问题及其解决方案，为用户提供了一套完整的操作指南。 ... [详细]

蜡笔小新 2024-11-09 19:45:36
scala
深入解析OpenCV中的人脸检测算法实现

本文详细探讨了OpenCV中人脸检测算法的实现原理与代码结构。通过分析核心函数和关键步骤，揭示了OpenCV如何高效地进行人脸检测。文章不仅提供了代码示例，还深入解释了算法背后的数学模型和优化技巧，为开发者提供了全面的理解和实用的参考。 ... [详细]

蜡笔小新 2024-11-02 13:37:20
get
Spring Boot 中配置全局文件上传路径并实现文件上传功能

本文介绍如何在 Spring Boot 项目中配置全局文件上传路径，并通过读取配置项实现文件上传功能。通过这种方式，可以更好地管理和维护文件路径。 ... [详细]

蜡笔小新 2024-11-13 11:19:38
get
DVWA学习笔记系列：深入理解CSRF攻击机制

DVWA学习笔记系列：深入理解CSRF攻击机制 ... [详细]

蜡笔小新 2024-11-11 13:19:51
config
深入解析Struts、Spring与Hibernate三大框架的面试要点与技巧

深入解析Struts、Spring与Hibernate三大框架的面试要点与技巧 ... [详细]

蜡笔小新 2024-11-11 13:09:30
config
Android 构建基础流程详解

Android 构建基础流程详解 ... [详细]

蜡笔小新 2024-11-10 15:45:20
config
利用Struts1构建简易计算器：采用DispatchAction处理请求，动态Form优化开发流程，提供用户友好的错误提示

本文介绍了如何利用Struts1框架构建一个简易的四则运算计算器。通过采用DispatchAction来处理不同类型的计算请求，并使用动态Form来优化开发流程，确保代码的简洁性和可维护性。同时，系统提供了用户友好的错误提示，以增强用户体验。 ... [详细]

蜡笔小新 2024-11-09 19:48:22
string
深入探索HTTP协议的学习与实践

在初次访问某个网站时，由于本地没有缓存，服务器会返回一个200状态码的响应，并在响应头中设置Etag和Last-Modified等缓存控制字段。这些字段用于后续请求时验证资源是否已更新，从而提高页面加载速度和减少带宽消耗。本文将深入探讨HTTP缓存机制及其在实际应用中的优化策略，帮助读者更好地理解和运用HTTP协议。 ... [详细]

蜡笔小新 2024-11-09 10:12:07
config
在Linux系统上编译安装MySQL 5.5源码详细指南

本文详细介绍了在Linux系统上编译安装MySQL 5.5源码的步骤。首先，通过Yum安装必要的依赖软件包，如GCC、GCC-C++等，确保编译环境的完备。接着，下载并解压MySQL 5.5的源码包，配置编译选项，进行编译和安装。最后，完成安装后，进行基本的配置和启动测试，确保MySQL服务正常运行。 ... [详细]

蜡笔小新 2024-11-08 19:06:26
jar
Hibernate（第四部分）：深入探讨缓存机制与懒加载策略

在探讨Hibernate框架的高级特性时，缓存机制和懒加载策略是提升数据操作效率的关键要素。缓存策略能够显著减少数据库访问次数，从而提高应用性能，特别是在处理频繁访问的数据时。Hibernate提供了多层次的缓存支持，包括一级缓存和二级缓存，以满足不同场景下的需求。懒加载策略则通过按需加载关联对象，进一步优化了资源利用和响应时间。本文将深入分析这些机制的实现原理及其最佳实践。 ... [详细]

蜡笔小新 2024-11-07 16:19:28
default
深入解析HTTP头部中的Expires与Cache-Control字段及其缓存机制

本文深入探讨了HTTP头部中的Expires与Cache-Control字段及其缓存机制。Cache-Control字段主要用于控制HTTP缓存行为，其在HTTP/1.1中得到了广泛应用，而HTTP/1.0中主要使用Pragma:no-cache来实现类似功能。Expires字段则定义了资源的过期时间，帮助浏览器决定是否从缓存中读取资源。文章详细解析了这两个字段的具体用法、相互关系以及在不同场景下的应用效果，为开发者提供了全面的缓存管理指南。 ... [详细]

蜡笔小新 2024-11-06 18:48:33

风中摇曳一

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章