当前位置: 开发笔记 > 运维 > 正文

HBase利用Coprocessor实现聚合函数

作者：陈庭勇筱玲喜芳 | 来源：互联网 | 2018-06-11 04:58

HBase默认不支持聚合函数（sum,avg等）。可利用HBase的coprocessor特性实现。这样做的好处是利用regionserver在服务端进行运算。效率高，避免客户端取回大量数据，占用网络带宽，消耗大量内存等。实现方式：利用HBase提供的endPoint类型的AggregateImpleme

HBase默认不支持聚合函数（sum,avg等）。可利用HBase的coprocessor特性实现。这样做的好处是利用regionserver在服务端进行运算。效率高，避免客户端取回大量数据，占用网络带宽，消耗大量内存等。

实现方式：

利用HBase提供的endPoint类型的AggregateImplementation Coprocess，配合AggregationClient访问客户端实现RegionServer端的集合计算。AggregationClient访问代码如下：

aggregationClient.avg(Bytes. toBytes("TableName"), ci, scan);

scan即为要计算列的查询条件。这里有一个ColumnInterperter类型的参数ci。即列解释器，用于解析列中的值。HBase默认提供了LongColumnInterpreter。而我要处理的值是double类型的，所以先实现了一个DoubleColumnInterpreter。（从JIRA上看Doulbe类型的解释器好像正在开发中）。ColumnInterpreter接口的实现会在AggregateImplementation

/**
* Double类型的列解释器实现
*
 * @author OneCoder
*/
public class DoubleColumnInterpreter implements
           ColumnInterpreter {
     @Override
     public void write(DataOutput out) throws IOException {
     }
     @Override
     public void readFields(DataInput in) throws IOException {
     }
     @Override
     public Double getValue( byte[] colFamily, byte[] colQualifier, KeyValue kv)
                 throws IOException {
            if (kv == null)
                 return null;
            // 临时解决方案，如果采用Bytes.toDouble(kv.getValue())会报错，偏移量大于总长度。
            // toDouble(getBuffer(), getValueOffset)，偏移量也不对。
            return Double. valueOf(new String(kv.getValue()));
     }
     @Override
     public Double add(Double l1, Double l2) {
            if (l1 == null ^ l2 == null) {
                 return l1 == null ? l2 : l1;
           } else if (l1 == null) {
                 return null;
           }
            return l1 + l2;
     }
     @Override
     public Double getMaxValue() {
            // TODO Auto-generated method stub
            return null;
     }
     @Override
     public Double getMinValue() {
            // TODO Auto-generated method stub
            return null;
     }
     @Override
     public Double multiply(Double o1, Double o2) {
            if (o1 == null ^ o2 == null) {
                 return o1 == null ? o2 : o1;
           } else if (o1 == null) {
                 return null;
           }
            return o1 * o2;
     }
     @Override
     public Double increment(Double o) {
            // TODO Auto-generated method stub
            return null;
     }
     @Override
     public Double castToReturnType(Double o) {
            return o.doubleValue();
     }
     @Override
     public int compare(Double l1, Double l2) {
            if (l1 == null ^ l2 == null) {
                 return l1 == null ? -1 : 1; // either of one is null.
           } else if (l1 == null)
                 return 0; // both are null
            return l1.compareTo(l2); // natural ordering.
     }
     @Override
     public double pideForAvg(Double o, Long l) {
            return (o == null &＃124;&＃124; l == null) ? Double. NaN : (o.doubleValue() / l
                     .doubleValue());
     }
}

导出jar包上传到HBase Region节点的lib下。然后配置RegionServer的Coprocessor。在服务端hbase-site.xml中，增加


            hbase.coprocessor.region.classes 
           org.apache.hadoop.hbase.coprocessor.AggregateImplementation

重启服务，使配置和jar生效。然后调用AggregationClient中提供的avg, max等聚合函数，即可在region端计算出结果，返回。

原文地址：HBase 利用Coprocessor实现聚合函数, 感谢原作者分享。

推荐阅读

apache
com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例

com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 10:47:33
apache
MapReduce 中的输入输出格式控制

本文介绍了如何在 MapReduce 作业中使用 SequenceFileOutputFormat 生成 SequenceFile 文件，并详细解释了 SequenceFile 的结构和用途。 ... [详细]

蜡笔小新 2024-11-17 14:43:42
port
Android与JUnit集成测试实践

本文探讨了如何在Android项目中集成JUnit进行单元测试，并详细介绍了修改AndroidManifest.xml文件以支持测试的方法。 ... [详细]

蜡笔小新 2024-11-20 18:30:14
服务器
解决PHP及Web开发中的UTF-8乱码问题

本文详细探讨了在Web开发中常见的UTF-8编码问题及其解决方案，包括HTML页面、PHP脚本、MySQL数据库以及JavaScript和Flash应用中的乱码问题。 ... [详细]

蜡笔小新 2024-11-20 10:58:03
service
解决Tomcat启动时出现org.apache.catalina.LifecycleException异常的方法

在尝试启动Java应用服务器Tomcat时，遇到了org.apache.catalina.LifecycleException异常。本文详细记录了异常的具体表现形式，并提供了有效的解决方案。 ... [详细]

蜡笔小新 2024-11-19 11:46:52
log4j
构建用户画像环境：Hive与SparkSQL的高效整合

本文介绍如何通过整合SparkSQL与Hive来构建高效的用户画像环境，提高数据处理速度和查询效率。 ... [详细]

蜡笔小新 2024-11-19 09:44:24
server
解析与应用：org.apache.hadoop.hdfs.server.namenode.FSNamesystem.shouldUseDelegationTokens() 方法

本文详细介绍了 `org.apache.hadoop.hdfs.server.namenode.FSNamesystem.shouldUseDelegationTokens()` 方法的用途和实际应用场景，并提供了多个代码示例以帮助开发者更好地理解和使用该方法。 ... [详细]

蜡笔小新 2024-11-18 17:59:10
server
Centos7 Tomcat9 安装笔记

centos7,tom ... [详细]

蜡笔小新 2024-11-17 18:15:16
apache
mybatis 详解（七）一对一、一对多、多对多

mybatis详解（七）------一 ... [详细]

蜡笔小新 2024-11-17 10:03:06
apache
Hadoop Datanode DataXceiver 错误处理问题

Ambari 每分钟会向 Datanode 发送一次“ping”请求以确保其正常运行。然而，Datanode 在处理空内容时没有相应的逻辑，导致出现错误。 ... [详细]

蜡笔小新 2024-11-16 21:12:43
apache
Java毕业设计项目：“传情旧物”网站（含源码与数据库）

本项目介绍了如何配置和运行“传情旧物”网站，包括所需的技术栈、环境配置以及具体的操作步骤。 ... [详细]

蜡笔小新 2024-11-15 20:52:51
port
Spring与Hibernate集成详解

本文详细介绍了如何将Spring框架与Hibernate ORM框架进行集成，包括配置文件的设置和数据持久化操作的实现。 ... [详细]

蜡笔小新 2024-11-15 18:26:01
服务器
如何查看PHP网站及其源码

本文介绍了如何查看PHP网站及其源码的方法，包括环境搭建、本地测试、源码查看和在线查找等步骤。 ... [详细]

蜡笔小新 2024-11-14 21:51:01
apache
日志处理流程：Flume+MapReduce+Hive+Sqoop+MySQL

本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS，然后通过MapReduce清洗数据，使用Hive进行数据分析，并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]

蜡笔小新 2024-11-13 18:47:34
apache
HDFS API

Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类：(1)Configurati ... [详细]

蜡笔小新 2024-11-13 17:31:50

陈庭勇筱玲喜芳

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章