Solr+Hbase多条件查（优劣互补）

作者：戴安娜DianaKok | 来源：互联网 | 2023-02-10 10:12

为什么要使用solr+hbase组合：某电信项目中采用HBase来存储用户终端明细数据，供前台页面即时查询。HBase无可置疑拥有其优势，但其本身只对rowkey支持毫秒级的快速检索，对于多

为什么要使用solr+hbase组合：

某电信项目中采用HBase来存储用户终端明细数据，供前台页面即时查询。HBase无可置疑拥有其优势，但其本身只对rowkey支持毫秒级的快速检索，对于多字段的组合查询却无能为力。针对HBase的多条件查询也有多种方案，但是这些方案要么太复杂，要么效率太低，本文只对基于Solr的HBase多条件查询方案进行测试和验证。

solr+habse组合的原理：

基于Solr的HBase多条件查询原理很简单，将HBase表中涉及条件过滤的字段和rowkey在Solr中建立索引，通过Solr的多条件查询快速获得符合过滤条件的rowkey值，拿到这些rowkey之后在HBASE中通过指定rowkey进行查询。

环境

1. 已搭建好的hadoop集群，3节点hadoop测试集群（见文档hadoop2.5完全分布式集群搭建）

2. 在hadoop集群之上搭建hbase集群（文档中hadoop2.5分布式中已包含）

3. 已搭建好的solrcloud集群，3节点solrcloud集群（见文档solrcloud分布式集群）

4. 从oracle中导入数据到hbase中（可以通过普通java代码或mapreduce，也可以直接使用工具sqoop）

5. 使用sqoop将oracle中的数据导入hbase中

sqoop实现数据从oracle导入hdfs(hbase)

sqoop import --append --connect jdbc:oracle:thin:@192.168.0.20:1521:orcl --username yqdev --password yq --m 1 --table c_text --columns id,url,title --hbase-create-table --hbase-table c_text --hbase-row-key id --column-family textinfo

注：需要在hbase中先创建c_text表，创建列族textinfo；我只导入了id,url,title三列，其中id为rowkey.

6. 创建索引

从hbase中读取数据，将需要用作查询字段添加索引到solr中（例如title）

  /**

       * create solrIndex 

       * 

       * @throws IOException

       * @throws SolrServerException

       */

      public static void addIndex() throws IOException, SolrServerException {

               // hbase

               Scan scan = new Scan();

               scan.addFamily(Bytes.toBytes(FAMILY_NAME));

               // scan.setCaching(500);

               scan.setCacheBlocks(false);

               ResultScanner rs = table.getScanner(scan);

 

               System.out.println("start......");

               Collection docs = new ArrayList();

               Long totalCount = 0l;

               for (Result r : rs) {

                        SolrInputDocument doc = new SolrInputDocument();

                        doc.addField("id", new String(r.getRow()));

                        for (KeyValue kv : r.raw()) {

                                  String fieldName = new String(kv.getQualifier());

                                  String fieldValue = new String(kv.getValue());

                                  if (fieldName.equalsIgnoreCase("id")

                                                    || fieldName.equalsIgnoreCase("title")

                                                     || fieldName.equalsIgnoreCase("url")) {

                                           doc.addField(fieldName, fieldValue);

                                  }

                                  docs.add(doc);

                        }

                        if (docs.size() >= 1000) {

                                  cloudSolrServer.add(docs);

                                  cloudSolrServer.commit();

                                  totalCount = totalCount + docs.size();

                                  docs = new ArrayList();

                                  System.out.println("already deal with : " + totalCount);

                        }

               }

      }

7. 查询测试

 /**

       * 1.query solrIndex pass some condition 2.query data from hbase pass rowkey

       * 

       * @throws IOException

       * @throws SolrServerException

       */

      public static void query() throws IOException, SolrServerException {

               Get get = null;

               List list = new ArrayList();

               SolrQuery query = new SolrQuery("title:基金");

               query.setStart(0);

               query.setRows(40);

               QueryResponse respOnse= cloudSolrServer.query(query);

               SolrDocumentList docs = response.getResults();

               System.out.println("total:" + docs.getNumFound());

               System.out.println("query time:" + response.getQTime());

               //get rowkey from solr

               for (SolrDocument doc : docs) {

                        get = new Get(Bytes.toBytes((String) doc.getFieldValue("id")));

                        list.add(get);

               }

               //order rowkey query data from hbase

               for (Get gt : list) {

                        Result result = table.get(gt);

                        byte[] value = result.getValue("textinfo".getBytes(),

                                           "title".getBytes());

                        System.out.println("title------- \t" + new String(value));

               }

      }

hbase+solr多条件查询的设计方案：

（利用hbase的大数据存储和solr的强大的索引，达到互补的效果）

参考：http://www.cnblogs.com/chenz/articles/3229997.html

推荐阅读

stream
HDFS API

Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类：(1)Configurati ... [详细]

蜡笔小新 2024-11-13 17:31:50
schema
sh cca175problem03evolveavroschema.sh

sh cca175problem03evolveavroschema.sh ... [详细]

蜡笔小新 2024-10-25 14:18:50
java
Java 中的等时日期(int，int)方法，示例

Java 中的等时日期(int，int)方法，示例 ... [详细]

蜡笔小新 2024-11-15 07:28:40
string
Go语言中正则表达式的简易应用

本文介绍了Go语言中正则表达式的基本使用方法，并提供了一些实用的示例代码。 ... [详细]

蜡笔小新 2024-11-14 20:27:47
string
将.o文件链接到.elf文件时

我有一个从C项目编译的.o文件，该文件引用了名为init_static_pool ... [详细]

蜡笔小新 2024-11-14 10:07:21
java
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新 2024-11-13 16:43:07
java
Java反射机制详解及应用场景

本文详细介绍了Java反射机制的基本概念、获取Class对象的方法、反射的主要功能及其在实际开发中的应用。通过具体示例，帮助读者更好地理解和使用Java反射。 ... [详细]

蜡笔小新 2024-11-13 16:08:08
input
字节流(InputStream和OutputStream)，字节流读写文件，字节流的缓冲区，字节缓冲流

字节流抽象类InputStream和OutputStream是字节流的顶级父类所有的字节输入流都继承自InputStream，所有的输出流都继承子OutputStreamInput ... [详细]

蜡笔小新 2024-11-12 14:07:25
text
第三节 Sqoop：实现数据的精准控制与高效导入

通过使用Sqoop导入工具，可以精确控制并高效地将表数据的特定子集导入到HDFS中。具体而言，可以通过在导入命令中添加WHERE子句来指定所需的数据范围，从而在数据库服务器上执行相应的SQL查询，并将查询结果高效地存储到HDFS中。这种方法不仅提高了数据导入的灵活性，还确保了数据的准确性和完整性。 ... [详细]

蜡笔小新 2024-11-11 22:58:51
function
MySQL Decimal 类型的最大值解析及其在数据处理中的应用艺术

在关系型数据库中，表的设计与SQL语句的编写对性能的影响至关重要，甚至可占到90%以上。本文将重点探讨MySQL中Decimal类型的最大值及其在数据处理中的应用技巧，通过实例分析和优化建议，帮助读者深入理解并掌握这一重要知识点。 ... [详细]

蜡笔小新 2024-11-11 19:36:19
input
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
input
客户端与服务器之间的交互过程解析

本文详细解析了客户端与服务器之间的交互过程，重点介绍了Socket通信机制。IP地址由32位的4个8位二进制数组成，分为网络地址和主机地址两部分。通过使用 `ipconfig /all` 命令，用户可以查看详细的IP配置信息。此外，文章还介绍了如何使用 `ping` 命令测试网络连通性，例如 `ping 127.0.0.1` 可以检测本机网络是否正常。这些技术细节对于理解网络通信的基本原理具有重要意义。 ... [详细]

蜡笔小新 2024-11-11 15:09:25
stream
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
java
Hadoop集群搭建常见问题与解决方案（一）：避免配置过程中的常见陷阱

在搭建Hadoop集群以处理大规模数据存储和频繁读取需求的过程中，经常会遇到各种配置难题。本文总结了作者在实际部署中遇到的典型问题，并提供了详细的解决方案，帮助读者避免常见的配置陷阱。通过这些经验分享，希望读者能够更加顺利地完成Hadoop集群的搭建和配置。 ... [详细]

蜡笔小新 2024-11-03 19:59:23
java
分布式一致性算法：Paxos 的企业级实战

一、简介首先我们这个平台是ES专题技术的分享平台，众所周知，ES是一个典型的分布式系统。在工作和学习中，我们可能都已经接触和学习过多种不同的分布式系统了，各 ... [详细]

蜡笔小新 2024-10-21 16:29:21

戴安娜DianaKok

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章