首页技术博客 PHP教程数据库技术前端开发 HTML5 Nginx php论坛

新用户注册 | 会员登录

热门标签 | HotTags

当前位置: 开发笔记 > 编程语言 > 正文

摘要：本篇是本人在做一个大数据项目时，对于系统架构的一点总结，如何在保证存储量的情况下，又能保证数据的检索速度。...

作者：逍遥微博2011_213 | 来源：互联网 | 2023-07-05 18:20

前提：Solr、SolrCloud提供了一整套的数据检索方案，HBase提供了完善的大数据存储机制。需求：1、对于添加到HBase中的结构

前提&＃xff1a; Solr、SolrCloud提供了一整套的数据检索方案&＃xff0c;HBase提供了完善的大数据存储机制。
需求&＃xff1a; 1、对于添加到HBase中的结构化数据&＃xff0c;能够检索出来。

2、数据量较大&＃xff0c;达到10亿&＃xff0c;100亿数据量。

3、检索的实时性要求较高&＃xff0c;秒级更新。

说明&＃xff1a; 以下是使用Solr和HBase共同搭建的系统架构。

1.1一次性创建索引

l、删除全索引

效率很高&＃xff0c;可以关闭Solr后&＃xff0c;直接删除Data文件。

2、重新创建全索引

拉取HBase中全数据&＃xff0c;分批次创建索引。

1.2增量创建索引

1、触发器发送数据到Solr建索引。

配置并使用HBase触发器功能&＃xff0c;配置实现如下&＃xff1a;

alter &＃39;angelHbase&＃39;, METHOD &＃61;> &＃39;table_att&＃39;, &＃39;coprocessor&＃39; &＃61;> &＃39;/home/hbase/hbase-0.94.18-security/lib/solrHbase.jar|solrHbase.test.SorlIndexCoprocessorObserver|1073741823|&＃39;

alter &＃39;angelHbase&＃39;, METHOD &＃61;>&＃39;table_att_unset&＃39;, NAME &＃61;> &＃39;coprocessor$1&＃39;

然后编写SorlIndexCoprocessorObserver extendsBaseRegionObserver&＃xff0c;重写postPut方法。在postPut方法中&＃xff0c;需要正确地读出写入HBase的数据结构及数据&＃xff0c;然后转化为相应的SolrInputDocument&＃xff0c;再使用ConcurrentUpdateSolrServer方式向Solr服务器发送SolrInputDocument数据&＃xff0c;具体使用方法如之前博文介绍Solr的使用方法、性能对比所示。

注意&＃xff1a;需要把Solr相关的jar包放入lib下&＃xff0c;并且删除版本不一致的jar&＃xff08;有很多&＃xff09;。更新jar后要重启HBase才能生效。

具体性能如之前博文介绍Solr的使用方法、性能对比所示。http://www.cnblogs.com/wgp13x/p/3742653.htmlhttp://www.cnblogs.com/wgp13x/p/3748764.html

2、触发器发送数据到RabbitMQ&＃xff0c;Solr端从RabbitMQ获取数据建索引。

embedded方式官方不推荐使用。而使用ConcurrentUpdateSolrServer性能与上种方式并无区别。

3、建议&＃xff1a;

在HBase中只存储1列&＃xff0c;存储值为PB或Json串。&＃xff08;存在由bean到SolrInputDocument转化的类及annotation&＃xff0c;以及各自的压缩算法&＃xff09;

或者&＃xff1a;插入HBase的数据均以Bytes.toBytes(String)类型存储&＃xff0c;如long型数值2存储为Bytes.toBytes(""&＃43;2)。否则在postPut()中需要知道每列的具体类型才能生成正确的SolrInputDocument&＃xff0c;因为SolrInputDocument中需要的是String类型的数据。

具体的postPut方法代码&＃xff0c;如有需要可以留言或直接跟本人联系。http://www.cnblogs.com/wgp13x/

1.3HBase与Solr系统架构设计

使用HBase搭建结构数据存储云&＃xff0c;用来存储海量数据&＃xff1b;使用SolrCloud集群用来搭建搜索引擎&＃xff0c;将要查找的结构化数据的ID查找出来&＃xff0c;只配置它存储ID。

Solr与HBase架构设计

1、具体流程&＃xff1a;

wd代表用户write data写数据&＃xff0c;从用户提交写数据请求wd1开始&＃xff0c;经历wd2&＃xff0c;写入MySQL数据库&＃xff0c;或写入结构数据存储云中&＃xff0c;wd3&＃xff0c;提交到Solr集群中&＃xff0c;从而依据业务需求创建索引。

rd代表用户read data读数据&＃xff0c;从用户提交读数据请求rd1开始&＃xff0c;经历rd2&＃xff0c;直接读取MySQL中数据&＃xff0c;或向Solr集群请求搜索服务&＃xff0c;rd3&＃xff0c;向Solr集群请求得到的搜索结果为ID&＃xff0c;再向结构数据存储云中通过ID取出数据&＃xff0c;最后返回给用户结果。

推荐阅读

int
C#实现文件的压缩与解压

2019独角兽企业重金招聘Python工程师标准一、准备工作1、下载ICSharpCode.SharpZipLib.dll文件2、项目中引用这个dll二、文件压缩与解压共用类 ... [详细]

蜡笔小新 2024-11-14 10:37:34
get
HTTP header 介绍

HTTP(HyperTextTransferProtocol)是超文本传输协议的缩写，它用于传送www方式的数据。HTTP协议采用了请求响应模型。客服端向服务器发送一 ... [详细]

蜡笔小新 2024-11-14 09:13:00
int
深入理解ASCII、ANSI、GB2312、UNICODE及UTF-8、UTF-16编码

本文回顾了作者初次接触Unicode编码时的经历，并详细探讨了ASCII、ANSI、GB2312、UNICODE以及UTF-8和UTF-16编码的区别和应用场景。通过实例分析，帮助读者更好地理解和使用这些编码。 ... [详细]

蜡笔小新 2024-11-13 07:33:27
post
InfluxDB、collectd与Grafana的详细安装与配置指南

本文详细介绍了 InfluxDB、collectd 和 Grafana 的安装与配置流程。首先，按照启动顺序依次安装并配置 InfluxDB、collectd 和 Grafana。InfluxDB 作为时序数据库，用于存储时间序列数据；collectd 负责数据的采集与传输；Grafana 则用于数据的可视化展示。文中提供了 collectd 的官方文档链接，便于用户参考和进一步了解其配置选项。通过本指南，读者可以轻松搭建一个高效的数据监控系统。 ... [详细]

蜡笔小新 2024-11-11 19:54:24
java
JavaWeb文件上传：前端实现与后端处理详解

在JavaWeb开发中，文件上传是一个常见的需求。无论是通过表单还是其他方式上传文件，都必须使用POST请求。前端部分通常采用HTML表单来实现文件选择和提交功能。后端则利用Apache Commons FileUpload库来处理上传的文件，该库提供了强大的文件解析和存储能力，能够高效地处理各种文件类型。此外，为了提高系统的安全性和稳定性，还需要对上传文件的大小、格式等进行严格的校验和限制。 ... [详细]

蜡笔小新 2024-11-11 19:50:46
default
如何将TS文件转换为M3U8直播流：HLS与M3U8格式详解

在视频传输领域，MP4虽然常见，但在直播场景中直接使用MP4格式存在诸多问题。例如，MP4文件的头部信息（如ftyp、moov）较大，导致初始加载时间较长，影响用户体验。相比之下，HLS（HTTP Live Streaming）协议及其M3U8格式更具优势。HLS通过将视频切分成多个小片段，并生成一个M3U8播放列表文件，实现低延迟和高稳定性。本文详细介绍了如何将TS文件转换为M3U8直播流，包括技术原理和具体操作步骤，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-11-11 12:12:04
get
优化Hadoop 2.7.2源代码以支持Snappy压缩和解压功能的Native编译

为了在Hadoop 2.7.2中实现对Snappy压缩和解压功能的原生支持，本文详细介绍了如何重新编译Hadoop源代码，并优化其Native编译过程。通过这一优化，可以显著提升数据处理的效率和性能。此外，还探讨了编译过程中可能遇到的问题及其解决方案，为用户提供了一套完整的操作指南。 ... [详细]

蜡笔小新 2024-11-09 19:45:36
get
解决 Ubuntu 下 Samba 重新安装时配置文件未重新生成的问题

在 Ubuntu 中遇到 Samba 服务器故障时，尝试卸载并重新安装 Samba 发现配置文件未重新生成。本文介绍了解决该问题的方法。 ... [详细]

蜡笔小新 2024-11-12 13:02:23
default
开机自启动的几种方式

0x01快速自启动目录快速启动目录自启动方式源于Windows中的一个目录，这个目录一般叫启动或者Startup。位于该目录下的PE文件会在开机后进行自启动 ... [详细]

蜡笔小新 2024-11-12 11:16:30
default
Mac上安装Jupyter Notebook的详细步骤与技巧

本文将详细介绍如何在Mac上安装Jupyter Notebook，并提供一些常见的问题解决方法。通过这些步骤，您将能够顺利地在Mac上运行Jupyter Notebook。 ... [详细]

蜡笔小新 2024-11-12 00:45:51
join
Understanding the Suspects: An Introduction to Disjoint Set Union (Union-Find Algorithm)

本文介绍了并查集（Union-Find算法）的基本概念及其应用。通过一个具体的例子，解释了如何使用该算法来处理涉及多个集合的问题。题目要求输入两个整数 n 和 m，分别表示总人数和操作次数。算法通过高效的合并与查找操作，能够快速确定各个元素所属的集合，适用于大规模数据的动态管理。 ... [详细]

蜡笔小新 2024-11-11 19:04:25
get
Flowable 流程图路径与节点展示：已执行节点高亮红色标记，增强可视化效果

在Flowable流程图中，通常仅显示当前节点，而路径则需自行获取。特别是在多次驳回的情况下，节点可能会出现混乱。本文重点探讨了如何准确地展示流程图效果，包括已结束的流程和正在执行的流程。具体实现方法包括生成带有高亮红色标记的图片，以增强可视化效果，确保用户能够清晰地了解每个节点的状态。 ... [详细]

蜡笔小新 2024-11-11 10:46:10
default
如何在Nginx服务器上轻松配置CertBot以实现SSL证书自动化管理

为了确保iOS应用能够安全地访问网站数据，本文介绍了如何在Nginx服务器上轻松配置CertBot以实现SSL证书的自动化管理。通过这一过程，可以确保应用始终使用HTTPS协议，从而提升数据传输的安全性和可靠性。文章详细阐述了配置步骤和常见问题的解决方法，帮助读者快速上手并成功部署SSL证书。 ... [详细]

蜡笔小新 2024-11-10 08:42:08
java
利用Struts1构建简易计算器：采用DispatchAction处理请求，动态Form优化开发流程，提供用户友好的错误提示

本文介绍了如何利用Struts1框架构建一个简易的四则运算计算器。通过采用DispatchAction来处理不同类型的计算请求，并使用动态Form来优化开发流程，确保代码的简洁性和可维护性。同时，系统提供了用户友好的错误提示，以增强用户体验。 ... [详细]

蜡笔小新 2024-11-09 19:48:22
int
MATLAB字典学习工具箱SPAMS：稀疏与字典学习的详细介绍、配置及应用实例

SPAMS（Sparse Modeling Software）是一个强大的开源优化工具箱，专为解决多种稀疏估计问题而设计。该工具箱基于MATLAB，提供了丰富的算法和函数，适用于字典学习、信号处理和机器学习等领域。本文将详细介绍SPAMS的配置方法、核心功能及其在实际应用中的典型案例，帮助用户更好地理解和使用这一工具箱。 ... [详细]

蜡笔小新 2024-11-09 16:17:27

逍遥微博2011_213

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章

PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved |

京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区版权所有