大数据处理方面的7个开源搜索引擎

作者：glh3112259 | 来源：互联网 | 2023-07-27 13:26

大数据是一个包括一切的术语,指的是数据集很大很复杂,他们需要特别设计的硬件和软件工具。数据集通常是T或者更大级别。这些数据集从各种各样的来源创建，包括传感器,收集气象信息,公开可用

大数据是一个包括一切的术语,指的是数据集很大很复杂,他们需要特别设计的硬件和软件工具。数据集通常是 T 或者更大级别。这些数据集从各种各样的来源创建，包括传感器,收集气象信息,公开可用的信息,如杂志、报纸、文章。还包括购买交易记录、网络日志、医疗记录、军事侦察、视频和图像档案和大规模的电子商务等等。

要分析这些数据需要专门的软硬件，本文介绍 7 个开源的搜索引擎适合用于大数据处理：

1. Apache Lucene

Lucene 是apache软件基金会一个开放源代码的全文检索引擎工具包，是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎。 Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。

特性：

索引过程:
- 在现在流行的硬件平台上每个小时可处理超过 150GB 的数据
- 内存占用小，只需 1MB 的堆内存
- 增量索引和批量索引速度一样快
- 索引大小约为文本索引的 20-30% 大小
- 静态索引修剪
搜索算法：
- 范围搜索 - 优先返回最佳结果
- 很多强大的查询类型：短语查询、通配符查询、近似查询、范围查询等
- 可单独针对某个字段查询
- 可单独根据某个字段排序
- 多索引搜索并合并搜索结果
- 允许同步更新索引和搜索
- 灵活的门面搜索、高亮显示、结果集的联合和分组
- 快速，低内存占用和容错
- 可插入式排名模型，包括 VSM 和 Okapi MB25
- 可配置的存储引擎
跨平台解决方案
- 100% 纯 Java
- 其他语言提供索引兼容的实现

2. Apache Solr

Apache Solr (读音: SOLer) 是一个开源的搜索服务器。Solr 使用 Java 语言开发，主要基于 HTTP 和 Apache Lucene 实现。Apache Solr 中存储的资源是以 Document 为对象进行存储的。每个文档由一系列的 Field 构成，每个 Field 表示资源的一个属性。Solr 中的每个 Document 需要有能唯一标识其自身的属性，默认情况下这个属性的名字是 id，在 Schema 配置文件中使用：id进行描述。

大数据处理方面的 7 个开源搜索引擎

3. ElasticSearch

Elastic Search 是一个基于Lucene构建的开源，分布式，RESTful搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。支持通过HTTP使用JSON进行数据索引。

大数据处理方面的 7 个开源搜索引擎

4. Sphinx

Sphinx是一个基于SQL的全文检索引擎，可以结合MySQL,PostgreSQL做全文搜索，它可以提供比数据库本身更专业的搜索功能，使得应用程序更容易实现专业化的全文检索。Sphinx特别为一些脚本语言设计搜索API接口，如PHP,Python,Perl,Ruby等，同时为MySQL也设计了一个存储引擎插件。

5. Xapian

Xapian是一个用C++编写的全文检索程序，他的作用类似于Java的lucene。尽管在Java世界lucene已经是标准的全文检索程序，但是C/C++世界并没有相应的工具，而Xapian则填补了这个缺憾。

6. Nutch

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益.这显然不利于广大Internet用户.

Nutch为我们提供了这样一个不同的选择. 相对于那些商用的搜索引擎, Nutch作为开放源代码搜索引擎将会更加透明, 从而更值得大家信赖. 现在所有主要的搜索引擎都采用私有的排序算法, 而不会解释为什么一个网页会排在一个特定的位置. 除此之外, 有的搜索引擎依照网站所付的费用, 而不是根据它们本身的价值进行排序. 与它们不同, Nucth没有什么需要隐瞒, 也没有动机去扭曲搜索的结果. Nutch将尽自己最大的努力为用户提供最好的搜索结果.

Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch必须能够做到:

每个月取几十亿网页
为这些网页维护一个索引
对索引文件进行每秒上千次的搜索
提供高质量的搜索结果
以最小的成本运作

7. LGTE

LGTE 是基于 Lucene 提供了扩展 Lucene API 用于集成很多服务，例如片段生成、查询扩展等等，并提供了一组单元测试。

特性包括：

提供了简单和高效的 Lucene API 的抽象层
在主题、时间和地理方面支持集成检索和排序的依据
支持 Lucene 标准的检索模型，提供更高级的概率检索方法
支持 Rochio 查询扩展
提供了用于 IR 仿真体验的框架 (例如处理 CLEF/TREC 主题)
包含 trec_eval 工具的 Java 替换版
包含一个简单的测试应用，用来搜索 Braun Corpus 或 Cranfield Corpus
TREC/CLEF 仿真框架 - 集合索引的工具，运行主题搜索并使用 treckeval 格式输出结果
使用不同文件夹提供隔离字段
通过外键字段提供层次化的索引
提供用于使用 Yahoo PlaceMaker 解析文档的类

推荐阅读

sum
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
web
秒建一个后台管理系统？用这5个开源免费的Java项目就够了

秒建一个后台管理系统？用这5个开源免费的Java项目就够了 ... [详细]

蜡笔小新 2024-11-12 03:21:33
text
利用Jenkins与SonarQube集成实现高效代码质量检测与优化

本文探讨了通过在 Jenkins 多分支流水线中集成 SonarQube，实现高效且自动化的代码质量检测与优化方法。该方案不仅提高了开发团队的代码审查效率，还确保了软件项目的持续高质量交付。 ... [详细]

蜡笔小新 2024-10-26 13:04:29
web
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
数组
PHP 对象生命周期与内存管理

本文详细介绍了 PHP 中对象的生命周期、内存管理和魔术方法的使用，包括对象的自动销毁、析构函数的作用以及各种魔术方法的具体应用场景。 ... [详细]

蜡笔小新 2024-11-12 13:35:26
数组
如何在PHP中准确获取服务器IP地址？

如何在PHP中准确获取服务器IP地址？ ... [详细]

蜡笔小新 2024-11-10 15:17:16
list
服务器部署中的安全策略实践与优化

服务器部署中的安全策略实践与优化 ... [详细]

蜡笔小新 2024-11-10 13:04:30
python
Python 实战：异步爬虫（协程技术）与分布式爬虫（多进程应用）深入解析

本文将深入探讨 Python 异步爬虫和分布式爬虫的技术细节，重点介绍协程技术和多进程应用在爬虫开发中的实际应用。通过对比多进程和协程的工作原理，帮助读者理解两者在性能和资源利用上的差异，从而在实际项目中做出更合适的选择。文章还将结合具体案例，展示如何高效地实现异步和分布式爬虫，以提升数据抓取的效率和稳定性。 ... [详细]

蜡笔小新 2024-11-05 14:12:56
web
「驭龙」开源主机入侵检测系统了解一下

「驭龙」开源主机入侵检测系统了解一下 ... [详细]

蜡笔小新 2024-10-19 12:32:57
text
ElasticSearch学习笔记邻近匹配搜索记录

ElasticSearch版本：elasticsearch-7.3.0环境准备：curl-HContent-Type:applicationjso ... [详细]

蜡笔小新 2024-10-18 13:24:32
text
Elasticsearch连接类（带密码）

***获取ES连接类**@author陈康*@description*@create20190815**@Component(&quot;Elasticsearch ... [详细]

蜡笔小新 2024-10-11 18:36:34
list
解决Bootstrap DataTable Ajax请求重复问题

在最近的一个项目中，我们使用了JQuery DataTable进行数据展示，虽然使用起来非常方便，但在测试过程中发现了一个问题：当查询条件改变时，有时查询结果的数据不正确。通过FireBug调试发现，点击搜索按钮时，会发送两次Ajax请求，一次是原条件的请求，一次是新条件的请求。 ... [详细]

蜡笔小新 2024-11-12 13:59:27
list
思科IOS XE与ISE集成实现TACACS认证配置

本文详细介绍了如何在思科IOS XE设备上配置TACACS认证，并通过ISE（Identity Services Engine）进行用户管理和授权。配置包括网络拓扑、设备设置和ISE端的具体步骤。 ... [详细]

蜡笔小新 2024-11-12 13:17:06
web
探讨HTTP隧道技术在RDP暴力破解中的应用

本文介绍了如何利用HTTP隧道技术在受限网络环境中绕过IDS和防火墙等安全设备，实现RDP端口的暴力破解攻击。文章详细描述了部署过程、攻击实施及流量分析，旨在提升网络安全意识。 ... [详细]

蜡笔小新 2024-11-12 12:08:47
char
InfluxDB、collectd与Grafana的详细安装与配置指南

本文详细介绍了 InfluxDB、collectd 和 Grafana 的安装与配置流程。首先，按照启动顺序依次安装并配置 InfluxDB、collectd 和 Grafana。InfluxDB 作为时序数据库，用于存储时间序列数据；collectd 负责数据的采集与传输；Grafana 则用于数据的可视化展示。文中提供了 collectd 的官方文档链接，便于用户参考和进一步了解其配置选项。通过本指南，读者可以轻松搭建一个高效的数据监控系统。 ... [详细]

蜡笔小新 2024-11-11 19:54:24

glh3112259

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章