当前位置: 开发笔记 > 后端 > 正文

全文搜索原理简单解析

作者：爱在西元前2502938591 | 来源：互联网 | 2023-05-31 11:41

文前声明：本人只是知识的搬运工，文中许多知识和观点大多数都是来自于网络或书本，因为没有记录的习惯学习研究完，便忘记名称了，如若还记得，在文后自会添加备注。注：

文前声明：本人只是知识的搬运工，文中许多知识和观点大多数都是来自于网络或书本，因为没有记录的习惯学习研究完，便忘记名称了，如若还记得，在文后自会添加备注。

注：这是本人的第一篇薄文，水平相形见拙，有错误之处，欢迎指正。

今年的计划是存储领域，希望能深入的了解其原理，如果能有创造性的写出一个自己的文件系统出来就更好了，到目前为止尚无动工的迹象，估计会顺延至明年了吧！

我的计划正好赶上公司的总规划，于是便接了“大数据”的活。刚开始进入这一行，走了不少弯路，说多了都是泪（这不是本文的主题，就此打住，后面再叙），就在被Hive，Hbase，Hadoop，Spark等等各种工具搞的眼花缭乱的某个瞬间，头脑中冒出一个问题：如果不让用传统的关系数据库，要你自己去实现大数据存贮的话，第一件事要做的是什么？搜索，全文搜索。数据存好存，关键是怎么找到你想要找到的数据，于是便花了一天时间研究了全文搜索技术（我想搞大数据的都该懂搜索才对的吧），谷歌、百度还有其他各种所搜都是采用的”全文搜索“，但技术实现各有优劣。

那什么叫“全文搜索“，它的定义是什么？说白了就是在一堆非结构化的文档中寻找你想要的数据的技术。

全文搜索的实现技术各种各样，最原始的就是顺序查找。顺序查找顾名思义就是一个文档一个文档，一个字符一个字符查找，这种搜索技术简单，但时间复杂度为O(n)。人们发现为什么关系数据库的搜索就非常快，因为关系数据库添加了索引。全文搜索是不是可以参考一下它的实现呢，是的，当然可以，于是便诞生了现代的全新的”全文搜索技术“。这种技术类似于我们查新华字典的过程，现代新华字典增加了两种索引技术，一种是汉语拼音索引，一种是偏旁部首索引，可根据你的喜好自行选择其中一种索引技术去查找汉字。

至此，我们引出了一个新的问题：即如何为一份文档创建索引？这是一个好问题，要讲的内容真不少，它牵涉到分词技术，因篇幅所限，所有问题的答案都从简，直白说，为一份文档创建索引就是提取关键字的过程。举个例子：”周杰伦很有才。他唱歌很好，就是口齿不清，这是一个遗憾！“，在这两句话中，我们提取出来的关键字应该是”周杰伦、有才、唱歌好、口齿不清、遗憾“，剩下的部分在分词技术领域被称为”停用词“（英文名称叫stop words），提取出来的关键字叫tokens。这种提取关键字的技术与我们初中语文课上学习的“提取句子主干即只保留主谓宾”内容相似，细节上区分还是蛮大的。

我们创建起来的索引，大致如下图所示：

这种为文档创建起来的索引，在学术上称为“倒排索引“，好，索引创建好了，那如何搜索呢？

这一步工作比创建索引要简单些（其实并不简单），我们输入关键字，程序根据关键字返回对应的文档，看起来到这一步貌似很合理，这就结束了？事实上没有这么简单，想想百度的时候，搜索的答案是随机的吗？显然不是（当然百度竞价排名是可恶的），搜索到的答案是根据一定的规则来返回。这个规则学术上称之为“评分”，评分高在前还是低在前要看评分规则了。

开源的搜索引擎"Lucene"，评分规则就是低分在前，关于评分的规则也不展开说了，后面有机会再聊。

最后总结一下整个过程吧：

1：获取文档

2：进行分词，创建索引

3：索引存贮，以备后用

4：用户输入查找

5：分析用户输入，还是分词

6：搜索索引，返回相关文档

7：对返回的文档进行评分，进行排序

8：返回搜索到的文档

这里面每一步足以一篇论文来论述，后面有机会去实践这个玩意的时候，再详细叙述吧！

推荐阅读

http
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
mysql
58同城的Elasticsearch应用与平台构建实践

本文由58同城高级架构师于伯伟分享，由陈树昌编辑整理，内容源自DataFunTalk。文章探讨了Elasticsearch作为分布式搜索和分析引擎的应用，特别是在58同城的实施案例，包括集群优化、典型应用实例及自动化平台建设等方面。 ... [详细]

蜡笔小新 2024-12-11 19:31:21
并发
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
http
Hadoop发行版本选择指南：技术解析与应用实践

本文详细介绍了Hadoop的不同发行版本及其特点，帮助读者根据实际需求选择最合适的Hadoop版本。内容涵盖Apache Hadoop、Cloudera CDH等主流版本的特性及应用场景。 ... [详细]

蜡笔小新 2024-12-22 20:38:12
http
Apache ZooKeeper 中 FileTxnLog.setPreallocSize 方法详解与应用实例

本文详细介绍了 Apache ZooKeeper 的 FileTxnLog 类中的 setPreallocSize 方法，并提供了多个实际应用中的代码示例。通过这些示例，读者可以更好地理解如何在不同场景下合理设置日志文件的预分配大小。 ... [详细]

蜡笔小新 2024-12-05 13:52:17
http
ArchSummit深圳2014：讲师阵容公布，报名进入倒计时

ArchSummit深圳2014将于7月18日拉开帷幕，所有讲师已确认，涵盖9个热门话题，共36场精彩报告。InfoQ中文站提供了详细的讲师和报告列表。 ... [详细]

蜡笔小新 2024-12-05 12:26:16
storage
时序数据库的应用与设计策略

时序数据是指按时间顺序排列的数据集。通过时间轴上的数据点连接，可以构建多维度报表，揭示数据的趋势、规律及异常情况。 ... [详细]

蜡笔小新 2024-11-26 17:30:42
storage
大数据领域的职业路径与角色解析

本文将深入探讨大数据领域的各种职业和工作角色，帮助读者全面了解大数据行业的需求、市场趋势，以及从入门到高级专业人士的职业发展路径。文章还将详细介绍不同公司对大数据人才的需求，并解析各岗位的具体职责、所需技能和经验。 ... [详细]

蜡笔小新 2024-11-16 08:54:03
storage
Spark与HBase结合处理大规模流量数据结构设计

本文将详细介绍如何利用Spark和HBase进行大规模流量数据的分析与处理，包括数据结构的设计和优化方法。 ... [详细]

蜡笔小新 2024-11-12 19:49:05
http
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
storage
HDFS与Hive中的数据存储和管理机制

本文探讨了Hive中内部表和外部表的区别及其在HDFS上的路径映射，详细解释了两者的创建、加载及删除操作，并提供了查看表详细信息的方法。通过对比这两种表类型，帮助读者理解如何更好地管理和保护数据。 ... [详细]

蜡笔小新 2024-12-27 20:21:48
http
360SRC安全应急响应：从漏洞提交到修复的全过程

本文详细介绍了360SRC平台处理一起关键安全事件的过程，涵盖从漏洞提交、验证、排查到最终修复的各个环节。通过这一案例，展示了360在安全应急响应方面的专业能力和严谨态度。 ... [详细]

蜡笔小新 2024-12-27 11:10:05
http
解决Hive启动时权限被拒问题

本文详细分析了Hive在启动过程中遇到的权限拒绝错误，并提供了多种解决方案，包括调整文件权限、用户组设置以及环境变量配置等。 ... [详细]

蜡笔小新 2024-12-26 19:14:29
http
Servlet 表单处理：GET 和 POST 请求的深入解析

本文详细探讨了HTML表单中GET和POST请求的区别，包括它们的工作原理、数据传输方式、安全性及适用场景。同时，通过实例展示了如何在Servlet中处理这两种请求。 ... [详细]

蜡笔小新 2024-12-23 18:09:59
http
解决SVN图标显示异常问题的综合指南

本文详细探讨了SVN图标无法正常显示的问题，并提供了多种有效的解决方案，涵盖不同环境下的具体操作步骤。通过本文，您将了解如何排查和修复这些常见的SVN图标显示故障。 ... [详细]

蜡笔小新 2024-12-23 15:33:27

爱在西元前2502938591

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章