热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

为什么不用mysql做全文搜索

一、为什么要用全文搜索引擎,而不用mysql做全文搜索呢?1、前言①、

一、为什么要用全文搜索引擎,而不用mysql做全文搜索呢?

1、前言

         ①、有人可能会问,为什么一定要用搜索引擎呢?我们的所有数据不是都可以放在数据库里吗?

          ②、确实,我们大部分的查询功能都可以通过数据库查询获得,如果查询效率低下,还可以通过新建数据库索引,优化SQL等的方式进行提升效率,甚至通过引入缓存比如redis,memcache来加快数据的返回速度。如果数据量更大,还可以通过分库分表来分担查询压力。

          ③、那为什么还要全文搜索引擎呢?我从几个角度来说

A、数据类型

         全文索引搜索很好的支持非结构化数据的搜索,可以更好地快速搜索大量存在的任何单词非结构化文本。例如:Google,百度类的网站搜索,它们都是根据网页中的关键字生成索引,我们在搜索的时候输入关键字,它们会将该关键字即索引匹配到的所有网页返回;还有常见的项目中应用 日志的搜索等等。对于这些非结构化的数据文本,关系型数据库搜索不是很好的支持。

B、搜索性能

           如果使用mysql做索引,比如player表,这个表有user_name这个字段,我们要查找出user_name以james开头的球员,和含有james的球员,我们一般怎么做?数据量达到千万级别的时候怎么办?

用sql:   select  *  from   player  where user_name like 'james%' --走索引的

select * from player where user_name like  '%james%';  --不走索引的

C、灵活的搜索

            如果我们想要查出名字叫james的球员,但是用户输入了jame,我们想要提示他一些关键字。

          如果我们想查出带有"冠军”关键字的文章,但是用户输入了"总冠军“,我们也希望你能查出来。

上面的只是列举出了两个能力,还有很多,非常的灵活

D、索引的维护

             一般传统数据库,全文搜索都实现的很鸡肋,因为一般也没人用数据库存长文本你字段,因为进行全文搜索的时候需要扫描整个表,如果数据量大的话即使对SQL的语法进行优化,也是效果甚微,即使建立了索引,但是维护起来也很麻烦,对于insert和update操作都会重新构建索引(底层的数据结构要做一个平衡,比如一些树的平衡)。只有索引保持平衡的时候,搜索的时候性能才是最高的。

E、适合全文搜索引擎的场景

      搜索的数据对象是大量的非结构化的文本数据

      文本数据量达到数十万或者百万级别,甚至更多

      支持大量基于交互式文本的查询

      需求非常灵活的全文搜索查询

      对安全事务,非文本数据操作的需求相对较少的情况。(读多写少的情况)

二、常见的搜索引擎

简介:常见的搜索引擎,Luence,Solr,Elasticsearch

1、Luence

          ①、Luence是一个java全文搜索引擎,完全由Java编写,Luence不是一个完整的应用

而是一个代码库和API,可以很容易地向应用程序添加搜索功能。

          ②、通过简单的API提供强大的功能

              可扩展的高效能索引

              强大,准确,高效的搜索算法

              跨平台太解决方案

 2、Apache软件基金会

            ①、在Apache软件基金会提供的开源软件项目的Apache社区支持

            ②、但是Luence只是一个框架,要充分利用它的功能,需要使用java,并且在程序中集成了Luence。需要很多的学习和了解,才能明白它是如何运行的,熟练运用Luence确实非常复杂。

3、Solr

        ①、Solr是一个基于Luence的java库构建的开源搜索平台,它以用户友好的方式提供Apache luence的搜索功能。它是一个成熟的产品,拥有强大而广泛的用户社。它能够提供分布式索引,复制,负载均衡查询以及自动故障转移和恢复。如果它被正确部署然后管理的好,它就能够成为一个高度可靠,可扩展且容错的搜索引擎。很多互联网巨头,如Netflix, eBay,Instagram和亚马逊都使用Solr,因为它能够索引和搜索多个站点。

强大的功能

            ①、全文搜索,②、突出, ③、分面搜索, ④、实时索引,⑤、动态群集,⑥、数据库集成,⑦、NoSql功能和丰富的文档处理

4、Elasticsearch

      ①、Elasticsearch是一个开源的,是一个基于Apache Luence库构建的Restful搜索引擎

      ②、Elasticsearch是在Solr之后几年推出的,它提供了一个分布式,多租用户能力的全文搜索引擎,具有HTTP  Web界面(REST)和无架构JSON文档,Elasticsearch的官方客户端提供java,Groovy,php,Ruby,Perl,Python,.Net和Javascript

     ③、主要功能:  分布式搜索,数据分析,分组和聚合

     ④、应用场景:维基百科,Stack Overflow ,GitHub,电商网站,日志数据分析,商品价格监控网站,BI系统,站内搜索,篮球论坛。



推荐阅读
  • Java String与StringBuffer的区别及其应用场景
    本文主要介绍了Java中String和StringBuffer的区别,String是不可变的,而StringBuffer是可变的。StringBuffer在进行字符串处理时不生成新的对象,内存使用上要优于String类。因此,在需要频繁对字符串进行修改的情况下,使用StringBuffer更加适合。同时,文章还介绍了String和StringBuffer的应用场景。 ... [详细]
  • Oracle优化新常态的五大禁止及其性能隐患
    本文介绍了Oracle优化新常态中的五大禁止措施,包括禁止外键、禁止视图、禁止触发器、禁止存储过程和禁止JOB,并分析了这些禁止措施可能带来的性能隐患。文章还讨论了这些禁止措施在C/S架构和B/S架构中的不同应用情况,并提出了解决方案。 ... [详细]
  • PHP语言之所以能有今天的地位,得益于PHP语言设计者一直遵从实用主义,将技术的复杂性隐藏在底层。PHP语言入门简单,容易掌握,程序健壮性好。 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • Google Play推出全新的应用内评价API,帮助开发者获取更多优质用户反馈。用户每天在Google Play上发表数百万条评论,这有助于开发者了解用户喜好和改进需求。开发者可以选择在适当的时间请求用户撰写评论,以获得全面而有用的反馈。全新应用内评价功能让用户无需返回应用详情页面即可发表评论,提升用户体验。 ... [详细]
  • Tomcat/Jetty为何选择扩展线程池而不是使用JDK原生线程池?
    本文探讨了Tomcat和Jetty选择扩展线程池而不是使用JDK原生线程池的原因。通过比较IO密集型任务和CPU密集型任务的特点,解释了为何Tomcat和Jetty需要扩展线程池来提高并发度和任务处理速度。同时,介绍了JDK原生线程池的工作流程。 ... [详细]
  • Java学习笔记之面向对象编程(OOP)
    本文介绍了Java学习笔记中的面向对象编程(OOP)内容,包括OOP的三大特性(封装、继承、多态)和五大原则(单一职责原则、开放封闭原则、里式替换原则、依赖倒置原则)。通过学习OOP,可以提高代码复用性、拓展性和安全性。 ... [详细]
  • SpringMVC接收请求参数的方式总结
    本文总结了在SpringMVC开发中处理控制器参数的各种方式,包括处理使用@RequestParam注解的参数、MultipartFile类型参数和Simple类型参数的RequestParamMethodArgumentResolver,处理@RequestBody注解的参数的RequestResponseBodyMethodProcessor,以及PathVariableMapMethodArgumentResol等子类。 ... [详细]
  • 如何提高PHP编程技能及推荐高级教程
    本文介绍了如何提高PHP编程技能的方法,推荐了一些高级教程。学习任何一种编程语言都需要长期的坚持和不懈的努力,本文提醒读者要有足够的耐心和时间投入。通过实践操作学习,可以更好地理解和掌握PHP语言的特异性,特别是单引号和双引号的用法。同时,本文也指出了只走马观花看整体而不深入学习的学习方式无法真正掌握这门语言,建议读者要从整体来考虑局部,培养大局观。最后,本文提醒读者完成一个像模像样的网站需要付出更多的努力和实践。 ... [详细]
  • 一次上线事故,30岁+的程序员踩坑经验之谈
    本文主要介绍了一位30岁+的程序员在一次上线事故中踩坑的经验之谈。文章提到了在双十一活动期间,作为一个在线医疗项目,他们进行了优惠折扣活动的升级改造。然而,在上线前的最后一天,由于大量数据请求,导致部分接口出现问题。作者通过部署两台opentsdb来解决问题,但读数据的opentsdb仍然经常假死。作者只能查询最近24小时的数据。这次事故给他带来了很多教训和经验。 ... [详细]
  • Sleuth+zipkin链路追踪SpringCloud微服务的解决方案
    在庞大的微服务群中,随着业务扩展,微服务个数增多,系统调用链路复杂化。Sleuth+zipkin是解决SpringCloud微服务定位和追踪的方案。通过TraceId将不同服务调用的日志串联起来,实现请求链路跟踪。通过Feign调用和Request传递TraceId,将整个调用链路的服务日志归组合并,提供定位和追踪的功能。 ... [详细]
  • 本文介绍了iOS开发中检测和解决内存泄漏的方法,包括静态分析、使用instruments检查内存泄漏以及代码测试等。同时还介绍了最能挣钱的行业,包括互联网行业、娱乐行业、教育行业、智能行业和老年服务行业,并提供了选行业的技巧。 ... [详细]
  • 杭州PHP大厂有哪些(2023年最新分享)
    导读:今天编程笔记来给各位分享关于杭州PHP大厂有哪些的相关内容,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!本文目录一览: ... [详细]
  • Linux一键安装web环境全攻略
    摘自阿里云服务器官网,此处一键安装包下载:点此下载安装须知1、此安装包可在阿里云所有Linux系统上部署安装,此安装包包含的软件及版本为& ... [详细]
  • yii框架目录结构详细分析说明
    php教程|php手册yii,目录结构php教程-php手册yii框架目录结构详细分析说明猫狗大战源码,华为云电脑ubuntu,梦见放走很多爬虫,parttmpphp,seo页面描 ... [详细]
author-avatar
我才不要喜欢你了
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有