热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

mysql全文索引

原文mysql全文索引概念通过数值比较、范围过滤等就可以完成绝大多数我们需要的查询,但是,如果希望通过关键字的匹配来进行查询过滤,那么就需要基于相似度的查询,而不是原来的精确数值比

原文

mysql 全文索引

概念

通过数值比较、范围过滤等就可以完成绝大多数我们需要的查询,但是,如果希望通过关键字的匹配来进行查询过滤,那么就需要基于相似度的查询,而不是原来的精确数值比较。全文索引就是为这种场景设计的。

你可能会说,用like + %就可以实现模糊匹配了,为什么还要全文索引?like + % 在文本比较少时是合适的,但是对于大量的文本数据检索,是不可想象的。全文索引在大量的数据面前,能比 like + % 快 N 倍,速度不是一个数量级,但是全文索引可能存在精度问题。

你可能没有注意过全文索引,不过至少应该对一种全文索引技术比较熟悉:各种的搜索引擎。虽然搜索引擎的索引对象是超大量的数据,并且通常其背后都不是关系型数据库,不过全文索引的基本原理是一样的。

版本支持

开始之前,先说一下全文索引的版本、存储引擎、数据类型的支持情况

MySQL 5.6 以前的版本,只有 MyISAM 存储引擎支持全文索引;
MySQL 5.6 及以后的版本,MyISAM 和 InnoDB 存储引擎均支持全文索引;
只有字段的数据类型为 char、varchar、text 及其系列才可以建全文索引。
测试或使用全文索引时,要先看一下自己的 MySQL 版本、存储引擎和数据类型是否支持全文索引。

mysql官方文档version:5.7

1.创建全文索引(FullText index)

​ 旧版的MySQL的全文索引只能用在MyISAM表格的char、varchar和text的字段上。

​ 不过新版的MySQL5.6.24上InnoDB引擎也加入了全文索引,所以具体信息要随时关注官网,

1.1. 创建表的同时创建全文索引

       CREATE TABLE article ( 
         id INT AUTO_INCREMENT NOT NULL PRIMARY KEY, 
         title VARCHAR(200), 
         body TEXT, 
         FULLTEXT(title, body)  --创建联合全文索引列
       ) TYPE=MYISAM; 

1.2.通过 alter table 的方式来添加

ALTER TABLE `student` ADD FULLTEXT INDEX ft_stu_name  (`name`) ;---ft_stu_name是索引名,可以随便起

---或者:

ALTER TABLE `student` ADD FULLTEXT ft_stu_name  (`name`);

1.3. 直接通过create index的方式

CREATE FULLTEXT INDEX ft_email_name ON `student` (`name`);

---也可以在创建索引的时候指定索引的长度:

CREATE FULLTEXT INDEX ft_email_name ON `student` (`name`(20));

2. 删除全文索引

2.1. 直接使用 drop index(注意:没有 drop fulltext index 这种用法)

DROP INDEX full_idx_name ON tommy.girl ;

2.2. 使用 alter table的方式

ALTER TABLE tommy.girl DROP INDEX ft_email_abcd;

3.使用全文索引

跟普通索引稍有不同

使用全文索引的格式:

MATCH (columnName) AGAINST ('string')

eg:

SELECT * FROM `student` WHERE MATCH(`name`) AGAINST('聪');

​当查询多列数据时:

​ 建议在此多列数据上创建一个联合的全文索引,否则使用不了索引的。

SELECT * FROM `student` WHERE MATCH(`name`,`address`) AGAINST('聪 广东');

3.1. 使用全文索引需要注意的是:(基本单位是词)

​ 分词,全文索引以词为基础的,MySQL默认的分词是所有非字母和数字的特殊符号都是分词符(外国人嘛)

​ 这里推荐一篇文章:利用mysql的全文索引实现模糊查询

​ 3.2. MySQL中与全文索引相关的几个变量:

​ 使用命令:mysql> SHOW VARIABLES LIKE 'ft%'; #ft就是FullText的简写

​ ft_boolean_syntax + -><()~*:""&| #改变IN BOOLEAN MODE的查询字符,不用重新启动MySQL也不用重建索引
​ ft_min_word_len 4 #最短的索引字符串,默认值为4,(通常改为1)修改后必须重建索引文件

​ 重新建立索引命令:repair table tablename quick

​ ft_max_word_len 84 #最长的索引字符串,默认值为84,修改后必须重建索引文件

​ ft_query_expansion_limit 20 #查询括展时取最相关的几个值用作二次查询

​ ft_stopword_file (built-in) #全文索引的过滤词文件,

具体可以参考:MySQL全文检索中不进行全文索引默认过滤词


​ 特别注意:50%的门坎限制(当查询结果很多,几乎所有记录都有,或者极少的数据,都有可能会返回非所期望的结果)

​ -->可用IN BOOLEAN MODE即可以避开50%的限制。

​ 此时使用全文索引的格式就变成了: SELECT * FROM student WHERE MATCH(name) AGAINST('聪' IN BOOLEAN MODE)

​ 更多内容请参考:MySQL中的全文检索(1)

和常用的模糊匹配使用 like + % 不同,全文索引有自己的语法格式,使用 match 和 against 关键字,比如

select * from fulltext_test
    where match(content,tag) against('xxx xxx');

注意: match() 函数中指定的列必须和全文索引中指定的列完全相同,否则就会报错,无法使用全文索引,这是因为全文索引不会记录关键字来自哪一列。如果想要对某一列使用全文索引,请单独为该列创建全文索引。

4.1 + : 用在词的前面,表示一定要包含该词,并且必须在开始位置。

eg: +Apple 匹配:Apple123,   "tommy, Apple"

4.2 - : 不包含该词,所以不能只用「-yoursql」这样是查不到任何row的,必须搭配其他语法使用。

eg: MATCH (girl_name) AGAINST ('-林志玲 +张筱雨')
---匹配到: 所有不包含林志玲,但包含张筱雨的记录 

4.3. 空(也就是默认情况),表示可选的,包含该词的顺序较高。

 例子:

`         apple banana      `找至少包含上面词中的一个的记录行

`         +apple +juice`        两个词均在被包含

`         +apple macintosh   `包含词 “apple”,但是如果同时包含 “macintosh”,它的排列将更高一些

`         +apple -macintosh  `包含 “apple” 但不包含 “macintosh”

4.4. > :提高该字的相关性,查询的结果会排在比较靠前的位置。

4.5.<:降低相关性,查询的结果会排在比较靠后的位置。

​ 例子:4.5.1.先不使用 ><

select * from tommy.girl where match(girl_name) against('张欣婷' in boolean mode);

mysql全文索引 可以看到完全匹配的排的比较靠前

​ 4.5.2. 单独使用 >

select * from tommy.girl where match(girl_name) against('张欣婷 >李秀琴' in boolean mode);

mysql全文索引 使用了>的李秀琴马上就排到最前面了

​ 4.5.3. 单独使用 <

select * from tommy.girl where match(girl_name) against('张欣婷 <不是人' in boolean mode);

mysql全文索引 看到没,不是人也排到最前面了,这里使用的可是 <哦,说好的降低相关性呢,往下看吧。

​ 4.5.4.同时使用><

select * from tommy.girl where match(girl_name) against('张欣婷 >李秀琴 <练习册 <不是人>是个鬼' in boolean mode);

mysql全文索引 到这里终于有答案了,只要使用了 ><的都会往前排,而且>的总是排在<的前面

小结一下

  1. 只要使用 ><的总比没用的 靠前;

  2. 使用 >的一定比 <的排的靠前 (这就符合相关性提高和降低);

  3. 使用同一类的,使用的越早,排的越前。

4.6. ( ):可以通过括号来使用字条件。

 eg: +aaa +(>bbb  aaa&bbb&ccc > aaa&ccc

4.7. ~ :将其相关性由正转负,表示拥有该字会降低相关性,但不像「-」将之排除,只是排在较后面

 eg:  +apple ~macintosh  先匹配apple,但如果同时包含macintosh,就排名会靠后。

4.8. * :通配符,这个只能接在字符串后面

 MATCH (girl_name) AGAINST ('+*ABC*')  #错误,不能放前面

 MATCH (girl_name) AGAINST ('+张筱雨*')  #正确

 eg:  "tommy huang" 可以匹配  tommy huang xxxxx  但是不能匹配 tommy is huang。

5.补充:Windows下无法修改 ft_min_word_len的情况

5. 1. 使用cmd打开 services.msc

​ 找到你的 MySQL服务,右键Properties,找到你的my.ini所在的路径

mysql全文索引

5.2. 停止MySQL,在my.ini中增加 ft_min_word_len = 1,重启MySQL

​ 然后使用命令 show variables like 'ft_min_word_len'; 查看是否生效了

参考:
链接1
链接2


推荐阅读
  • Spring特性实现接口多类的动态调用详解
    本文详细介绍了如何使用Spring特性实现接口多类的动态调用。通过对Spring IoC容器的基础类BeanFactory和ApplicationContext的介绍,以及getBeansOfType方法的应用,解决了在实际工作中遇到的接口及多个实现类的问题。同时,文章还提到了SPI使用的不便之处,并介绍了借助ApplicationContext实现需求的方法。阅读本文,你将了解到Spring特性的实现原理和实际应用方式。 ... [详细]
  • 基于PgpoolII的PostgreSQL集群安装与配置教程
    本文介绍了基于PgpoolII的PostgreSQL集群的安装与配置教程。Pgpool-II是一个位于PostgreSQL服务器和PostgreSQL数据库客户端之间的中间件,提供了连接池、复制、负载均衡、缓存、看门狗、限制链接等功能,可以用于搭建高可用的PostgreSQL集群。文章详细介绍了通过yum安装Pgpool-II的步骤,并提供了相关的官方参考地址。 ... [详细]
  • 本文介绍了一个在线急等问题解决方法,即如何统计数据库中某个字段下的所有数据,并将结果显示在文本框里。作者提到了自己是一个菜鸟,希望能够得到帮助。作者使用的是ACCESS数据库,并且给出了一个例子,希望得到的结果是560。作者还提到自己已经尝试了使用"select sum(字段2) from 表名"的语句,得到的结果是650,但不知道如何得到560。希望能够得到解决方案。 ... [详细]
  • 本文介绍了如何使用C#制作Java+Mysql+Tomcat环境安装程序,实现一键式安装。通过将JDK、Mysql、Tomcat三者制作成一个安装包,解决了客户在安装软件时的复杂配置和繁琐问题,便于管理软件版本和系统集成。具体步骤包括配置JDK环境变量和安装Mysql服务,其中使用了MySQL Server 5.5社区版和my.ini文件。安装方法为通过命令行将目录转到mysql的bin目录下,执行mysqld --install MySQL5命令。 ... [详细]
  • 在Xamarin XAML语言中如何在页面级别构建ControlTemplate控件模板
    本文介绍了在Xamarin XAML语言中如何在页面级别构建ControlTemplate控件模板的方法和步骤,包括将ResourceDictionary添加到页面中以及在ResourceDictionary中实现模板的构建。通过本文的阅读,读者可以了解到在Xamarin XAML语言中构建控件模板的具体操作步骤和语法形式。 ... [详细]
  • MyBatis多表查询与动态SQL使用
    本文介绍了MyBatis多表查询与动态SQL的使用方法,包括一对一查询和一对多查询。同时还介绍了动态SQL的使用,包括if标签、trim标签、where标签、set标签和foreach标签的用法。文章还提供了相关的配置信息和示例代码。 ... [详细]
  • 本文介绍了OpenStack的逻辑概念以及其构成简介,包括了软件开源项目、基础设施资源管理平台、三大核心组件等内容。同时还介绍了Horizon(UI模块)等相关信息。 ... [详细]
  • Spring源码解密之默认标签的解析方式分析
    本文分析了Spring源码解密中默认标签的解析方式。通过对命名空间的判断,区分默认命名空间和自定义命名空间,并采用不同的解析方式。其中,bean标签的解析最为复杂和重要。 ... [详细]
  • Python正则表达式学习记录及常用方法
    本文记录了学习Python正则表达式的过程,介绍了re模块的常用方法re.search,并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具,通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ... [详细]
  • Android开发实现的计时器功能示例
    本文分享了Android开发实现的计时器功能示例,包括效果图、布局和按钮的使用。通过使用Chronometer控件,可以实现计时器功能。该示例适用于Android平台,供开发者参考。 ... [详细]
  • ubuntu用sqoop将数据从hive导入mysql时,命令: ... [详细]
  • r2dbc配置多数据源
    R2dbc配置多数据源问题根据官网配置r2dbc连接mysql多数据源所遇到的问题pom配置可以参考官网,不过我这样配置会报错我并没有这样配置将以下内容添加到pom.xml文件d ... [详细]
  • 本文介绍了在处理不规则数据时如何使用Python自动提取文本中的时间日期,包括使用dateutil.parser模块统一日期字符串格式和使用datefinder模块提取日期。同时,还介绍了一段使用正则表达式的代码,可以支持中文日期和一些特殊的时间识别,例如'2012年12月12日'、'3小时前'、'在2012/12/13哈哈'等。 ... [详细]
  • 本文介绍了Oracle存储过程的基本语法和写法示例,同时还介绍了已命名的系统异常的产生原因。 ... [详细]
  • 使用圣杯布局模式实现网站首页的内容布局
    本文介绍了使用圣杯布局模式实现网站首页的内容布局的方法,包括HTML部分代码和实例。同时还提供了公司新闻、最新产品、关于我们、联系我们等页面的布局示例。商品展示区包括了车里子和农家生态土鸡蛋等产品的价格信息。 ... [详细]
author-avatar
乔9000
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有