mysqlfulltext中文_mysql5.6InnoDB全文索引FULLTEXT中文解决方案base64

作者：手机用户2502873667 | 来源：互联网 | 2023-10-12 23:06

mysql5.6innlDB在CHAR、VARCHAR、TEXT类型的列上可以定义全文索引，但因为无法中文分词所以对中文的支持很差，但从MySQL5.7

mysql5.6 innlDB 在CHAR、VARCHAR、TEXT类型的列上可以定义全文索引&＃xff0c;但因为无法中文分词所以对中文的支持很差&＃xff0c;但从MySQL5.7开始&＃xff0c;MySQL内置了ngram全文检索插件&＃xff0c;用来支持中文分词&＃xff0c;并且对MyISAM和InnoDB引擎有效。

在没法升级5.7的情况下&＃xff0c;5.6有变通的办法&＃xff0c;就是将整句的中文拆分成单个汉字&＃xff0c;并按urlencode、区位码、base64、拼音等进行编码使之以"字母&＃43;数字"的方式存储于数据库中。转换完达到如下的效果&＃xff1a;

存储的是将汉字编码后的结果&＃xff0c;用空格连起来&＃xff0c;这样就可以使用5.6的全文索引来进行搜索&＃xff0c;注意的是要将搜索的内容也先同样编码再进行搜索。

下面给出一种基于base64的汉字变换方式

/**

* 关键词整理函数(用作mysql的全文索引制作的搜索)

* 1.将字符串全角转半角、去空格、大写转小写、分成单个字符并base64编码、最后用空格连接类,方便mysql索引,做搜索关键字

* 2.将数字转全角做索引区分标识,全角数字为标识专用

**/

function keywords($str){//全角转半角

$str &＃61; strtr($str,[‘&＃xff11;‘ &＃61;> ‘1‘,‘&＃xff12;‘ &＃61;> ‘2‘,‘&＃xff13;‘ &＃61;> ‘3‘,‘&＃xff14;‘ &＃61;> ‘4‘,‘&＃xff15;‘ &＃61;> ‘5‘,‘&＃xff16;‘ &＃61;> ‘6‘,‘&＃xff17;‘ &＃61;> ‘7‘,‘&＃xff18;‘ &＃61;> ‘8‘,‘&＃xff19;‘ &＃61;> ‘9‘,‘&＃xff10;‘ &＃61;> ‘0‘,

‘&＃xff21;‘ &＃61;> ‘A‘,‘&＃xff22;‘ &＃61;> ‘B‘,‘&＃xff23;‘ &＃61;> ‘C‘,‘&＃xff24;‘ &＃61;> ‘D‘,‘&＃xff25;‘ &＃61;> ‘E‘,‘&＃xff26;‘ &＃61;> ‘F‘,‘&＃xff27;‘ &＃61;> ‘G‘,‘&＃xff28;‘ &＃61;> ‘H‘,‘&＃xff29;‘ &＃61;> ‘I‘,‘&＃xff2a;‘ &＃61;> ‘J‘,‘&＃xff2b;‘ &＃61;> ‘K‘,‘&＃xff2c;‘ &＃61;> ‘L‘,‘&＃xff2d;‘ &＃61;> ‘M‘,‘&＃xff2e;‘ &＃61;> ‘N‘,‘&＃xff2f;‘ &＃61;> ‘O‘,‘&＃xff30;‘ &＃61;> ‘P‘,‘&＃xff31;‘ &＃61;> ‘Q‘,‘&＃xff32;‘ &＃61;> ‘R‘,‘&＃xff33;‘ &＃61;> ‘S‘,‘&＃xff34;‘ &＃61;> ‘T‘,‘&＃xff35;‘ &＃61;> ‘U‘,‘&＃xff36;‘ &＃61;> ‘V‘,‘&＃xff37;‘ &＃61;> ‘W‘,‘&＃xff38;‘ &＃61;> ‘X‘,‘&＃xff39;‘ &＃61;> ‘Y‘,‘&＃xff3a;‘ &＃61;> ‘Z‘,

‘&＃xff41;‘ &＃61;> ‘a‘,‘&＃xff42;‘ &＃61;> ‘b‘,‘&＃xff43;‘ &＃61;> ‘c‘,‘&＃xff44;‘ &＃61;> ‘d‘,‘&＃xff45;‘ &＃61;> ‘e‘,‘&＃xff46;‘ &＃61;> ‘f‘,‘&＃xff47;‘ &＃61;> ‘g‘,‘&＃xff48;‘ &＃61;> ‘h‘,‘&＃xff49;‘ &＃61;> ‘i‘,‘&＃xff4a;‘ &＃61;> ‘j‘,‘&＃xff4b;‘ &＃61;> ‘k‘,‘&＃xff4c;‘ &＃61;> ‘l‘,‘&＃xff4d;‘ &＃61;> ‘m‘,‘&＃xff4e;‘ &＃61;> ‘n‘,‘&＃xff4f;‘ &＃61;> ‘o‘,‘&＃xff50;‘ &＃61;> ‘p‘,‘&＃xff51;‘ &＃61;> ‘q‘,‘&＃xff52;‘ &＃61;> ‘r‘,‘&＃xff53;‘ &＃61;> ‘s‘,‘&＃xff54;‘ &＃61;> ‘t‘,‘&＃xff55;‘ &＃61;> ‘u‘,‘&＃xff56;‘ &＃61;> ‘v‘,‘&＃xff57;‘ &＃61;> ‘w‘,‘&＃xff58;‘ &＃61;> ‘x‘,‘&＃xff59;‘ &＃61;> ‘y‘,‘&＃xff5a;‘ &＃61;> ‘z‘,

‘&＃xff5e;‘ &＃61;> ‘~‘,‘&＃xff40;‘ &＃61;> ‘&＃96;‘,‘&＃xff01;‘ &＃61;> ‘!‘,‘&＃xff20;‘ &＃61;> ‘&＃64;‘,‘&＃xff03;‘ &＃61;> ‘#‘,‘&＃xff04;‘ &＃61;> ‘$‘,‘&＃xff05;‘ &＃61;> ‘%‘,‘&＃xff3e;‘ &＃61;> ‘^‘,‘&＃xff06;‘ &＃61;> ‘&‘,‘&＃xff0a;‘ &＃61;> ‘*‘,‘(‘ &＃61;> ‘(‘,‘)‘ &＃61;> ‘)‘,‘&＃xff3f;‘ &＃61;> ‘_‘,‘&＃xff0d;‘ &＃61;> ‘-‘,‘&＃xff0b;‘ &＃61;> ‘&＃43;‘,‘&＃xff1d;‘ &＃61;> ‘&＃61;‘,

‘&＃xff5b;‘ &＃61;> ‘{‘,‘&＃xff5d;‘ &＃61;> ‘}‘,‘&＃xff3b;‘ &＃61;> ‘[‘,‘&＃xff3d;‘ &＃61;> ‘]‘,‘&＃xff5c;‘ &＃61;> ‘|‘,‘&＃xff3c;‘ &＃61;> ‘\\‘,‘&＃xff1a;‘ &＃61;> ‘:‘,‘&＃xff1b;‘ &＃61;> ‘;‘,‘&＃xff02;‘ &＃61;> ‘"‘,‘&＃xff07;‘ &＃61;> ‘\‘‘,

‘&＃xff1c;‘ &＃61;> ‘ ‘,‘,‘&＃xff1e;‘ &＃61;> ‘>‘,‘&＃xff0e;‘ &＃61;> ‘.‘,‘&＃xff1f;‘ &＃61;> ‘?‘,‘&＃xff0f;‘ &＃61;> ‘/‘,‘　‘ &＃61;> ‘ ‘]);//去空格

$str &＃61; str_replace(‘ ‘,‘‘,$str);//大写转小写

$str &＃61; strtolower($str);//数字统一格式为阿拉伯数字

$str &＃61; strtr($str,[‘零‘ &＃61;> 0,‘一‘ &＃61;> 1,‘二‘ &＃61;> 2,‘三‘ &＃61;> 3,‘四‘ &＃61;> 4,‘五‘ &＃61;> 5,‘六‘ &＃61;> 6,‘七‘ &＃61;> 7,‘八‘ &＃61;> 8,‘九‘ &＃61;> 9]);//分成单个字符并base64编码

$str_len &＃61; strlen($str);//获取关键字集合

$arr &＃61;[];$str_len &＃61; mb_strlen($str);for($i &＃61; 0;$i <$str_len;&＃43;&＃43; $i){$keyword &＃61; strtr(base64_encode(mb_substr($str,$i,1)),‘&＃43;/&＃61;‘,‘abc‘);if(!in_array($keyword,$arr)){ //去除重复的关键字

$arr[] &＃61; $keyword;

}

}return $arr;

}

例如将字符串 ‘小明小红是朋友‘ 输入改函数&＃xff0c;返回的结果是数组如下

array(6) {

[0]&＃61;>

string(4) "5bCP"[1]&＃61;>

string(4) "5piO"[2]&＃61;>

string(4) "57qi"[3]&＃61;>

string(4) "5piv"[4]&＃61;>

string(4) "5pyL"[5]&＃61;>

string(4) "5YaL"}

分别对应相应的汉字&＃xff0c;注意小明和小红都有小这个字&＃xff0c;所以去掉重复的字&＃xff0c;只有六个编码。

然后用空格将数组连起来

$keywords &＃61; implode(‘ ‘,keywords($keyword));

将$keywords 存入数据库。

进阶&＃xff1a;

如果匹配的关键词包含一些常用的字&＃xff0c;会出现大量的结果。

例如搜索书名霸道总裁&＃xff0c;可能会出现&＃xff0c;裁缝&＃xff0c;总经理&＃xff0c;这样的结果

全文搜索是按照相关度从高到底返回的结果&＃xff0c;可以只去去前面一些相关度较高的结果。

或者先查询出相关度最高是多少(相关度是一个数值)&＃xff0c;然后除以二&＃xff0c;限定结果的相关度都大于这个最大相关度的一半。

参考

//通过最大相关度/2过滤一部分无关结果//查询出最大相关度是多少

$score &＃61; $this->sql(‘xs.nh‘)->query(‘SELECT MATCH(keywords_base) AGAINST (?) AS score FROM nh ORDER BY score DESC LIMIT 1‘,[$keywords]);//构造查询语句

$this->where[‘MATCH(keywords_base) AGAINST‘] &＃61; [$keywords,‘> ‘.$score[0][‘score‘] / 2];

推荐阅读

get
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09
get
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
get
BUUCTF [ZJCTF 2019] NiZhuanSiWei 解题报告

本文详细解析了BUUCTF [ZJCTF 2019] NiZhuanSiWei的解题过程，包括代码审计、PHP伪协议的使用以及反序列化漏洞的利用。 ... [详细]

蜡笔小新 2024-12-18 12:15:28
python
利用Python实现自动化群发邮件

本文详细介绍如何使用Python语言来实现邮件的自动群发功能，适合希望提高工作效率的技术爱好者和开发者。 ... [详细]

蜡笔小新 2024-12-17 09:44:08
perl
MySQL Binlog 中 DDL 语句对事务的影响分析

当 MySQL 的 autocommit 设置为 1 时，如果在一个事务中执行了 DDL 语句，那么该事务中从开始到执行 DDL 语句之前的所有 DML 操作将自动提交。随后的 DML 操作则需要在新的事务中进行。 ... [详细]

蜡笔小新 2024-12-12 13:43:55
get
sqlmap刷sqllibs_03header注入1722

文章目录17、less17-UpdateQuery-Errorbased-String18、less18-HeaderInjection-ErrorBased-string19、l ... [详细]

蜡笔小新 2024-12-09 20:27:46
get
解决IE9及以下浏览器图片上传预览问题

本文针对公司项目中普遍存在的IE浏览器兼容性问题，特别是IE9及以下版本，提出了具体的解决方案，确保用户在这些旧版浏览器中也能顺利实现图片上传预览功能。 ... [详细]

蜡笔小新 2024-12-03 13:29:12
get
PHP 编程疑难解析与知识点汇总

本文详细解答了 PHP 编程中的常见问题，并提供了丰富的代码示例和解决方案，帮助开发者更好地理解和应用 PHP 知识。 ... [详细]

蜡笔小新 2024-12-28 12:22:34
get
导航栏样式练习：项目实例解析

本文详细介绍了如何创建一个具有动态效果的导航栏，包括HTML、CSS和JavaScript代码的实现，并附有详细的说明和效果图。 ... [详细]

蜡笔小新 2024-12-27 19:42:28
get
java编写的简易计算器

主要用了2个类来实现的，话不多说，直接看运行结果，然后在奉上源代码1.Index.javaimportjava.awt.Color;im ... [详细]

蜡笔小新 2024-12-27 18:18:10
object
如何通过按钮聚焦ListView的TextCell？ - How to focus ListView's TextCell by button?

IneedtofocusTextCellsonebyoneviaabuttonclick.ItriedlistView.ScrollTo.我需要通过点击按钮逐个关注Tex ... [详细]

蜡笔小新 2024-12-27 17:02:23
get
分页插件3指定到某一页

前言--页数多了以后需要指定到某一页（只做了功能，样式没有细调）html ... [详细]

蜡笔小新 2024-12-27 15:19:01
get
DataGridView 保存时，为什么当前单元格的值无法保存？

在使用 DataGridView 时，如果在当前单元格中输入内容但光标未移开，点击保存按钮后，输入的内容可能无法保存。只有当光标离开单元格后，才能成功保存数据。本文将探讨如何通过调用 DataGridView 的内置方法解决此问题。 ... [详细]

蜡笔小新 2024-12-27 09:27:14
get
使用 NSTimer 实现倒计时功能

本文介绍如何使用 NSTimer 实现倒计时功能，详细讲解了初始化方法、参数配置以及具体实现步骤。通过示例代码展示如何创建和管理定时器，确保在指定时间间隔内执行特定任务。 ... [详细]

蜡笔小新 2024-12-26 19:08:19
get
Java中使用RSA非对称加密技术详解

本文详细介绍了如何在Java中实现RSA非对称加密技术，包括生成密钥对、加密和解密操作的具体实现步骤。 ... [详细]

蜡笔小新 2024-12-04 19:21:41

手机用户2502873667

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章