当前位置: 开发笔记 > 编程语言 > 正文

php求相似比,PHP改进计算字符串相似度的函数similar_text()、levenshtein()

作者：欢乐天天快乐一生 | 来源：互联网 | 2023-09-23 17:55

PHP原生的similar_text()函数、levenshtein()函数对中文汉字支持不好，我自己写了一个，测试使用正常，推荐给大家&

PHP 原生的similar_text()函数、levenshtein()函数对中文汉字支持不好&＃xff0c;我自己写了一个&＃xff0c;测试使用正常&＃xff0c;推荐给大家&＃xff0c;如果有什么问题&＃xff0c;请留言

similar_text()中文汉字版

代码如下:

//拆分字符串

function split_str($str) {

preg_match_all("/./u", $str, $arr);

return $arr[0];

}

//相似度检测

function similar_text_cn($str1, $str2) {

$arr_1 &＃61; array_unique(split_str($str1));

$arr_2 &＃61; array_unique(split_str($str2));

$similarity &＃61; count($arr_2) - count(array_diff($arr_2, $arr_1));

return $similarity;

}

levenshtein()中文汉字版

代码如下:

//拆分字符串

function mbStringToArray($string, $encoding &＃61; &＃39;UTF-8&＃39;) {

$arrayResult &＃61; array();

while ($iLen &＃61; mb_strlen($string, $encoding)) {

array_push($arrayResult, mb_substr($string, 0, 1, $encoding));

$string &＃61; mb_substr($string, 1, $iLen, $encoding);

}

return $arrayResult;

}

//编辑距离

function levenshtein_cn($str1, $str2, $costReplace &＃61; 1, $encoding &＃61; &＃39;UTF-8&＃39;) {

$count_same_letter &＃61; 0;

$d &＃61; array();

$mb_len1 &＃61; mb_strlen($str1, $encoding);

$mb_len2 &＃61; mb_strlen($str2, $encoding);

$mb_str1 &＃61; mbStringToArray($str1, $encoding);

$mb_str2 &＃61; mbStringToArray($str2, $encoding);

for ($i1 &＃61; 0; $i1 <&＃61; $mb_len1; $i1&＃43;&＃43;) {

$d[$i1] &＃61; array();

$d[$i1][0] &＃61; $i1;

}

for ($i2 &＃61; 0; $i2 <&＃61; $mb_len2; $i2&＃43;&＃43;) {

$d[0][$i2] &＃61; $i2;

}

for ($i1 &＃61; 1; $i1 <&＃61; $mb_len1; $i1&＃43;&＃43;) {

for ($i2 &＃61; 1; $i2 <&＃61; $mb_len2; $i2&＃43;&＃43;) {

// $cost &＃61; ($str1[$i1 - 1] &＃61;&＃61; $str2[$i2 - 1]) ? 0 : 1;

if ($mb_str1[$i1 - 1] &＃61;&＃61;&＃61; $mb_str2[$i2 - 1]) {

$cost &＃61; 0;

$count_same_letter&＃43;&＃43;;

} else {

$cost &＃61; $costReplace; //替换

}

$d[$i1][$i2] &＃61; min($d[$i1 - 1][$i2] &＃43; 1, //插入

$d[$i1][$i2 - 1] &＃43; 1, //删除

$d[$i1 - 1][$i2 - 1] &＃43; $cost);

}

return $d[$mb_len1][$mb_len2];

//return array(&＃39;distance&＃39; &＃61;> $d[$mb_len1][$mb_len2], &＃39;count_same_letter&＃39; &＃61;> $count_same_letter);

}

最长公共子序列LCS()

代码如下:

本文原创发布php中文网&＃xff0c;转载请注明出处&＃xff0c;感谢您的尊重&＃xff01;

推荐阅读

io
PHP 对象生命周期与内存管理

本文详细介绍了 PHP 中对象的生命周期、内存管理和魔术方法的使用，包括对象的自动销毁、析构函数的作用以及各种魔术方法的具体应用场景。 ... [详细]

蜡笔小新 2024-11-12 13:35:26
fetch
使用HTML和JavaScript实现视频截图功能

本文介绍了如何利用HTML和JavaScript实现从远程MP4、本地摄像头及本地上传的MP4文件中截取视频帧，并展示了具体的实现步骤和示例代码。 ... [详细]

蜡笔小新 2024-11-15 00:19:42
list
2.2 组件间父子通信机制详解

2.2 组件间父子通信机制详解 ... [详细]

蜡笔小新 2024-11-11 14:58:09
io
vue引入echarts地图的四种方式

一、vue中引入echart1、安装echarts:npminstallecharts--save2、在main.js文件中引入echarts实例: Vue.prototype.$echartsecharts3、在需要用到echart图形的vue文件中引入: importechartsfrom&quot;echarts&quot;;4、如果用到map（地图），还 ... [详细]

蜡笔小新 2024-11-15 13:07:46
list
普通树(每个节点可以有任意数量的子节点)级序遍历

普通树(每个节点可以有任意数量的子节点)级序遍历 ... [详细]

蜡笔小新 2024-11-14 18:53:26
list
不使用node的自带的模块，如何将下列代码装换？

不使用node的自带的模块，如何将下列代码装换？ ... [详细]

蜡笔小新 2024-11-14 18:43:04
search
python模块之正则

re模块可以读懂你写的正则表达式根据你写的表达式去执行任务用re去操作正则正则表达式使用一些规则来检测一些字符串是否符合个人要求，从一段字符串中找到符合要求的内容。在 ... [详细]

蜡笔小新 2024-11-14 15:52:38
fetch
包含phppdoerrorcode的词条

包含phppdoerrorcode的词条 ... [详细]

蜡笔小新 2024-11-14 12:06:14
list
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
io
本地存储组件实现对IE低版本浏览器的兼容性支持

本地存储组件实现对IE低版本浏览器的兼容性支持 ... [详细]

蜡笔小新 2024-11-11 22:42:37
io
利用 Node.js 和 Express（4.x 及以上版本）构建高效文件上传功能

本文介绍了如何使用 Node.js 和 Express（4.x 及以上版本）构建高效的文件上传功能。通过引入 `multer` 中间件，可以轻松实现文件上传。首先，需要通过 `npm install multer` 安装该中间件。接着，在 Express 应用中配置 `multer`，以处理多部分表单数据。本文详细讲解了 `multer` 的基本用法和高级配置，帮助开发者快速搭建稳定可靠的文件上传服务。 ... [详细]

蜡笔小新 2024-11-11 18:02:17
io
DVWA学习笔记系列：深入理解CSRF攻击机制

DVWA学习笔记系列：深入理解CSRF攻击机制 ... [详细]

蜡笔小新 2024-11-11 13:19:51
split
Python 序列图分割与可视化编程入门教程

本文介绍了如何使用 Python 进行序列图的快速分割与可视化。通过一个实际案例，详细展示了从需求分析到代码实现的全过程。具体包括如何读取序列图数据、应用分割算法以及利用可视化库生成直观的图表，帮助非编程背景的用户也能轻松上手。 ... [详细]

蜡笔小新 2024-11-11 07:14:26
io
如何使用 `org.eclipse.rdf4j.query.impl.MapBindingSet.getValue()` 方法及其代码示例详解

如何使用 `org.eclipse.rdf4j.query.impl.MapBindingSet.getValue()` 方法及其代码示例详解 ... [详细]

蜡笔小新 2024-11-11 02:42:52

欢乐天天快乐一生

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章