PHP小技巧之计算文本相似度

作者：情人節快樂1991的名单 | 来源：互联网 | 2023-09-23 18:27

需求：对于内容进行相似度对比，如果有之前的内容和当前发布的内容标题相似度到达某个阈值时则禁止发布或进行其他的一些操作。看到这个需求，可能就想到需要使用某种算法来实现，例如：TF-I

需求：对于内容进行相似度对比，如果有之前的内容和当前发布的内容标题相似度到达某个阈值时则禁止发布或进行其他的一些操作。

看到这个需求，可能就想到需要使用某种算法来实现，例如：TF-IDF、基于空间向量的余弦算法、最长公共子序列、最小编辑距离算法、Jaccard 系数等等。

levenshtein 编辑距离越小相似度越高

最小编辑距离算法在 PHP 中已经有了实现：levenshtein，计算两个字符串之间的编辑距离。

<br>levenshtein(<br>    string $string1,<br>    string $string2,<br>    int $insertion_cost = 1,<br>    int $replacement_cost = 1,<br>    int $deletion_cost = 1<br>): int

levenshtein(

string $string1,

string $string2,

int $insertion_cost = 1,

int $replacement_cost = 1,

int $deletion_cost = 1

): int

编辑距离，是指两个字符串之间，通过替换、插入、删除等操作将字符串 string1 转换成 string2 所需要操作的最少字符数量。

该算法的复杂度是 O(m*n)，其中 n 和 m 分别是 string1 和 string2 的长度。

来点废话文学演示一下：

<br>echo levenshtein('听君一席话', '听君一席话'); // 0<br>echo levenshtein('听君一席话', '如听一席话'); // 3<br>echo levenshtein('我不要你觉得', '我要我觉得'); // 6<br>echo levenshtein('今天的天气怎么样？', '你吃饭了吗？'); // 21

echo levenshtein('听君一席话', '听君一席话'); // 0

echo levenshtein('听君一席话', '如听一席话'); // 3

echo levenshtein('我不要你觉得', '我要我觉得'); // 6

echo levenshtein('今天的天气怎么样？', '你吃饭了吗？'); // 21

当编辑距离越小时，相似度就越高。

similar_text 两个字符串相似度函数

除了编辑距离，PHP 还直接提供了一个计算两个字符串相似度的函数：similar_text。

<br>similar_text(string $string1, string $string2, float &$percent = null): int

1	similar_text(string $string1, string $string2, float &$percent = null): int

返回两个字符串中匹配字符的数量。

通过将引用作为第三个参数传递，similar_text() 会通过将 similar_text() 的结果除以给定字符串的平均长度，乘以百分比来计算相似度 100。

<br>echo similar_text('听君一席话', '听君一席话', $percent); // 15<br>echo $percent; // 100<br>echo similar_text('听君一席话', '如听一席话', $percent); // 12<br>echo $percent; // 80<br>echo similar_text('我不要你觉得', '我要我觉得', $percent); // 12<br>echo $percent; // 72.727272727273<br>echo similar_text('今天的天气怎么样？', '你吃饭了吗？', $percent); // 6<br>echo $percent; // 26.666666666667

echo similar_text('听君一席话', '听君一席话', $percent); // 15

echo $percent; // 100

echo similar_text('听君一席话', '如听一席话', $percent); // 12

echo $percent; // 80

echo similar_text('我不要你觉得', '我要我觉得', $percent); // 12

echo $percent; // 72.727272727273

echo similar_text('今天的天气怎么样？', '你吃饭了吗？', $percent); // 6

echo $percent; // 26.666666666667

这个函数的相似程度计算依据 Programming Classics: Implementing the World's Best Algorithms by Oliver (ISBN 0-131-00413-1) 的描述进行。

这个函数的实现使用了递归调用，所以可能会导致整个过程变慢或者变快，该算法的复杂度是 O(N**3)，N 是最长字符串的长度。

当 $percent 越大时，相似度越高。

匹配字符的数量是通过找到最长的第一个公共子字符串来计算的，然后递归地对前缀和后缀执行此操作。将所有找到的公共子字符串的长度相加。

推荐阅读

list
Python 数据类型入门指南

本文介绍了 Python 中的基本数据类型，包括不可变数据类型（数字、字符串、元组）和可变数据类型（列表、字典、集合），并详细解释了每种数据类型的使用方法和常见操作。 ... [详细]

蜡笔小新 2024-11-15 09:59:00
select
Java 15 发布，带来多项重要更新！

2020年9月15日，Oracle正式发布了最新的JDK 15版本。本次更新带来了许多新特性，包括隐藏类、EdDSA签名算法、模式匹配、记录类、封闭类和文本块等。 ... [详细]

蜡笔小新 2024-11-14 12:11:09
char
MySQL初级篇——字符串、日期时间、流程控制函数的相关应用

文章目录：1.字符串函数2.日期时间函数2.1获取日期时间2.2日期与时间戳的转换2.3获取年月日、时分秒、星期数、天数等函数2.4时间和秒钟的转换2. ... [详细]

蜡笔小新 2024-11-14 10:57:02
import
Spring 高级教程（15）：Spring AOP（3）—— 使用注解配置切面（1）：方法执行前后的增强处理

本文介绍了如何在Spring框架中使用AspectJ实现AOP编程，重点讲解了通过注解配置切面的方法，包括方法执行前和方法执行后的增强处理。阅读本文前，请确保已安装并配置好AspectJ。 ... [详细]

蜡笔小新 2024-11-15 15:57:13
import
短视频app源码，Android开发底部滑出菜单

短视频app源码，Android开发底部滑出菜单首先依赖三方库implementationandroidx.appcompat:appcompat:1.2.0im ... [详细]

蜡笔小新 2024-11-15 15:35:01
command
使用Tkinter构建51Ape无损音乐爬虫UI

本文介绍了如何使用Python的内置模块Tkinter来构建一个简单的用户界面，用于爬取51Ape网站上的无损音乐百度云链接。虽然Tkinter入门相对简单，但在实际开发过程中由于文档不足可能会带来一些不便。 ... [详细]

蜡笔小新 2024-11-15 10:31:11
import
Go语言中正则表达式的简易应用

本文介绍了Go语言中正则表达式的基本使用方法，并提供了一些实用的示例代码。 ... [详细]

蜡笔小新 2024-11-14 20:27:47
char
Spring Boot 中使用 spring-boot-starter-quartz 实现定时任务

本文介绍了如何在 Spring Boot 项目中使用 spring-boot-starter-quartz 组件实现定时任务，并将 cron 表达式存储在数据库中，以便动态调整任务执行频率。 ... [详细]

蜡笔小新 2024-11-14 18:55:09
list
自然语言处理(NLP)——LDA模型:对电商购物评论进行情感分析

目录一、2020数学建模美赛C题简介需求评价内容提供数据二、解题思路三、LDA简介四、代码实现1.数据预处理1.1剔除无用信息1.1.1剔除掉不需要的列1.1.2找出无效评论并剔除 ... [详细]

蜡笔小新 2024-11-14 18:21:21
char
Spark 弹性分布式数据集详解

本文详细介绍了 Spark 中的弹性分布式数据集（RDD）及其常见的操作方法，包括 union、intersection、cartesian、subtract、join、cogroup 等转换操作，以及 count、collect、reduce、take、foreach、first、saveAsTextFile 等行动操作。 ... [详细]

蜡笔小新 2024-11-14 15:44:57
char
Android Studio SQLite 数据库增删改查简单（代码参考）

一个建表一个执行crud操作建表代码importandroid.content.Context;importandroid.database.sqlite.SQLiteDat ... [详细]

蜡笔小新 2024-11-14 11:01:49
datetime
C#实现文件的压缩与解压

2019独角兽企业重金招聘Python工程师标准一、准备工作1、下载ICSharpCode.SharpZipLib.dll文件2、项目中引用这个dll二、文件压缩与解压共用类 ... [详细]

蜡笔小新 2024-11-14 10:37:34
char
【数据结构】线段数/segment tree/interval tree

【线段树】　　本质是二叉树，每个节点表示一个区间[L,R]，设m(R-L+1)2(该处结果向下取整)左孩子区间为[L，m]，右孩子区间为[m ... [详细]

蜡笔小新 2024-11-14 23:11:47
main
Java设计模式详解：解释器模式的应用与实现

本文详细介绍了Java设计模式中的解释器模式，包括其定义、应用场景、优缺点以及具体的实现示例。通过音乐解释器的例子，帮助读者更好地理解和应用这一模式。 ... [详细]

蜡笔小新 2024-11-14 21:00:34
main
Magician - 区间查询与合并问题

题目描述：给定一个区间，支持两种操作：1. 将位置a的值修改为b；2. 查询区间[a, b]内的子序列的最大和，其中子序列中相邻的元素必须具有不同的奇偶性。 ... [详细]

蜡笔小新 2024-11-14 19:57:14

情人節快樂1991的名单

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章