热门标签 | HotTags
当前位置:  开发笔记 > 人工智能 > 正文

中文句子相似度计算思路

这里主要面向初学者介绍句子相似度目前主流的研究方向。从词到句子,这是目前中文相似度计算的主要思想。而由这个-思想引申出来的算法却非常多,这里面向初学者介绍比较容易实现的方法。这里要介

这里主要面向初学者介绍句子相似度目前主流的研究方向。

从词到句子,这是目前中文相似度计算的主要思想。而由这个-思想引申出来的算法却非常多,这里面向初学者介绍比较容易实现的方法。

这里要介绍的是二分法计算句子相似度。这个算法实现简单,思路清晰由此出现的技术分类变化万千,主要的变化是分组,也成为分集合。二分法的思想是:集合一和集合二是两个词的集合,集合一的每一个词与集合二的每一个词求相似度,找出最大的一个来相加,然后反过来,集合二到集合一求相似度,找出最大的相加。这样就得到一个相似度的和,这个值再除以所有词的个数就形成二分法求相似度了。这里解释两个问题,第一个就是为什么要反过来求一次,其实就是怕两个集合个数不相同,会引发误差。第二个问题,为什么说变化相当多,有些读者已经想到了,怎么划分集合一和集合二!这是一个大问题,把一个句子划分为多个集合,这里面的算法会非常复杂也是现在研究的重点之一,这里提供两个思路。

思路一,权重。通过各种方法划分每个词在句子中的权重,最典型的代表就是把提取到的关键词作为一个集合,其他的所有词作为一个集合。

思路二,地位。通过判断词语在当前句子中的地位,处于相同地位的词分别作为一个集合。最简单的例子就是,把所有名字作为集合,动作作为集合等等进行计算。


词到句子,这是一种基于语义的计算方法。另一种刚刚起步的就是基于语法的相似度计算方法。

这种方法在目前来看是很有前景的研究方向,因为在日常用语中不会出现太过复杂的句子结构,不同语义的句子往往语法上有不小的差别,语义差距越大语法差异越大,因此在处理日常会话中语法相似度就有着令人惊异的处理效率和处理准确度。这方面还处于刚刚起步的阶段,研究也多是基础性的,成熟的思想不多论文也很少。给出一点简单的例子,例如词序相似度和词型相似度。这种相似度可靠性不高属于基础性,有兴趣的可以继续探索。越是空白领域更容易出成果。


推荐阅读
  • 深入解析Android自定义View面试题
    本文探讨了Android Launcher开发中自定义View的重要性,并通过一道经典的面试题,帮助开发者更好地理解自定义View的实现细节。文章不仅涵盖了基础知识,还提供了实际操作建议。 ... [详细]
  • 优化ListView性能
    本文深入探讨了如何通过多种技术手段优化ListView的性能,包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]
  • 本文介绍如何利用动态规划算法解决经典的0-1背包问题。通过具体实例和代码实现,详细解释了在给定容量的背包中选择若干物品以最大化总价值的过程。 ... [详细]
  • 本文详细探讨了Java中的24种设计模式及其应用,并介绍了七大面向对象设计原则。通过创建型、结构型和行为型模式的分类,帮助开发者更好地理解和应用这些模式,提升代码质量和可维护性。 ... [详细]
  • 本文介绍了Java并发库中的阻塞队列(BlockingQueue)及其典型应用场景。通过具体实例,展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递,并结合线程池和原子类优化性能。 ... [详细]
  • 题目描述:给定n个半开区间[a, b),要求使用两个互不重叠的记录器,求最多可以记录多少个区间。解决方案采用贪心算法,通过排序和遍历实现最优解。 ... [详细]
  • 深入理解C++中的KMP算法:高效字符串匹配的利器
    本文详细介绍C++中实现KMP算法的方法,探讨其在字符串匹配问题上的优势。通过对比暴力匹配(BF)算法,展示KMP算法如何利用前缀表优化匹配过程,显著提升效率。 ... [详细]
  • 探讨一个显示数字的故障计算器,它支持两种操作:将当前数字乘以2或减去1。本文将详细介绍如何用最少的操作次数将初始值X转换为目标值Y。 ... [详细]
  • 本文详细介绍了Java编程语言中的核心概念和常见面试问题,包括集合类、数据结构、线程处理、Java虚拟机(JVM)、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题,帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]
  • 本文探讨如何设计一个安全的加密和验证算法,确保生成的密码具有高随机性和低重复率,并提供相应的验证机制。 ... [详细]
  • 深入解析:手把手教你构建决策树算法
    本文详细介绍了机器学习中广泛应用的决策树算法,通过天气数据集的实例演示了ID3和CART算法的手动推导过程。文章长度约2000字,建议阅读时间5分钟。 ... [详细]
  • 在金融和会计领域,准确无误地填写票据和结算凭证至关重要。这些文件不仅是支付结算和现金收付的重要依据,还直接关系到交易的安全性和准确性。本文介绍了一种使用C语言实现小写金额转换为大写金额的方法,确保数据的标准化和规范化。 ... [详细]
  • 在给定的数组中,除了一个数字外,其他所有数字都是相同的。任务是找到这个唯一的不同数字。例如,findUniq([1, 1, 1, 2, 1, 1]) 返回 2,findUniq([0, 0, 0.55, 0, 0]) 返回 0.55。 ... [详细]
  • 本文探讨了卷积神经网络(CNN)中感受野的概念及其与锚框(anchor box)的关系。感受野定义了特征图上每个像素点对应的输入图像区域大小,而锚框则是在每个像素中心生成的多个不同尺寸和宽高比的边界框。两者在目标检测任务中起到关键作用。 ... [详细]
  • 网络攻防实战:从HTTP到HTTPS的演变
    本文通过一系列日记记录了从发现漏洞到逐步加强安全措施的过程,探讨了如何应对网络攻击并最终实现全面的安全防护。 ... [详细]
author-avatar
沙漏虎
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有