当前位置: 开发笔记 > 编程语言 > 正文

python词组语义相似度_python–在句子之间估计“近似”语义相似度的一些好方法是什么？...

作者：wangxuan1992_273_361 | 来源：互联网 | 2023-08-06 05:00

过去几个小时,我一直在看着SO上的nlp标签,我相信我没有错过任何东西,但如果我这样做,请指出我的问题.同时,我会描述我正在努力做什么.我在许多帖子上观察到的一个常见概念是语义相

过去几个小时,我一直在看着SO上的nlp标签,我相信我没有错过任何东西,但如果我这样做,请指出我的问题.

同时,我会描述我正在努力做什么.我在许多帖子上观察到的一个常见概念是语义相似性很难.例如,从this帖子,接受的解决方案建议如下&＃xff1a;

First of all, neither from the perspective of computational

linguistics nor of theoretical linguistics is it clear what

the term &＃39;semantic similarity&＃39; means exactly. ....

Consider these examples:

Pete and Rob have found a dog near the station.

Pete and Rob have never found a dog near the station.

Pete and Rob both like programming a lot.

Patricia found a dog near the station.

It was a dog who found Pete and Rob under the snow.

Which of the sentences 2-4 are similar to 1? 2 is the exact

opposite of 1, still it is about Pete and Rob (not) finding a

dog.

我的高级要求是利用k-means聚类,并根据语义相似性对文本进行分类,所以我需要知道的是它们是否是近似匹配.例如,在上面的例子中,我可以将1,2,4,5分类为一个类别,另一个分为3个(当然,3个将被一些更相似的句子备份).有些东西,找到相关的文章,但是他们不一定要100&＃xff05;相关.

我想我最终需要构建每个句子的向量表示,就像它的指纹一样,但是这个向量应该包含什么对我而言仍然是个开放的问题.它是n-gram,还是来自wordnet的东西,还是单个的词干或者其他的东西&＃xff1f;

This线程做了一个很棒的工作,枚举所有相关的技术,但不幸的是,停止只是当该职位到达我想要的.对这一领域最新的最新技术有什么建议&＃xff1f;

推荐阅读

select
深入解析 Kubernetes 亲和性调度机制及其优化策略

在 Kubernetes 中，Pod 的调度通常由集群的自动调度策略决定，这些策略主要关注资源充足性和负载均衡。然而，在某些场景下，用户可能需要更精细地控制 Pod 的调度行为，例如将特定的服务（如 GitLab）部署到特定节点上，以提高性能或满足特定需求。本文深入解析了 Kubernetes 的亲和性调度机制，并探讨了多种优化策略，帮助用户实现更高效、更灵活的资源管理。 ... [详细]

蜡笔小新 2024-11-05 17:27:07
select
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
case
如何使用 net.sf.extjwnl.data.Word 类及其代码示例详解

如何使用 net.sf.extjwnl.data.Word 类及其代码示例详解 ... [详细]

蜡笔小新 2024-11-01 19:30:32
case
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
grid
在\ n \ n \ n \ n之间的文本中修剪图案 - Trim pattern in a text between \n\n\n\n

IamcleaningtextinR.Mytexthastheform我在R中清理文本。我的文字有表格buthecouldnotavoidthesubje ... [详细]

蜡笔小新 2024-10-21 18:22:11
uri
lightgbm过去版本安装包_集成学习算法LightGBM

LightGBM在Kaggle，KDD等各类数据竞赛中，无论是分类问题还是回归问题亦或是排序问题，以GBDT（分类回归决策树 ... [详细]

蜡笔小新 2024-10-16 20:53:55
uri
三角测量计算三维坐标的代码_双目三维重建——层次化重建思考

双目三维重建——层次化重建思考FesianXu2020.7.22atANTFINANCIALintern前言本文是笔者阅读[1]第10章内容的笔记，本文从宏观的角度阐 ... [详细]

蜡笔小新 2024-11-13 19:31:37
case
使用 Python 封装依赖方法构建测试用例的依赖关系

本文介绍如何通过 Python 的 `unittest` 和 `functools` 模块封装一个依赖方法，用于管理测试用例之间的依赖关系。该方法能够确保在某个测试用例失败时，依赖于它的其他测试用例将被跳过。 ... [详细]

蜡笔小新 2024-11-13 10:42:38
integer
Java 并发编程：深入解析 AtomicInteger 和 CAS 无锁算法

在多线程并发环境中，普通变量的操作往往是线程不安全的。本文通过一个简单的例子，展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]

蜡笔小新 2024-11-12 16:40:04
config
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
select
解决 Ubuntu 下 Samba 重新安装时配置文件未重新生成的问题

在 Ubuntu 中遇到 Samba 服务器故障时，尝试卸载并重新安装 Samba 发现配置文件未重新生成。本文介绍了解决该问题的方法。 ... [详细]

蜡笔小新 2024-11-12 13:02:23
select
TensorFlow基础知识深化讲解

批标准化批标准化（batchnormalization,BN）是为了克服神经网络层数加深导致难以训练而诞生的。深度神经网络随着深度加深，收 ... [详细]

蜡笔小新 2024-10-22 10:19:31
select
Python 用凝聚层次聚类进行数据分组

本文主要参考《Python机器学习经典实例》在介绍凝聚层次聚类之前，我们需要先理解层次聚类（hierarchicalclustering）。层次聚类是一组聚类算法，通过不断地分 ... [详细]

蜡笔小新 2024-10-20 13:13:52
search
中文分词_中文分词技术小结几大分词引擎的介绍与比较

篇首语：本文由编程笔记#小编为大家整理，主要介绍了中文分词技术小结几大分词引擎的介绍与比较相关的知识，希望对你有一定的参考价值。笔者想说：觉得英文与中文分词有很大的区别， ... [详细]

蜡笔小新 2024-10-13 12:29:25
search
如何在jieba分词中加自定义词典_常见中文分词包比较

1jiebajieba.cut方法接受三个输入参数:需要分词的字符串；cut_all参数用来控制是否采用全模式；HMM参数用来控制是否使用HMM模型ji ... [详细]

蜡笔小新 2024-10-11 12:27:39

wangxuan1992_273_361

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章