热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

短文本聚类方法(QA)

在拿到一个大规模数据集时,我们不可能对这么多的问题进行注意打上标记(label),因为这个是非常耗时的。而且,我们还知道文本问题是一个典型的多标记问题,这个时候打上的标记很多的时候都不会特别的精确,也

在拿到一个大规模数据集时,我们不可能对这么多的问题进行注意打上标记(label),因为这个是非常耗时的。而且,我们还知道文本问题是一个典型的多标记问题,这个时候打上的标记很多的时候都不会特别的精确,也就是我们通常说的弱标记weak label. 这个时候我们就需要一个聚类的方法,这样可以先把所有的文本集聚类成几个簇,每个簇的标记相似性就比较大,这样以来对打上标记的工作就减轻了许多精力。

    短文本聚类的研究在自动问答系统中有着比较重要的意义,因为交互式问答系统中的问题实际上就是一个特殊形式的短文本。

    长文本的聚类比较容易,因为长文本所包含的单词量较大,每个文本的特征多,这样有助于聚类。但是对于短文本而言,尤其是在问答系统中,每个样本(问题)的特征较少,如果使用向量空间模型中的思想,每个样本构建的特征向量会很长;其次,如果使用传统的长文本聚类方法,在计算两个问题之间的相似性时,往往要依赖于文档之间词形相似性。这种方法没有考虑到在一个问题样本中,往往会有一个或者几个关键词,这些关键词都具有很强的鉴别能力。如果没有考虑到关键词的权重,而只是匹配相同词的个数的话,那么聚类的时候往往会出错,如下所示:



其实如果把每个单词的权重认为一样的话,那么S1和S2的应该聚到一起去,但是假如我们增加了Google, Yahoo!的权重,那么S2和S3就会聚到一起。

    显然,我们需要对问题样本中的每个单词都赋予一定的权重。如果当前当前ti是问题的核心词,那么权重应该高;否则,权重低。我们可以想到TF-IDF值可以用来充当特征权重的角色。具体实现如下:

   每个问题看作一个向量,使用TF-IDF方法可以提取问题中每个单词的词频,以及单词出现的文档数等信息。其中,我们可以使用单词ti在问题d中出现的次数来作为词频TF,用ti出现在不同问题的个数来计算反词频,这样TF-IDF就可以计算出来了。但是,我们发现:在自动问答系统中,每个问题包含的单词数量很少,如果出现了该单词,那么基本上出现的次数都是1,否则就是不出现,为0. 所以,我们可以简化每个单词的权重计算方式如下:


这样,我们便可以把问题特征提取出来了。而在距离度量方式方面,我们可以简单的使用两个向量点积的方式来计算。此时,有了问题样本提取出来的特征,以及距离计算方式,我们便可以运用K-means聚类的思想,实现自动问答系统中的聚类。

http://blog.csdn.net/jdbc/article/details/50579717


推荐阅读
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • [echarts] 同指标对比柱状图相关的知识介绍及应用示例
    本文由编程笔记小编为大家整理,主要介绍了echarts同指标对比柱状图相关的知识,包括对比课程通过率最高的8个课程和最低的8个课程以及全校的平均通过率。文章提供了一个应用示例,展示了如何使用echarts制作同指标对比柱状图,并对代码进行了详细解释和说明。该示例可以帮助读者更好地理解和应用echarts。 ... [详细]
  • 聊聊 中国人工智能科技产业 区域竞争力分析及趋势
    原文链接:聊聊中国人工智能科技产业区域竞争力分析及趋势最近看了一个关于国内AI的报告《中国新一代人工智能科技产业区域竞争力评价指数(2021ÿ ... [详细]
  • 作为机器学习最重要的一个分支,近年来深度学习(DeepLearning)发展势头迅猛,借助庞大的数据 ... [详细]
  • 【跨越鸿沟】学术界与工业界的GAP有多大?
    来自:美团技术团队2020年7月31日,由中国图象图形学学会主办、视觉大数据专委会承办,北京智源人工智能研究院和美团协办的ECCV2020 ... [详细]
  • 图灵测试是什么?为什么AlphaGo那么牛却过不了?
    导读:本文将介绍人工智能的检测手段——图灵测试。作者:杜振东涂铭来源:大数据DT(ID:hzdashuju&# ... [详细]
  • 2018年人工智能大数据的爆发,学Java还是Python?
    本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代,Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言,容易上手。其特色之一是强制使用空白符作为语句缩进,使得新手可以快速上手。目前,Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣,欢迎加入qq群458345782。 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 本文介绍了数据库的存储结构及其重要性,强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离,可以实现对物理存储的重新组织和数据库的迁移,而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构,并介绍了表空间的概念和作用。 ... [详细]
  • 本文介绍了使用Spark实现低配版高斯朴素贝叶斯模型的原因和原理。随着数据量的增大,单机上运行高斯朴素贝叶斯模型会变得很慢,因此考虑使用Spark来加速运行。然而,Spark的MLlib并没有实现高斯朴素贝叶斯模型,因此需要自己动手实现。文章还介绍了朴素贝叶斯的原理和公式,并对具有多个特征和类别的模型进行了讨论。最后,作者总结了实现低配版高斯朴素贝叶斯模型的步骤。 ... [详细]
  • 引号快捷键_首选项和设置——自定义快捷键
    3.3自定义快捷键(CustomizingHotkeys)ChemDraw快捷键由一个XML文件定义,我们可以根据自己的需要, ... [详细]
  • 俗话说,好记性不如烂笔头,这些东西也都是我Google来的,做个笔记以后自己安装也方便些。因为官方wiki的BeginnersGuide讲的非常好,大部分步骤按照wiki一步一步来就 ... [详细]
  • 机器学习毫无争议的是如今学术界和工业界最热的领域,它涵盖计算机视觉(CV)、自然语言处理(NLP)、深度学习(DL)等多种技术,在图像识别、知识图谱以及最近非常火热的无人驾驶等诸多领 ... [详细]
  • 深度学习_机器学习 vs 深度学习到底有啥区别,为什么更多人选择机器学习
    本文由编程笔记#小编为大家整理,主要介绍了机器学习vs深度学习到底有啥区别,为什么更多人选择机器学习相关的知识,希望对你有一定的参考价值。 ... [详细]
  • 世界移动通信大会上,IBM宣布要举办一场开发竞赛,用于推广IBMWatson认知计算平台上的移动客户和业务APP。\u0026#xD;\n比赛的获胜者将 ... [详细]
author-avatar
区小靜
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有