热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Unsupervisedlearningofsemanticrepresentationfordocumentswiththelawoftotalprobability_...

摘要提取文档的语意信息的意义在于它是很多应用的基础,例如:文档总结、检索文档、文本分析等。现存的方法(通过分析文档包含词相关性来扩充用
摘要

提取文档的语意信息的意义在于它是很多应用的基础,例如:文档总结、检索文档、文本分析等。

现存的方法(通过分析文档包含相关性来扩充用来表示文档的向量)远不理想的原因是文档的物理限制阻碍了之间的相关性评估——无法捕获深层的相关性。

为了解决以上问题,本文通过之间的公相关词来进一步推测它们之间的深层关联,为了避免高估深层关联本文基于全概率公式来约束深层关系推理——以边缘概率为指标。

介绍

BOW(bag of words)被广泛应用的原因是:简单、有效、表现优秀,然而词袋模型的缺点是只能作为含有公共词的文档的相似性的指标,不能反映含有不同词的文档的相似性。

解决以上问题提出了latent topic models被提出, 常见的如下方法:

  • latent semantic indexing
  • latent dirichlet allocation
  • doc2vec

基于上面的方法,文档将被表示为对一定数量主题的分布,相似的文档的分布也相似。但基于主题分布模型的方法中很多参数(尤其是主题维度)经常难以确定

相比于latent topic models,统计学文档特征扩充方法基于文档源词与文档语料库中所有词的相关性来构建上下文,而相关性是根据统计数据得到的,通常为co-occurrence frequencies,这样一来BOW产生的稀疏文档特征向量就被扩充为稠密特征向量,并且这种方法没有像topics models一样的限制。
常用的文档特征扩充方法是Context Vector Model(CVM),该方法把和源文档中任意词相关的词判别为文档的相关词,把在同一篇文档中中共现的词判别为两个词相关。但由于文档的物理限制,基于这种方法获取词之间的相关性的效果不理想。
为了检测词之间的传递相关性(不能根据co-occurrence frequencies检测),条件概率是一个很好的idel,在这篇文章中把词之间的相关性形式化为条件概率,这样就可以从理论上推测传递相关性了,同时基于词边缘概率全概率为条件的条件概率的关系来避免高估传递相关性。

本文贡献

  • 通过词之间的传递相关性来度量文档之间的语意相似性
  • 通过最小化以全概率公式为基础获得的边缘概率以原始的频率为基础获得的边缘概率之间的区别提出了三个度量词之间传递相关性的策略
  • 实验表明本文提出的方法比现有最优秀方法有更好的表现

相关工作

对BOW特征向量的扩充,已经有很多相关的工作,根据词和文档之间相关关系的度量方法可以分为两类

  • 统计学方法有下面两个步骤:
    • 1、couting frequencies
    • 2、smoothing functions(PCP、PPMI、Jaccard)
  • 以知识库为基础的方法,常见的有:
    • WordNet involved Document Representation method
    • Disambiguated Core Semantics method

知识库虽然比共现频率更可靠,但是往往不匹配或过期

统计学文档特征扩充方法中包含词和文档之间关系的完整词向量由各个部分词向量组合而成。目前这个想法已经运用在了神经网络领域。即神经网络的输入为低维空间词向量用于句子建模的卷积神经网络通过卷积核将这些特征向量组合(DRBM通过RBM组合词向量、WMD通过将计算文档之间距离的问题映射到一个已经被成熟研究的Earth Movers Distance)文章中将上面的方法归类为主题模型

虽然本文的关注点在于如何计算词之间的相关性,但还是对统计业务流中的某些其他方面进行了提升:

  • 通过S-VSM来避免词向量的过度扩充(仅仅考虑top-k语意相关)
  • 提出DDE来组合词向量(对每个维度赋予不同的权重)

预备知识

表一中展示了本文中用到的符号:

13298870-2dc8080172da8ec1.png

在BOW中文档集合D中有m个不同的字符,它们用来构建特征空间,D中的任意文档,它的特征向量表示如下:
13298870-eea844210ccd14c8.png




基于CVM的文档特征向量是在BOW的基础上根据语料库中所有词与源词之间的平均关系来扩充的,而这里的关系在这里被定义为词与词之间的显式关系,下图显示由于文档的物理限制,这种关系是有局限性的。


13298870-3fd144886f7b88b2.png

类似于本文中的idel,CRM(Coupled term-term Relation Model)已经实现了推测传递关系,该方法中完全关系被表示为:显式关系和隐式关系的组合,核心公式如下:
13298870-35cd9535ce790ac8.png


考虑到在大多数情况下13298870-4b6ada37c5aa6d88.png

这里的参数13298870-521937dff3a019ba.png


13298870-34493d1497db325b.png

等式14的可解析方程为:
13298870-cd279b7840128d85.png
  • 通过常数约束进行估计
    13298870-c0c39fcf225de545.png


    上式中两边同除以13298870-e6c9c14af684b17f.png

    和式12类似,式17可以表达为如下形式:
    13298870-0f741894b2d5cfe6.png

    上式中的13298870-2979df21806fb65d.png

    可解析表达式如下:
    13298870-5e0bb7a8f5c3d6c3.png

    上面就是基于常数约束的参数估计。
  • 通过语意一致性进行估计

    13298870-0957a5ec16892f77.png

    上面的讨论中提到:13298870-2547b9d339dc6c0c.png

    换为向量的形式:
    13298870-7f6c9f2a4f9975d0.png

    13298870-9b8dd77c3e2cf007.png

    A中的第k列第i行的元素为联合概率13298870-facf271c53c965a3.png

    和等式15类似,等式21中参数估计也是基于边缘概率,但是和15不同的是,21中的约束条件为语意约束(一个词和自身的共现关系为1)而不是基于全概率公式导出的约束。

  • 方案实现

    本文提出了三个参数估计的方式,使用这三个方式之前都需要我们首先构建上下文矩阵13298870-d8a5bb77c40b22d8.png

  • PPMI:
    13298870-679b4cbd842464dc.png

    这里13298870-b417e0a834973b18.png

    这里的13298870-127731f48853ff97.png



    正如公式5那样,上面方法计算的词之间的显式关系被符号化为条件概率:



    13298870-d8be064cbf148e0e.png



    此处,当i = j时,记$p(v_j|v_i) = 1

    通常,我们假设一个词的出现频率足够产生可靠的边缘概率,为了使边缘概率的计算更加可信,我们引入了一个阈值变量TH,它用来判断一个词的出现评率是否充足。不是一般性,这里假设预料库V中各个词出现的评率逆序排列,则这里的边缘概率采用下面的公式计算:

    13298870-eac8e141819f3f21.png



    上式中为每个
    小频率词赋予相同的边缘概率,并且这里赋予小频率词评率的权重为1,(小频率词通常表达一些特殊的意义,它有更强的连接两个词的能力),结果有入下的形式化参数向量:


    13298870-dd38ff76a56344ac.png



    上面,

    与上面类似,令:


    13298870-59497ffa925dcbd5.png



    则的计算入下:


    13298870-02b0550c0ac77059.png



    上式中,通过设置 less frequent words的权重为1,即为所有m个词的边缘概率,且不考虑他们与less frequent words的共现。

    本文提出的文档特征向量的扩充方案整理成如下算法:


    13298870-aa979457878c52da.png



    第四步中的计算词之间的完全关系的根据是公式6,第五步中产生扩充的文档特征向量的根据是公式3。
    结论

    展望

    NNMs在非监督学习问题中(NLP)用得很少,在本文的实验中,NNM在两个任务中都没有足够好的表现,这里将表现不好的原因归结为以下几个方面:
    对于非监督任务,NNMs给的信息量过大:NNM在文档特征向量中嵌入的不仅仅是语意形式,还有很多语法信息,这些不必要的信息可以通过监督训练过滤掉,但是这也许会影响非监督方法的计算过程。此外,非监督的关键是采用尽可能少的信息训练百万级的参数,从这方面讲,TPMF和TPMS获取的词之间的共现频率、词的出现频率就可以成为新的约束,把它们加入NNMs中有提高NNMs表现的可能。

    本文实验结果表明,统计学方法和基于专家知识的方法在文档聚类和语意相似度估计中各有长短,所以集成以专家知识为基础的方法和本文提出的方法来强化词语关系估计效果,进而缓解知识覆盖面有限的问题是很有价值的。

    在用基于知识的方法来推测隐式关系之前,一词多义问题也需要控制。


    推荐阅读
    • 独家解析:深度学习泛化理论的破解之道与应用前景
      本文深入探讨了深度学习泛化理论的关键问题,通过分析现有研究和实践经验,揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素,并提出了改进模型泛化性能的有效策略。此外,还展望了这些理论在实际应用中的广阔前景,为未来的研究和开发提供了宝贵的参考。 ... [详细]
    • Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]
    • 能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察
      本周科技前沿报道了多项重要进展,包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果,以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是,一款能够感知用户情绪状态的智能机器人即将问世,为未来的人机交互带来了全新的可能性。 ... [详细]
    • 本文介绍了UUID(通用唯一标识符)的概念及其在JavaScript中生成Java兼容UUID的代码实现与优化技巧。UUID是一个128位的唯一标识符,广泛应用于分布式系统中以确保唯一性。文章详细探讨了如何利用JavaScript生成符合Java标准的UUID,并提供了多种优化方法,以提高生成效率和兼容性。 ... [详细]
    • 在高清节目的高比特率传输过程中,使用外接USB硬盘进行时间平移(timeshift)时,出现了性能不足和流数据丢失的问题。通过深入研究,我们发现通过对图像组(GOP)和图像头(I-frame)的精确定位技术进行优化,可以显著提升系统的性能和稳定性。本研究提出了改进的图像组与图像头定位算法,有效减少了数据丢失,提高了流媒体传输的效率和质量。 ... [详细]
    • 本文介绍了如何在 Vue 3 组合 API 中正确设置 setup() 函数的 TypeScript 类型,以避免隐式 any 类型的问题。 ... [详细]
    • 在多线程并发环境中,普通变量的操作往往是线程不安全的。本文通过一个简单的例子,展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]
    • 本文对比了杜甫《喜晴》的两种英文翻译版本:a. Pleased with Sunny Weather 和 b. Rejoicing in Clearing Weather。a 版由 alexcwlin 翻译并经 Adam Lam 编辑,b 版则由哈佛大学的宇文所安教授 (Prof. Stephen Owen) 翻译。 ... [详细]
    • 开机自启动的几种方式
      0x01快速自启动目录快速启动目录自启动方式源于Windows中的一个目录,这个目录一般叫启动或者Startup。位于该目录下的PE文件会在开机后进行自启动 ... [详细]
    • 在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ... [详细]
    • 本文详细解析了LeetCode第215题,即高效寻找数组中前K个最大元素的问题。通过使用快速选择算法(partition),可以在平均时间复杂度为O(N)的情况下完成任务。本文不仅提供了算法的具体实现步骤,还深入探讨了partition算法的工作原理及其在不同场景下的应用,帮助读者更好地理解和掌握这一高效算法。 ... [详细]
    • 本次发布的Qt音乐播放器2.0版本在用户界面方面进行了细致优化,提升了整体的视觉效果和用户体验。尽管核心功能与1.0版本保持一致,但界面的改进使得操作更加直观便捷,为用户带来了更为流畅的使用体验。此外,我们还对部分细节进行了微调,以确保软件的稳定性和性能得到进一步提升。 ... [详细]
    • 浅层神经网络解析:本文详细探讨了两层神经网络(即一个输入层、一个隐藏层和一个输出层)的结构与工作原理。通过吴恩达教授的课程,读者将深入了解浅层神经网络的基本概念、参数初始化方法以及前向传播和反向传播的具体实现步骤。此外,文章还介绍了如何利用这些基础知识解决实际问题,并提供了丰富的实例和代码示例。 ... [详细]
    • 理工科男女不容错过的神奇资源网站
      十一长假即将结束,你的假期学习计划进展如何?无论你是在家中、思念家乡,还是身处异国他乡,理工科学生都不容错过一些神奇的资源网站。这些网站提供了丰富的学术资料、实验数据和技术文档,能够帮助你在假期中高效学习和提升专业技能。 ... [详细]
    • 超分辨率技术的全球研究进展与应用现状综述
      本文综述了图像超分辨率(Super-Resolution, SR)技术在全球范围内的最新研究进展及其应用现状。超分辨率技术旨在从单幅或多幅低分辨率(Low-Resolution, LR)图像中恢复出高质量的高分辨率(High-Resolution, HR)图像。该技术在遥感、医疗成像、视频处理等多个领域展现出广泛的应用前景。文章详细分析了当前主流的超分辨率算法,包括基于传统方法和深度学习的方法,并探讨了其在实际应用中的优缺点及未来发展方向。 ... [详细]
    author-avatar
    路霄峰_121
    这个家伙很懒,什么也没留下!
    PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
    Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有