热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Unsupervisedlearningofsemanticrepresentationfordocumentswiththelawoftotalprobability_...

摘要提取文档的语意信息的意义在于它是很多应用的基础,例如:文档总结、检索文档、文本分析等。现存的方法(通过分析文档包含词相关性来扩充用
摘要

提取文档的语意信息的意义在于它是很多应用的基础,例如:文档总结、检索文档、文本分析等。

现存的方法(通过分析文档包含相关性来扩充用来表示文档的向量)远不理想的原因是文档的物理限制阻碍了之间的相关性评估——无法捕获深层的相关性。

为了解决以上问题,本文通过之间的公相关词来进一步推测它们之间的深层关联,为了避免高估深层关联本文基于全概率公式来约束深层关系推理——以边缘概率为指标。

介绍

BOW(bag of words)被广泛应用的原因是:简单、有效、表现优秀,然而词袋模型的缺点是只能作为含有公共词的文档的相似性的指标,不能反映含有不同词的文档的相似性。

解决以上问题提出了latent topic models被提出, 常见的如下方法:

  • latent semantic indexing
  • latent dirichlet allocation
  • doc2vec

基于上面的方法,文档将被表示为对一定数量主题的分布,相似的文档的分布也相似。但基于主题分布模型的方法中很多参数(尤其是主题维度)经常难以确定

相比于latent topic models,统计学文档特征扩充方法基于文档源词与文档语料库中所有词的相关性来构建上下文,而相关性是根据统计数据得到的,通常为co-occurrence frequencies,这样一来BOW产生的稀疏文档特征向量就被扩充为稠密特征向量,并且这种方法没有像topics models一样的限制。
常用的文档特征扩充方法是Context Vector Model(CVM),该方法把和源文档中任意词相关的词判别为文档的相关词,把在同一篇文档中中共现的词判别为两个词相关。但由于文档的物理限制,基于这种方法获取词之间的相关性的效果不理想。
为了检测词之间的传递相关性(不能根据co-occurrence frequencies检测),条件概率是一个很好的idel,在这篇文章中把词之间的相关性形式化为条件概率,这样就可以从理论上推测传递相关性了,同时基于词边缘概率全概率为条件的条件概率的关系来避免高估传递相关性。

本文贡献

  • 通过词之间的传递相关性来度量文档之间的语意相似性
  • 通过最小化以全概率公式为基础获得的边缘概率以原始的频率为基础获得的边缘概率之间的区别提出了三个度量词之间传递相关性的策略
  • 实验表明本文提出的方法比现有最优秀方法有更好的表现

相关工作

对BOW特征向量的扩充,已经有很多相关的工作,根据词和文档之间相关关系的度量方法可以分为两类

  • 统计学方法有下面两个步骤:
    • 1、couting frequencies
    • 2、smoothing functions(PCP、PPMI、Jaccard)
  • 以知识库为基础的方法,常见的有:
    • WordNet involved Document Representation method
    • Disambiguated Core Semantics method

知识库虽然比共现频率更可靠,但是往往不匹配或过期

统计学文档特征扩充方法中包含词和文档之间关系的完整词向量由各个部分词向量组合而成。目前这个想法已经运用在了神经网络领域。即神经网络的输入为低维空间词向量用于句子建模的卷积神经网络通过卷积核将这些特征向量组合(DRBM通过RBM组合词向量、WMD通过将计算文档之间距离的问题映射到一个已经被成熟研究的Earth Movers Distance)文章中将上面的方法归类为主题模型

虽然本文的关注点在于如何计算词之间的相关性,但还是对统计业务流中的某些其他方面进行了提升:

  • 通过S-VSM来避免词向量的过度扩充(仅仅考虑top-k语意相关)
  • 提出DDE来组合词向量(对每个维度赋予不同的权重)

预备知识

表一中展示了本文中用到的符号:

13298870-2dc8080172da8ec1.png

在BOW中文档集合D中有m个不同的字符,它们用来构建特征空间,D中的任意文档,它的特征向量表示如下:
13298870-eea844210ccd14c8.png




基于CVM的文档特征向量是在BOW的基础上根据语料库中所有词与源词之间的平均关系来扩充的,而这里的关系在这里被定义为词与词之间的显式关系,下图显示由于文档的物理限制,这种关系是有局限性的。


13298870-3fd144886f7b88b2.png

类似于本文中的idel,CRM(Coupled term-term Relation Model)已经实现了推测传递关系,该方法中完全关系被表示为:显式关系和隐式关系的组合,核心公式如下:
13298870-35cd9535ce790ac8.png


考虑到在大多数情况下13298870-4b6ada37c5aa6d88.png

这里的参数13298870-521937dff3a019ba.png


13298870-34493d1497db325b.png

等式14的可解析方程为:
13298870-cd279b7840128d85.png
  • 通过常数约束进行估计
    13298870-c0c39fcf225de545.png


    上式中两边同除以13298870-e6c9c14af684b17f.png

    和式12类似,式17可以表达为如下形式:
    13298870-0f741894b2d5cfe6.png

    上式中的13298870-2979df21806fb65d.png

    可解析表达式如下:
    13298870-5e0bb7a8f5c3d6c3.png

    上面就是基于常数约束的参数估计。
  • 通过语意一致性进行估计

    13298870-0957a5ec16892f77.png

    上面的讨论中提到:13298870-2547b9d339dc6c0c.png

    换为向量的形式:
    13298870-7f6c9f2a4f9975d0.png

    13298870-9b8dd77c3e2cf007.png

    A中的第k列第i行的元素为联合概率13298870-facf271c53c965a3.png

    和等式15类似,等式21中参数估计也是基于边缘概率,但是和15不同的是,21中的约束条件为语意约束(一个词和自身的共现关系为1)而不是基于全概率公式导出的约束。

  • 方案实现

    本文提出了三个参数估计的方式,使用这三个方式之前都需要我们首先构建上下文矩阵13298870-d8a5bb77c40b22d8.png

  • PPMI:
    13298870-679b4cbd842464dc.png

    这里13298870-b417e0a834973b18.png

    这里的13298870-127731f48853ff97.png



    正如公式5那样,上面方法计算的词之间的显式关系被符号化为条件概率:



    13298870-d8be064cbf148e0e.png



    此处,当i = j时,记$p(v_j|v_i) = 1

    通常,我们假设一个词的出现频率足够产生可靠的边缘概率,为了使边缘概率的计算更加可信,我们引入了一个阈值变量TH,它用来判断一个词的出现评率是否充足。不是一般性,这里假设预料库V中各个词出现的评率逆序排列,则这里的边缘概率采用下面的公式计算:

    13298870-eac8e141819f3f21.png



    上式中为每个
    小频率词赋予相同的边缘概率,并且这里赋予小频率词评率的权重为1,(小频率词通常表达一些特殊的意义,它有更强的连接两个词的能力),结果有入下的形式化参数向量:


    13298870-dd38ff76a56344ac.png



    上面,

    与上面类似,令:


    13298870-59497ffa925dcbd5.png



    则的计算入下:


    13298870-02b0550c0ac77059.png



    上式中,通过设置 less frequent words的权重为1,即为所有m个词的边缘概率,且不考虑他们与less frequent words的共现。

    本文提出的文档特征向量的扩充方案整理成如下算法:


    13298870-aa979457878c52da.png



    第四步中的计算词之间的完全关系的根据是公式6,第五步中产生扩充的文档特征向量的根据是公式3。
    结论

    展望

    NNMs在非监督学习问题中(NLP)用得很少,在本文的实验中,NNM在两个任务中都没有足够好的表现,这里将表现不好的原因归结为以下几个方面:
    对于非监督任务,NNMs给的信息量过大:NNM在文档特征向量中嵌入的不仅仅是语意形式,还有很多语法信息,这些不必要的信息可以通过监督训练过滤掉,但是这也许会影响非监督方法的计算过程。此外,非监督的关键是采用尽可能少的信息训练百万级的参数,从这方面讲,TPMF和TPMS获取的词之间的共现频率、词的出现频率就可以成为新的约束,把它们加入NNMs中有提高NNMs表现的可能。

    本文实验结果表明,统计学方法和基于专家知识的方法在文档聚类和语意相似度估计中各有长短,所以集成以专家知识为基础的方法和本文提出的方法来强化词语关系估计效果,进而缓解知识覆盖面有限的问题是很有价值的。

    在用基于知识的方法来推测隐式关系之前,一词多义问题也需要控制。


    推荐阅读
    • 本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]
    • 展开全部下面的代码是创建一个立方体Thisexamplescreatesanddisplaysasimplebox.#Thefirstlineloadstheinit_disp ... [详细]
    • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
    • 浏览器中的异常检测算法及其在深度学习中的应用
      本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
    • cs231n Lecture 3 线性分类笔记(一)
      内容列表线性分类器简介线性评分函数阐明线性分类器损失函数多类SVMSoftmax分类器SVM和Softmax的比较基于Web的可交互线性分类器原型小结注:中文翻译 ... [详细]
    • 本文由编程笔记#小编为大家整理,主要介绍了logistic回归(线性和非线性)相关的知识,包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]
    • 微软头条实习生分享深度学习自学指南
      本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
    • 学习SLAM的女生,很酷
      本文介绍了学习SLAM的女生的故事,她们选择SLAM作为研究方向,面临各种学习挑战,但坚持不懈,最终获得成功。文章鼓励未来想走科研道路的女生勇敢追求自己的梦想,同时提到了一位正在英国攻读硕士学位的女生与SLAM结缘的经历。 ... [详细]
    • 在Android开发中,使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法,并提供了具体的代码实现。通过获取图片的宽高,计算目标宽度和高度,并创建新图实现等比例缩放。 ... [详细]
    • 向QTextEdit拖放文件的方法及实现步骤
      本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
    • Linux重启网络命令实例及关机和重启示例教程
      本文介绍了Linux系统中重启网络命令的实例,以及使用不同方式关机和重启系统的示例教程。包括使用图形界面和控制台访问系统的方法,以及使用shutdown命令进行系统关机和重启的句法和用法。 ... [详细]
    • CSS3选择器的使用方法详解,提高Web开发效率和精准度
      本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
    • Html5-Canvas实现简易的抽奖转盘效果
      本文介绍了如何使用Html5和Canvas标签来实现简易的抽奖转盘效果,同时使用了jQueryRotate.js旋转插件。文章中给出了主要的html和css代码,并展示了实现的基本效果。 ... [详细]
    • Learning to Paint with Model-based Deep Reinforcement Learning
      本文介绍了一种基于模型的深度强化学习方法,通过结合神经渲染器,教机器像人类画家一样进行绘画。该方法能够生成笔画的坐标点、半径、透明度、颜色值等,以生成类似于给定目标图像的绘画。文章还讨论了该方法面临的挑战,包括绘制纹理丰富的图像等。通过对比实验的结果,作者证明了基于模型的深度强化学习方法相对于基于模型的DDPG和模型无关的DDPG方法的优势。该研究对于深度强化学习在绘画领域的应用具有重要意义。 ... [详细]
    • 建立分类感知器二元模型对样本数据进行分类
      本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型,使用最小二乘、Logistic回归等方法进行建模,考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数,使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]
    author-avatar
    路霄峰_121
    这个家伙很懒,什么也没留下!
    PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
    Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有