Unsupervisedlearningofsemanticrepresentationfordocumentswiththelawoftotalprobability_...

正如公式5那样&＃xff0c;上面方法计算的词之间的显式关系被符号化为条件概率&＃xff1a;

通常&＃xff0c;我们假设一个词的出现频率足够产生可靠的边缘概率&＃xff0c;为了使边缘概率的计算更加可信&＃xff0c;我们引入了一个阈值变量TH&＃xff0c;它用来判断一个词的出现评率是否充足。不是一般性&＃xff0c;这里假设预料库V中各个词出现的评率逆序排列&＃xff0c;则这里的边缘概率采用下面的公式计算&＃xff1a;

NNMs在非监督学习问题中&＃xff08;NLP&＃xff09;用得很少&＃xff0c;在本文的实验中&＃xff0c;NNM在两个任务中都没有足够好的表现&＃xff0c;这里将表现不好的原因归结为以下几个方面&＃xff1a;
对于非监督任务&＃xff0c;NNMs给的信息量过大&＃xff1a;NNM在文档特征向量中嵌入的不仅仅是语意形式&＃xff0c;还有很多语法信息&＃xff0c;这些不必要的信息可以通过监督训练过滤掉&＃xff0c;但是这也许会影响非监督方法的计算过程。此外&＃xff0c;非监督的关键是采用尽可能少的信息训练百万级的参数&＃xff0c;从这方面讲&＃xff0c;TPMF和TPMS获取的词之间的共现频率、词的出现频率就可以成为新的约束&＃xff0c;把它们加入NNMs中有提高NNMs表现的可能。

本文实验结果表明&＃xff0c;统计学方法和基于专家知识的方法在文档聚类和语意相似度估计中各有长短&＃xff0c;所以集成以专家知识为基础的方法和本文提出的方法来强化词语关系估计效果&＃xff0c;进而缓解知识覆盖面有限的问题是很有价值的。

在用基于知识的方法来推测隐式关系之前&＃xff0c;一词多义问题也需要控制。