摘要和理解:
- S表示一个有意义的句子,由一连串特定序列的词w1,w2,w3...,wn组成,n表示句子的长度。
S出现的概率: P(S) = P(w1,w2,w3...,wn)
条件概率—P(S) = P(w1) * P(w2|w1) * P(w3|w1,w2)...*P(wn|w1,w2...,wn-1)
马尔科夫假设—P(S) = P(w1) * P(w2|w1) * P(w3|w2)...P(wi|wi-1)*P(wn|wn-1) ——二元模型
P(wi|wi-1) = P(wi,wi-1)|P(wi-1) P(wi,wi-1)-联合概率 P(wi-1)-边缘概率
2.N元模型
3.模型的训练-使用语言模型需要知道模型中所有的条件概率,我们称之为模型的参数。通过对语料的统计,得到这些参数的过程称作模型的训练。统计语言的零概率问题-不平滑
4.古德-图灵估计:对于没有看见的事件,我们不能认为它发生的概率就是零,因此我们从概率的总量中,分配一个很小的比例给这些没有看见的事件。
5.训练数据-语料库的选取:噪音高低、过滤