作者: | 来源:互联网 | 2023-12-13 16:46
本文介绍了使用SRILM平滑Katz回退方法训练语言模型的步骤,包括测试文件的使用、模型训练过程以及困惑度的重新计算。平滑Katz回退方法通过将次数较少的N-gram组的概率减少,并将减少的概率分配给训练集中未出现的N-gram组。详细的条件概率计算过程可参考附录中的Excel表格。通过重新计算困惑度,可以评估训练得到的语言模型的质量。
问题:考虑用下面的测试文件,测试上面的模型
cat test_coupus2.txt
birds chirp
ngram -lm corpus.lm -ppl test_coupus2.txt -debug 2

使用catzs回退方法,进行模型训练
要旨:对于次数较少的N-gram组,将其概率减少,减少的概率分配给训练集中没出现的N-gram组。
ngram-count -text corpus.txt -order 2 -write corpus_katz.count -lm corpus_katz.lm
概率计算公式为

条件概率计算过程 详细见excel



重新计算困惑度
ngram -lm corpus_katz.lm -ppl test_coupus2.txt -debug 2
