模型指的是对食物的数学抽象,语言模型指的是对语言现象的数学抽象。 语言模型的构建需要语料库的支撑 语料库建设并不是高不可攀的工程。 手动标注微型语料库 问题:常识告诉我们,一本书中几乎没有两个完全一样的句子 并且 试验中实际遇到的句子大部分都在语料库之外 这意味着它们的概率都将被标记为0 ??? 解决办法: 二元语法 或(n元语法) 平滑策略(劫富济贫的策略)