二阶HMM词性标注

作者：小晶晶妮妮宝贝 | 来源：互联网 | 2023-08-14 10:18

HMM在自然语言处理中十分有用，这里介绍其在词性标注中的应用。首先NLP中需要对数据稀疏问题进行处理，一般包括加一平滑、留存估计、GoodTuring平滑以及线性插值。本文介绍一下GoodT

　　HMM在自然语言处理中十分有用，这里介绍其在词性标注中的应用。

　　首先NLP中需要对数据稀疏问题进行处理，一般包括加一平滑、留存估计、GoodTuring平滑以及线性插值。本文介绍一下GoodTuring平滑方法，GoodTuring基于的方法是将数据分布看成多项式分布。根据Zif理论，设在语料库中出现r次的词在语料库中共有Nr个，那么r越大，Nr越小，并且两者的乘积大致是一个常数，那么也就是说r*Nr=(r+1)*Nr+1，所以这给我们一个启示可以通过已知事件去估计未知事件，即在语料库中出现0次的词在估计中出现N1/N₀次，为了保证估计的准确性，一般只对低频的词进行重新估计。

def good_turing(counts):
    N = sum(counts)  # 总的出现次数
    prob = [0] * len(counts)
    
    if N == 0:
        return prob
        
    Nr = [0] * (max(counts) + 1) # 出现r次的词个数
    for r in counts:
        Nr[r] += 1
        
    smooth_boundary = min(len(Nr)-1, 8)  # 使用good-turing方法进行平滑
    for r in range(smooth_boundary):
        if Nr[r] != 0 and Nr[r+1] != 0:
            Nr[r] = (r+1) * Nr[r+1] / Nr[r]
        else:
            Nr[r] = r
    for r in range(smooth_boundary, len(Nr)):
        Nr[r] = r
        
    for i in range(len(counts)):
        prob[i] = Nr[counts[i]]
    total = sum(prob)
    return [p/total for p in prob]  # 归一化输出

View Code

　　接下来进行的对数据进行训练，计算HMM的参数（发射矩阵和转移矩阵）

def train(self, wrd_path, tag_path):
        emission_counts = defaultdict(int)
        trigram_counts = defaultdict(int)
        tags = set()
        words = set()
        
        wrd_iter = sent_iterator(corpus_iterator(wrd_path))
        tag_iter = sent_iterator(corpus_iterator(tag_path))
        
        # 统计词频
        for (wrd_sent, tag_sent) in zip(wrd_iter, tag_iter):
            for (wrd, tag) in zip(wrd_sent, tag_sent):
                words.add(wrd)
                tags.add(tag)
                emission_counts[(wrd, tag)] += 1
            tag_boundary = 2 * ['*']
            tag_boundary.extend(tag_sent)
            tag_boundary.append('STOP')
            for i in range(len(tag_boundary) - 2):
                trigram_counts[tuple(tag_boundary[i:i+3])] += 1
        
        # 对词语和词性做映射
        for tag in tags:
            self.tag2num[tag] = self.ntags
            self.num2tag.append(tag)
            self.ntags += 1
        for wrd in words:
            self.nwords += 1
            self.word2num[wrd] = self.nwords
            
        print(self.ntags, ' ', self.nwords)
        
        # 计算发射矩阵和转移矩阵
        nt = self.ntags
        nw = self.nwords
        self.em_prob = [None for i in range(nt)]
        self.tr_prob = [[None for i in range(nt+1)] for j in range(nt+1)]
        # 发射矩阵
        for i in range(nt):
            tag = self.num2tag[i]
            counts = [0] * (nw+1)
            for wrd in words:
                counts[self.word2num[wrd]] = emission_counts[(wrd, tag)]
            self.em_prob[i] = good_turing(counts)
        # 转移矩阵(u, v, w)或者(u, v, 'STOP')
        for i in range(nt):
            u = self.num2tag[i]
            for j in range(nt):
                v = self.num2tag[j]
                counts = [0] * (nt+1)
                for w in tags:
                    counts[self.tag2num[w]] = trigram_counts[(u, v, w)]
                counts[nt] = trigram_counts[(u, v, 'STOP')]
                self.tr_prob[i][j] = good_turing(counts)
        # 转移矩阵(*, v, w)
        for j in range(nt):
            v = self.num2tag[j]
            counts = [0] * (nt+1)
            for w in tags:
                counts[self.tag2num[w]] = trigram_counts[('*', v, w)]
            counts[nt] = trigram_counts[('*', v, 'STOP')]
            self.tr_prob[nt][j] = good_turing(counts)
        # 转移矩阵(*, *, w)
        counts = [0] * nt
        for w in tags:
            counts[self.tag2num[w]] = trigram_counts[('*', '*', w)]
        self.tr_prob[nt][nt] = good_turing(counts)

　　最后利用发射矩阵和转移矩阵预计新句子的词性，使用算法就是经典的Viterbi算法

def viterbi(self, sent):
        n = len(sent)
        nt = self.ntags
        y = [None] * n
        path = [[[0]*nt for i in range(nt)] for j in range(n-1)]
        val = [[[0]*nt for i in range(nt)] for j in range(n-1)]
        
        # 如果句子只有一个单词，则单独处理
        if (n == 1):
            max_val = -100000
            for v in range(nt):
                tmp = self.tr_prob[nt][nt][v] * self.em_prob[v][self.word2num[sent[0]]] * self.tr_prob[nt][v][nt]
                if tmp > max_val:
                    max_val = tmp
                    y[0] = v
            return [self.num2tag[y[0]]]
        
        # 句子开头
        for u in range(nt):
            for v in range(nt):
                val[0][u][v] = self.tr_prob[nt][nt][u] * self.em_prob[u][self.word2num[sent[0]]] * \
                    self.tr_prob[nt][u][v] * self.em_prob[v][self.word2num[sent[1]]]
                path[0][u][v] = -1
        # 动态规划求解
        for k in range(1, n-1):
            for u in range(nt):
                for v in range(nt):
                    max_val = -100000
                    best_tag = -1
                    for w in range(nt):
                        tmp = val[k-1][w][u] * self.tr_prob[w][u][v] * self.em_prob[v][self.word2num[sent[k+1]]]
                        if tmp > max_val:
                            max_val = tmp
                            best_tag = w
                    val[k][u][v] = max_val
                    path[k][u][v] = best_tag
        # 结尾
        max_val = -100000
        for u in range(nt):
            for v in range(nt):
                tmp = val[n-2][u][v] * self.tr_prob[u][v][nt]
                if tmp > max_val:
                    max_val = tmp
                    y[-1] = v; y[-2] = u
                    
        # 找到最佳标注
        for k in range(n-3, -1, -1):
            y[k] = path[k+1][y[k+1]][y[k+2]]
            
        return [self.num2tag[t] for t in y]

View Code

推荐阅读

main
杜甫《喜晴》的两种英译比较

本文对比了杜甫《喜晴》的两种英文翻译版本：a. Pleased with Sunny Weather 和 b. Rejoicing in Clearing Weather。a 版由 alexcwlin 翻译并经 Adam Lam 编辑，b 版则由哈佛大学的宇文所安教授 (Prof. Stephen Owen) 翻译。 ... [详细]

蜡笔小新 2024-11-12 15:02:28
main
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
main
poj 3352 Road Construction

poj 3352 Road Construction ... [详细]

蜡笔小新 2024-11-12 11:24:39
main
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
main
Go语言高效处理大规模切片去重的算法优化

探讨如何在Go语言中高效地处理大规模切片的去重操作，特别是针对百万级数据量的场景。 ... [详细]

蜡笔小新 2024-11-12 12:56:52
ip
使用 Matplotlib 保存 Python 动态图像为视频文件的方法与技巧

本文介绍了如何利用 `matplotlib` 库中的 `FuncAnimation` 类将 Python 中的动态图像保存为视频文件。通过详细解释 `FuncAnimation` 类的参数和方法，文章提供了多种实用技巧，帮助用户高效地生成高质量的动态图像视频。此外，还探讨了不同视频编码器的选择及其对输出文件质量的影响，为读者提供了全面的技术指导。 ... [详细]

蜡笔小新 2024-11-11 22:11:30
import
如何将Python与Excel高效结合：常用操作技巧解析

本文深入探讨了如何将Python与Excel高效结合，涵盖了一系列实用的操作技巧。文章内容详尽，步骤清晰，注重细节处理，旨在帮助读者掌握Python与Excel之间的无缝对接方法，提升数据处理效率。 ... [详细]

蜡笔小新 2024-11-11 15:18:30
main
单片微机原理P3：80C51外部拓展系统

　　外部拓展其实是个相对来说很好玩的章节，可以真正开始用单片机写程序了，比较重要的是外部存储器拓展，81C55拓展，矩阵键盘，动态显示，DAC和ADC。0.IO接口电路概念与存 ... [详细]

蜡笔小新 2024-11-12 19:51:29
main
多线程基础概览

本文探讨了多线程的起源及其在现代编程中的重要性。线程的引入是为了增强进程的稳定性，确保一个进程的崩溃不会影响其他进程。而进程的存在则是为了保障操作系统的稳定运行，防止单一应用程序的错误导致整个系统的崩溃。线程作为进程的逻辑单元，多个线程共享同一CPU，需要合理调度以避免资源竞争。 ... [详细]

蜡笔小新 2024-11-12 16:45:51
main
Java 并发编程：深入解析 AtomicInteger 和 CAS 无锁算法

在多线程并发环境中，普通变量的操作往往是线程不安全的。本文通过一个简单的例子，展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]

蜡笔小新 2024-11-12 16:40:04
main
c/c++常用代码doc,ppt,xls文件格式转PDF格式[转]

[转]doc,ppt,xls文件格式转PDF格式http:blog.csdn.netlee353086articledetails7920355确实好用。需要注意的是#import ... [详细]

蜡笔小新 2024-11-12 16:19:40
ip
javascript分页类支持页码格式

前端时间因为项目需要，要对一个产品下所有的附属图片进行分页显示，没考虑ajax一张张请求，所以干脆一次性全部把图片out，然 ... [详细]

蜡笔小新 2024-11-12 14:58:57
join
SQL Server 存储过程开发与优化指南

本文总结了在SQL Server数据库中编写和优化存储过程的经验和技巧，旨在帮助数据库开发人员提升存储过程的性能和可维护性。 ... [详细]

蜡笔小新 2024-11-12 13:13:21
main
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
text
基于Net Core 3.0与Web API的前后端分离开发：Vue.js在前端的应用

本文介绍了如何使用Net Core 3.0和Web API进行前后端分离开发，并重点探讨了Vue.js在前端的应用。后端采用MySQL数据库和EF Core框架进行数据操作，开发环境为Windows 10和Visual Studio 2019，MySQL服务器版本为8.0.16。文章详细描述了API项目的创建过程、启动步骤以及必要的插件安装，为开发者提供了一套完整的开发指南。 ... [详细]

蜡笔小新 2024-11-11 10:58:21

小晶晶妮妮宝贝

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章