BeamSearch与PrefixBeamSearch的理解与python实现

作者：手机用户2602939883 | 来源：互联网 | 2023-07-11 04:36

本文主要介绍关于python,自然语言处理,语音识别的知识点，对【BeamSearch与PrefixBeamSearch的理解与python实现】和【如果学大数据】有兴趣的朋友可以看下由【han

本文主要介绍关于python,自然语言处理,语音识别的知识点，对【Beam Search与Prefix Beam Search的理解与python实现】和【如果学大数据】有兴趣的朋友可以看下由【hangguns】投稿的技术文章，希望该技术和经验能帮到你解决你所遇的algorithm相关技术问题。

如果学大数据

引言

Beam search是一种动态规划算法，能够极大的减少搜索空间，增加搜索效率，并且其误差在可接受范围内，常被用于Sequence to Sequence模型，CTC解码等应用中

时间复杂度

对于 $T\times N$ 的时间序列，如果我们要遍历所有可能能，则其所需的时间复杂度为 $\mathcal{O}(N+N^2+N^3+...+N^T)$ ，在每一时间节点，所需遍历的节点数呈指数增加。对于Viterbi算法来说，时间复杂度为 $\mathcal{O}(N+(T-1)N^2)$ ，在每个时间节点输入为N个best节点，需要比较的次数为 $N^2$ ，然而这个时间复杂度还是太高。在N比较大的情况下，Beam Search为更好的选择，其时间复杂度为 $\mathcal{O}(N+(T-1)*beamsize*N)$ ，每个时间节点的输入为beamsize个best节点，需要比较的次数为 $b e a m s i z e * N$

常规Beam Search (BS)

Beam Search与Prefix Beam Search的理解与python实现

如上图所示，常规的beam search在每个时间节点，对输入的每个节点比较N次，并从

b e a m s i z e * N

个比较结果中，选择

b e a m s i z e

个结果作为下一时间节点的输入，其python的简单实现如下

import numpy as np
import math

def beam_search(nodes, topk=1):
    # log-likelihood可以相加
    paths = {
   'A':math.log(nodes[0]['A']), 'B': math.log(nodes[0]['B']), 'C':math.log(nodes[0]['C'])}
    calculations = []
    for l in range(1, len(nodes)):
        # 拷贝当前路径
        paths_ = paths.copy()
        paths = {
   }
        nows = {
   }
        cur_cal = 0
        for i in nodes[l].keys():
            # 计算到达节点i的所有路径
            for j in paths_.keys():
                nows[j+i] = paths_[j]+math.log(nodes[l][i])
                cur_cal += 1
        calculations.append(cur_cal)
        # 选择topk条路径
        indices = np.argpartition(list(nows.values()), -topk)[-topk:]
        # 保存topk路径
        for k in indices:
            paths[list(nows.keys())[k]] = list(nows.values())[k]

    print(f'calculation number {
     calculations}')
    return paths


nodes = [{
   'A':0.1, 'B':0.3, 'C':0.6}, {
   'A':0.2, 'B':0.4, 'C':0.4}, {
   'A':0.6, 'B':0.2, 'C':0.2},
         {
   'A': 0.3, 'B': 0.3, 'C': 0.4}]
print(beam_search(nodes, topk=2))

输出结果：
calculation number [9, 6, 6]
{
   'CBAA': -3.1419147837320724, 'CBAC': -2.854232711280291, 'CCAC': -2.854232711280291}

我们可以看到，在 $N = 3$ , $b e a m s i z e = 2$ 的情况下，每个节点的比较次数为6。

Prefix（前缀）Beam Search （PBS）

在CTC算法中，由于添加了blank以及重复字符串无blank合并的规则，例如ab可能aab,abb,a blank b等多种情况的输入，因此ab的可能性应该为多种情况log概率之和，而不能通过单条beam进行搜索，因此可以采用改进版的prefix beam search，其代码如下

""" Code from https://gist.github.com/awni/56369a90d03953e370f3964c826ed4b0 Author: Awni Hannun CTC decoder in python, 简单例子可能不太效率 用于CTC模型的输出的前缀beam search 更多细节参考 https://distill.pub/2017/ctc/#inference https://arxiv.org/abs/1408.2873 """

import numpy as np
import math
import collections

NEG_INF = -float("inf")


def make_new_beam():
    fn = lambda: (NEG_INF, NEG_INF)
    return collections.defaultdict(fn)


def logsumexp(*args):
    """ Stable log sum exp. """
    if all(a == NEG_INF for a in args):
        return NEG_INF
    a_max = max(args)
    lsp = math.log(sum(math.exp(a - a_max)
                       for a in args))
    return a_max + lsp


def decode(probs, beam_size=100, blank=0):
    """ 对给定输出概率进行预测 Arguments: probs: 输出概率 (e.g. post-softmax) for each time step. Should be an array of shape (time x output dim). beam_size (int): Size of the beam to use during inference. blank (int): Index of the CTC blank label. Returns the output label sequence and the corresponding negative log-likelihood estimated by the decoder. """
    T, S = probs.shape
    probs = np.log(probs)

    # 在beam中的元素为(prefix, (p_blank, p_no_blank))
    # 初始beam为空序列，第一个是前缀，第二个是后接blank的log概率，第三个是后接非blank的log概率
    # 我们需要后接blank和后接非blank两种情况，来区分重复字符是否应该被合并，对于后接blank的情况，重复字符就不会被合并
    beam = [(tuple(), (0.0, NEG_INF))]

    for t in range(T):  # 沿时间维度循环

        # 存储下一个候选集的预设置字典，每次新的时间节点都会重设
        next_beam = make_new_beam()

        for s in range(S):  # 沿词表维度循环
            p = probs[t, s]

            # p_b和p_nb分别为在当前时刻下前缀后接blank和非blank的log概率
            for prefix, (p_b, p_nb) in beam:  # 对beam进行循环

                # 如果s为blank，那么前缀不会改变
                # 因为后接的是blank，所以只需要更新前缀不变的情况下后接blank的log概率
                if s == blank:
                    n_p_b, n_p_nb = next_beam[prefix]
                    n_p_b = logsumexp(n_p_b, p_b + p, p_nb + p)
                    next_beam[prefix] = (n_p_b, n_p_nb)
                    continue

                # 记录前缀最后一个字符，用于判断当前字符与前缀最后一个字符是否相同
                end_t = prefix[-1] if prefix else None
                n_prefix = prefix + (s,)  # n_prefix代表next prefix
                n_p_b, n_p_nb = next_beam[n_prefix]  # n_p_b代表 next probability of blank
                # 将新的字符s加到prefix后面并将整体加入到beam中
                # 因为后接的是非blank，所以只需要更新后接非blank的log概率
                if s != end_t:
                    n_p_nb = logsumexp(n_p_nb, p_b + p, p_nb + p)
                else:
                    # 如果后接s是重复的，那么我们在更新后接非blank的log概率时，
                    # 不包括上一时刻后接非blank的概率。CTC算法会合并没有用blank分隔的重复字符
                    n_p_nb = logsumexp(n_p_nb, p_b + p)

                # 这里是加入语言模型分数的好地方
                next_beam[n_prefix] = (n_p_b, n_p_nb)

                # 这是合并的情况，如果s重复出现了，前缀也不会改变，我们也更新前缀不变的情况下后接非blank的log概率
                if s == end_t:
                    n_p_b, n_p_nb = next_beam[prefix]
                    n_p_nb = logsumexp(n_p_nb, p_nb + p)
                    next_beam[prefix] = (n_p_b, n_p_nb)

        # 在进入下一时间步之前，排序并裁剪beam
        beam = sorted(next_beam.items(),
                      key=lambda x: logsumexp(*x[1]),
                      reverse=True)
        beam = beam[:beam_size]

    best = beam[0]
    return best[0], -logsumexp(*best[1])


if __name__ == "__main__":
    np.random.seed(3)

    time = 50
    output_dim = 20

    probs = np.random.rand(time, output_dim)
    probs = probs / np.sum(probs, axis=1, keepdims=True)

    labels, score = decode(probs)
    print(labels)
    print("Score {:.3f}".format(score))

与常规BS不同的地方主要在于, PBS区分了几种情况以及log probability的计算方式

对于BS来说，

l o g l i k e l i h o o d = l o g (p 1) + l o g (p 2) + . . .

，对于PBS来说，由于区分了存在blank和不存在blank的情况，并且其中之一的可能性为0，相加log probability等于负无穷的情况，因此不能直接相加，所以采用了一种稳定的logsumexp的方式来计算loglikelihood当前缀后接blank时，前缀不变，更新当前前缀后接blank的log概率：

n\_p\_b = logsumexp(n\_p\_b, p\_b + p, p\_nb + p)

当前缀后接重复字符且中间没有blank隔开时，前缀也不变，更新当前前缀后接非blank的log概率：

n\_p\_nb = logsumexp(n\_p\_nb, p\_nb + p)

当前缀后接不同字符时，前缀变化，更新当前前缀后接非blank的log概率：

n\_p\_nb = logsumexp(n\_p\_nb, p\_b + p, p\_nb + p)

当前缀后接重复字符，且中间有blank隔开，前缀变化，更新当前前缀后接非blank的log概率：

n\_p\_nb = logsumexp(n\_p\_nb, p\_b + p)

总结

BS根据不同的场景可以有不同的写法，其主要目的在于在每个时间点选择TOPK的路径继续搜索，达到增加搜索效率的目的，在BS的搜索过程中，如果是生成字符串，我们还可以加入语言模型的分数，得到更好的结果：
$Y^*=logP(Y|X)+\alpha P_{lm}(Y)+\beta len(Y)$
语言模型的加入地方一般为字符串扩增时。

参考

Sequence Modeling With CTC

本文《Beam Search与Prefix Beam Search的理解与python实现》版权归hangguns所有，引用Beam Search与Prefix Beam Search的理解与python实现需遵循CC 4.0 BY-SA版权协议。

推荐阅读

utf-8
Python3中选择文件对话框的格式打开和保存图片

本文介绍了在Python3中如何使用选择文件对话框的格式打开和保存图片的方法。通过使用tkinter库中的filedialog模块的asksaveasfilename和askopenfilename函数，可以方便地选择要打开或保存的图片文件，并进行相关操作。具体的代码示例和操作步骤也被提供。 ... [详细]

蜡笔小新 2023-12-14 17:46:55
utf-8
的错误消息：

ZSI.generate.Wsdl2PythonError: unsupported local simpleType restriction ... [详细]

蜡笔小新 2023-12-13 20:28:08
utf-8
推荐系统遇上深度学习(十七）详解推荐系统中的常用评测指标

原创：石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人，希望在平日的工作学习中，挖掘数据的价值， ... [详细]

蜡笔小新 2023-12-13 19:35:25
utf-8
计算机网络初识及通信流程分析

本文介绍了计算机网络的定义和通信流程，包括客户端编译文件、二进制转换、三层路由设备等。同时，还介绍了计算机网络中常用的关键词，如MAC地址和IP地址。 ... [详细]

蜡笔小新 2023-12-13 16:50:29
filter
也就是|小窗_卷积的特征提取与参数计算

篇首语：本文由编程笔记#小编为大家整理，主要介绍了卷积的特征提取与参数计算相关的知识，希望对你有一定的参考价值。Dense和Conv2D根本区别在于，Den ... [详细]

蜡笔小新 2023-12-13 12:59:48
utf-8
YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程

本文介绍了关于人工智能、神经网络和深度学习的知识点，并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说，YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容，以及选择模型的优化思路。 ... [详细]

蜡笔小新 2023-12-14 18:28:01
uri
Open judge C16H: Magical Balls 快速幂+逆元问题解析

本文主要解析了Open judge C16H问题中涉及到的Magical Balls的快速幂和逆元算法，并给出了问题的解析和解决方法。详细介绍了问题的背景和规则，并给出了相应的算法解析和实现步骤。通过本文的解析，读者可以更好地理解和解决Open judge C16H问题中的Magical Balls部分。 ... [详细]

蜡笔小新 2023-12-14 12:03:27
select
javascript – 概述在Firefox上无法正常工作

我试图提出一些自定义大纲,以达到一些Web可访问性建议.但我不能用Firefox制作.这就是它在Chrome上的外观：而那个图标实际上是一个锚点.在Firefox上,它只概述了整个 ... [详细]

蜡笔小新 2023-12-14 10:20:38
select
使用 Ubuntu 中的 Python 获取浏览器历史记录

使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]

蜡笔小新 2023-12-14 08:57:59
select
无损压缩算法专题——LZSS算法实现

本文介绍了基于无损压缩算法专题的LZSS算法实现。通过Python和C两种语言的代码实现了对任意文件的压缩和解压功能。详细介绍了LZSS算法的原理和实现过程，以及代码中的注释。 ... [详细]

蜡笔小新 2023-12-13 19:47:31
search
Python正则表达式学习记录及常用方法

本文记录了学习Python正则表达式的过程，介绍了re模块的常用方法re.search，并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具，通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ... [详细]

蜡笔小新 2023-12-13 16:37:19
search
python创建一个窗口_等一个大佬啊要求用python创建一个窗口，窗口按钮功能是创建一个球体或立方体。明天上课之前交给我...

展开全部下面的代码是创建一个立方体Thisexamplescreatesanddisplaysasimplebox.#Thefirstlineloadstheinit_disp ... [详细]

蜡笔小新 2023-12-13 16:26:09
search
Golang如何使用Cookie跟踪位置

关键词：Golang, Cookie, 跟踪位置, net/http/cookiejar, package main, golang.org/x/net/publicsuffix, io/ioutil, log, net/http, net/http/cookiejar ... [详细]

蜡笔小新 2023-12-13 15:47:22
search
java 模拟get post请求_Java后台模拟发送http的get和post请求，并测试

个人学习使用：谨慎参考1Client类importcom.thoughtworks.gauge.Step;importcom.thoughtworks.gauge.T ... [详细]

蜡笔小新 2023-12-13 14:20:23
search
Support Paged.JS for automatic hugo resume> PDF conversion.

FeatureRequestIsyourfeaturerequestrelatedtoaproblem?Please ... [详细]

蜡笔小新 2023-12-13 11:52:05

手机用户2602939883

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章