转：语音信号预处理及特征参数提取

作者：mobiledu2502880777 | 来源：互联网 | 2023-10-10 16:54

参考链接：https:zhuanlan.zhihu.comp266805991.WAVE文件格式在进行语音信号处理时，基本上会采用WAVE文件进行处理。

参考链接&＃xff1a; https://zhuanlan.zhihu.com/p/26680599

1. WAVE文件格式

在进行语音信号处理时&＃xff0c;基本上会采用WAVE文件进行处理。WAVE文件格式有什么特点呢&＃xff1f;为什么要使用WAVE文件呢&＃xff1f;

1.1 资源互换文件格式——RIFF

在windows环境下&＃xff0c;大部分的多媒体文件都依循着一些通用的结构来存放&＃xff0c;这些结构称为“资源互换文件格式”&＃xff08;Resources Interchange File Format)&＃xff0c;简称RIFF。RIFF可以看作一种树状结构&＃xff0c;其基本构成单位是块&＃xff08;chunk&＃xff09;。每个块由“辨别码”、“数据大小”及“数据”等构成。

RIFF文件的前4字节为其辨别码“RIFF"的ASCII字符码&＃xff0c;紧跟其后的双字节数据则标示整个文件大小&＃xff08;单位为字节Byte&＃xff09;。由于表示文件长度或块长度的”数据大小“信息占用4Byte&＃xff0c;所以&＃xff0c;事实上一个WAVE文件或文件中块的长度为数据大小加8。

1.2 WAVE文件格式

WAVE文件格式是windows中关于声音的一种标准格式&＃xff0c;也是RIFF文件格式支持的一种格式&＃xff0c;这种格式已成为Windows中的基本声音格式。整个WAVE文件可以分成两部分&＃xff1a;前一部分为文件头&＃xff0c;后一部分为数据块。根据其编码方式和采样数的不同&＃xff0c;这两部分的大小有所不同。在WAVE文件中&＃xff0c;所采用的编码方式有PCM&＃xff08;Pulse Code Modulation-脉冲编码调制&＃xff09;和ADPCM(Adaptive Differential Pulse Code Modulation-自适应差分脉冲编码调制&＃xff09;两种。

WAVE文件是非常简单的一种RIFF文件&＃xff0c;它的格式类型为"WAVE"。RIFF块包含两个子块&＃xff0c;这两个子块的ID分别是"fmt"和"data",其中"fmt"子块由结构PCMWAVEFORMAT所组成&＃xff0c;其子块的大小就是sizeofof(PCMWAVEFORMAT),数据组成就是PCMWAVEFORMAT结构中的数据。

下面是一个语音的数据&＃xff1a;

下面是数据中每个字节的内容&＃xff1a;

2. 语音的预处理

在对语音信号进行分析和处理之前&＃xff0c;必须对其进行预加重、分帧、加窗等预处理操作。这些操作的目的是消除因为人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等等因素&＃xff0c;对语音信号质量的影响。尽可能保证后续语音处理得到的信号更均匀、平滑&＃xff0c;为信号参数提取提供优质的参数&＃xff0c;提高语音处理质量。

2.1 预加重

语音信号s(n)的平均功率谱受声门激励和口鼻辐射的影响&＃xff0c;高频端大约在800Hz以上按6dB/oct (倍频程)衰减&＃xff0c;频率越高相应的成分越小&＃xff0c;为此要在对语音信号s(n)进行分析之前对其高频部分加以提升。通常的措施是用数字滤波器实现预加重&＃xff0c;预加重网络的输出和输入的语音信号s(n)的关系为&＃xff1a;

其中a为预加重系数&＃xff0c;一般取&＃xff0c;本系统中取a&＃61; 0.9375。

单词 interesting数据显示

单词 interesting数据经预加重后

2.2 分帧

贯穿于语音分析全过程的是“短时分析技术”。语音信号具有时变特性&＃xff0c;但是在一个短时间范围内(一般认为在10~30ms的短时间内)&＃xff0c;其特性基本保持不变即相对稳定&＃xff0c;因而可以将其看作是一个准稳态过程&＃xff0c;即语音信号具有短时平稳性。所以任何语音信号的分析和处理必须建立在“短时”的基础上&＃xff0c;即进行“短时分析”&＃xff0c;将语音信号分段来分析其特征参数&＃xff0c;其中每一段称为一“帧”&＃xff0c;帧长一般取为10~30ms。这样&＃xff0c;对于整体的语音信号来讲&＃xff0c;分析出的是由每一帧特征参数组成的特征参数时间序列。

2.3 加窗

由于语音信号具有短时平稳性&＃xff0c;我们可以对信号进行分帧处理。紧接着还要对其加窗处理。窗的目的是可以认为对抽样n附近的语音波形加以强调而对波形的其余部分加以减弱。对语音信号的各个短段进行处理&＃xff0c;实际上就是对各个短段进行某种变换或施以某种运算。用得最多的三种窗函数是矩形窗、汉明窗(Hamming)和汉宁窗(Hanning)&＃xff0c;其定义分别为:

矩形窗和汉明窗的比较:
矩形窗&＃xff0c;主瓣较窄&＃xff0c;具有较高的频率分辨率&＃xff0c;但具有较高的旁瓣&＃xff0c;相邻谐波干扰比较严重。与矩形窗相比&＃xff0c;汉明窗得到的频谱却要平滑得多。

2.4 端点检测

2.4.1 短时能量

短时能量序列反映了语音振幅或能量随着时间缓慢变化的规律

2.4.2 过零率

语音信号处理中的端点检测主要是为了自动检测出语音的起始点及结束点。

这里我们采用了双门限比较法来进行端点检测。双门限比较法以短时能量E和短时平均过零率Z作为特征&＃xff0c;结合Z和E的优点&＃xff0c;使检测更为准确&＃xff0c;有效降低系统的处理时间&＃xff0c;能排除无声段的噪声干扰&＃xff0c;从而提高的语音信号的处理性能。

function [x1,x2] &＃61; vad(x)

%幅度归一化到[-1,1]
x &＃61; double(x);
x &＃61; x / max(abs(x));

%常数设置
FrameLen &＃61; 240;
FrameInc &＃61; 80;

amp1 &＃61; 10;
amp2 &＃61; 2;
zcr1 &＃61; 10;
zcr2 &＃61; 5;

maxsilence &＃61; 8; % 610ms &＃61; 30ms
minlen &＃61; 15; % 1510ms &＃61; 150ms
status &＃61; 0;
count &＃61; 0;
silence &＃61; 0;

%计算过零率
tmp1 &＃61; enframe(x(1:end-1), FrameLen, FrameInc);
tmp2 &＃61; enframe(x(2:end) , FrameLen, FrameInc);
signs &＃61; (tmp1.*tmp2)<0;
diffs &＃61; (tmp1 -tmp2)>0.02;
zcr &＃61; sum(signs.*diffs, 2);

%计算短时能量
amp &＃61; sum(abs(enframe(filter([1 -0.9375], 1, x), FrameLen, FrameInc)), 2);

%调整能量门限
amp1 &＃61; min(amp1, max(amp)/4);
amp2 &＃61; min(amp2, max(amp)/8);

%开始端点检测
x1 &＃61; 0;
x2 &＃61; 0;
for n&＃61;1:length(zcr)
goto &＃61; 0;
switch status
case {0,1} % 0 &＃61; 静音, 1 &＃61; 可能开始
if amp(n) > amp1 % 确信进入语音段
x1 &＃61; max(n-count-1,1);
status &＃61; 2;
silence &＃61; 0;
count &＃61; count &＃43; 1;
elseif amp(n) > amp2 | … % 可能处于语音段
zcr(n) > zcr2
status &＃61; 1;
count &＃61; count &＃43; 1;
else % 静音状态
status &＃61; 0;
count &＃61; 0;
end
case 2, % 2 &＃61; 语音段
if amp(n) > amp2 | … % 保持在语音段
zcr(n) > zcr2
count &＃61; count &＃43; 1;
else % 语音将结束
silence &＃61; silence&＃43;1;
if silence count &＃61; count &＃43; 1;
elseif count status &＃61; 0;
silence &＃61; 0;
count &＃61; 0;
else % 语音结束
status &＃61; 3;
end
end
case 3,
break;
end
end

count &＃61; count-silence/2;
x2 &＃61; x1 &＃43; count -1;

subplot(311)
plot(x)
axis([1 length(x) -1 1])
ylabel(‘Speech’);
line([x1FrameInc x1FrameInc], [-1 1], ‘Color’, ‘red’);
line([x2FrameInc x2FrameInc], [-1 1], ‘Color’, ‘red’);

subplot(312)
plot(amp);
axis([1 length(amp) 0 max(amp)])
ylabel(‘Energy’);
line([x1 x1], [min(amp),max(amp)], ‘Color’, ‘red’);
line([x2 x2], [min(amp),max(amp)], ‘Color’, ‘red’);

subplot(313)
plot(zcr);
axis([1 length(zcr) 0 max(zcr)])
ylabel(‘ZCR’);
line([x1 x1], [min(zcr),max(zcr)], ‘Color’, ‘red’);
line([x2 x2], [min(zcr),max(zcr)], ‘Color’, ‘red’);

3. MFCC特征参数提取

什么是语音的特征参数?特征参数包括什么?怎么提取?

在语音信号中&＃xff0c;包含着非常丰富的特征参数&＃xff0c;不同的特征向量表征着不同的物理和声学意义。选择什么特征参数对说话人识别系统的成败意义重大。如果选择了好的特征参数&＃xff0c;将有助于提高识别率。特征提取就是要尽量取出或削减语音信号中与识别无关的信息的影响&＃xff0c;减少后续识别阶段需处理的数据量&＃xff0c;生成表征语音信号中携带的说话人信息的特征参数。根据语音特征的不同用途&＃xff0c;需要提取不同的特征参数&＃xff0c;从而保证识别的准确率。

常用的语音特征参数有LPCC 和MFCC。LPCC 参数是根据声管模型建立的特征参数, 主要反映声道响应。MFCC 参数是基于人的听觉特性利用人听觉的临界带效应, 在Mel 标度频率域提取出来的倒谱特征参数。

Mel倒谱系数是根据人类听觉系统的特性提出的&＃xff0c;模拟人耳对不同频率语音的感知。人耳分辨声音频率的过程就像一种取对数的操作。例如&＃xff1a;在Mel频域内&＃xff0c;人对音调的感知能力为线性关系&＃xff0c;如果两段语音的Mel频率差两倍&＃xff0c;则人在感知上也差两倍。

MFCC算法过程&＃xff1a;

(1) 快速傅里叶变换(FFT)

(2) 将实际频率尺度转换为Mel频率尺度&＃xff1a;

(3) 配置三角形滤波器组并计算每一个三角形滤波器对信号幅度谱滤波后的输出&＃xff1a;

(4)　对所有滤波器输出作对数运算&＃xff0c;再进一步做离散余弦变换(DTC)&＃xff0c;即可得到MFCC&＃xff1a;

function ccc &＃61; mfcc(x) % 归一化mel滤波器组系数 bank&＃61;melbankm(24,256,8000,0,0.5,‘m’); bank&＃61;full(bank); bank&＃61;bank/max(bank(?);

% DCT系数,1224
for k&＃61;1:12
n&＃61;0:23;
dctcoef(k,:)&＃61;cos((2n&＃43;1)kpi/(2*24));
end

% 归一化倒谱提升窗口
w &＃61; 1 &＃43; 6 * sin(pi * [1:12] ./ 12);
w &＃61; w/max(w);

% 预加重滤波器
xx&＃61;double(x);
xx&＃61;filter([1 -0.9375],1,xx);

% 语音信号分帧
xx&＃61;enframe(xx,256,80);

% 计算每帧的MFCC参数
for i&＃61;1:size(xx,1)
y &＃61; xx(i,:);
s &＃61; y’ .* hamming(256);
t &＃61; abs(fft(s));
t &＃61; t.^2;
c1&＃61;dctcoef * log(bank * t(1:129));
c2 &＃61; c1.*w’;
m(i,:)&＃61;c2’;
end

%差分系数
dtm &＃61; zeros(size(m));
for i&＃61;3:size(m,1)-2
dtm(i,:) &＃61; -2m(i-2,:) - m(i-1,:) &＃43; m(i&＃43;1,:) &＃43; 2m(i&＃43;2,:);
end
dtm &＃61; dtm / 3;

%合并mfcc参数和一阶差分mfcc参数
ccc &＃61; [m dtm];
%去除首尾两帧&＃xff0c;因为这两帧的一阶差分参数为0
ccc &＃61; ccc(3:size(m,1)-2,:);

推荐阅读

数组
UNP 第9章：主机名与地址转换

本章探讨了用于在主机名和数值地址之间进行转换的函数，如gethostbyname和gethostbyaddr。此外，还介绍了getservbyname和getservbyport函数，用于在服务器名和端口号之间进行转换。 ... [详细]

蜡笔小新 2024-12-27 11:26:39
text
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
sum
Java 序列化接口详解

本文深入探讨了 Java 中的 Serializable 接口，解释了其实现机制、用途及注意事项，帮助开发者更好地理解和使用序列化功能。 ... [详细]

蜡笔小新 2024-12-27 15:06:12
sum
从零构建递归神经网络：仅用NumPy实现

尽管使用TensorFlow和PyTorch等成熟框架可以显著降低实现递归神经网络（RNN）的门槛，但对于初学者来说，理解其底层原理至关重要。本文将引导您使用NumPy从头构建一个用于自然语言处理（NLP）的RNN模型。 ... [详细]

蜡笔小新 2024-12-26 11:29:15
sum
CUGB图论专题：排水系统中的最大流问题 - EK与Dinic算法解析

本题探讨如何通过最大流算法解决农场排水系统的设计问题。题目要求计算从水源点到汇合点的最大水流速率，使用经典的EK（Edmonds-Karp）和Dinic算法进行求解。 ... [详细]

蜡笔小新 2024-12-25 17:47:23
web
微软Exchange服务器遭遇2022年版“千年虫”漏洞

微软Exchange服务器在新年伊始遭遇了一个类似于‘千年虫’的日期处理漏洞，导致邮件传输受阻。该问题主要影响配置了FIP-FS恶意软件引擎的Exchange 2016和2019版本。 ... [详细]

蜡笔小新 2024-12-25 14:08:03
object
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
text
DNN Community 和 Professional 版本的主要差异

本文详细解析了 DotNetNuke (DNN) 的两种主要版本：Community 和 Professional。通过对比两者的功能和附加组件，帮助用户选择最适合其需求的版本。 ... [详细]

蜡笔小新 2024-12-27 13:14:08
text
如何高效创建和使用字体图标

在Web和移动开发中，为什么选择字体图标？主要原因是其卓越的性能，可以显著减少HTTP请求并优化页面加载速度。本文详细介绍了从设计到应用的字体图标制作流程，并提供了专业建议。 ... [详细]

蜡笔小新 2024-12-26 20:48:44
text
使用 SQLiteJDBC 和 HikariCP 实现 Java 程序连接 SQLite 数据库

本文介绍了如何通过 Maven 依赖引入 SQLiteJDBC 和 HikariCP 包，从而在 Java 应用中高效地连接和操作 SQLite 数据库。文章提供了详细的代码示例，并解释了每个步骤的实现细节。 ... [详细]

蜡笔小新 2024-12-26 17:34:42
text
moment 国际化设置中文语言 (全局) 及使用示例

moment 国际化设置中文语言 (全局) 及使用示例 ... [详细]

蜡笔小新 2024-12-26 10:38:30
text
ASP.NET MVC中Area机制的实现与优化

本文探讨了在ASP.NET MVC框架中，如何通过Area机制有效地组织和管理大规模应用程序的不同功能模块。通过合理的文件夹结构和命名规则，开发人员可以更高效地管理和扩展项目。 ... [详细]

蜡笔小新 2024-12-25 22:53:48
text
dotnet 通过 Elmish.WPF 使用 F# 编写 WPF 应用

本文来安利大家一个有趣而且强大的库，通过F#和C#混合编程编写WPF应用，可以在WPF中使用到F#强大的数据处理能力在GitHub上完全开源Elmis ... [详细]

蜡笔小新 2024-12-25 16:06:42
web
深入解析网络存储技术

本文详细介绍了网络存储技术的基本概念、分类及应用场景。通过分析直连式存储（DAS）、网络附加存储（NAS）和存储区域网络（SAN）的特点，帮助读者理解不同存储方式的优势与局限性。 ... [详细]

蜡笔小新 2024-12-24 10:38:34
select
解析SQL查询结果的排序问题及其解决方案

本文探讨了为什么某些SQL查询返回的数据集未能按预期顺序排列，并提供了详细的解决方案，帮助开发者理解并解决这一常见问题。 ... [详细]

蜡笔小新 2024-12-23 21:21:17

mobiledu2502880777

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章