【嘉勤点评】海天瑞声发明的用户语音一致性检查方案,通过为用户构建的模板语音特征库即可实现实时对用户录制语音的一致性检测,无需人工多次回放收听dbscan。从而解决了检测语音一致性的成本较高以及时效性较低的技术问题,并提高了语音一致性的检测效率和检测时效性。
集微网消息,在生成语音合成数据库的过程中,通常要求同一个发音人在不同时期、不同环境所录制的数据保持较高的一致性,即从听感上保证所录制的各个批次的语音尽量保持一致dbscan。
例如,同一发音人在不同时期录制的音频的音量是否忽高忽低、语速是否时快时慢、音调是否忽高忽低等dbscan。但是,针对同一发音人在不同时期录制的音频是否在听感上保持一致,目前没有一个标准的评价方法。
现有的技术通常依赖于人工检查,即人为反复多次回放音频来判断是否一致dbscan。然而,该方法人工成本、时间成本较多,并且不能实时判断出发音人当前录制的语音是否具备一致性,时效性也较低。
为此,海天瑞声在2022年5月19日申请了一项名为“语音一致性检测方法、装置、设备及存储介质”的发明专利(申请号:202210541377.2),申请人为北京海天瑞声科技股份有限公司dbscan。
根据该专利目前公开的相关资料,让我们一起来看看这项技术方案吧dbscan。
展开全文
如上图,为该专利中发明的语音一致性检测方法的流程示意图,该方案可以用于判断用户录制的语音、视频中的音频是否与模板语音特征库中的模板语音一致dbscan。首先,系统获取目标用户的模板语音特征库,该特征库包括模板语音中各模板元音音素的音素特征,例如包括语音的发音、音量语速等。
其次,获取目标用户的待判定语音,确定待判定语音中各待判定元音音素的音素特征dbscan。待判定语音通常是目标用户所录制的需要判断是否与模板语音具备一致性的语音,如目标用户实时录制的语音,或者目标用户所录制的视频中的语音。
例如对于用户的全部元音音素进行判断时,包括元音音素的基音频率(基频)、元音音素的平均能量、元音音素的平均语速和元音音素的共振峰等多种因素及指标dbscan。
最后,基于各待判定元音音素的音素特征以及模板语音特征库中与各待判定元音音素对应的模板元音音素的音素特征,就可以检测待判定语音与模板语音之间是否具备一致性dbscan。例如,待判定元音音素的元音类型为i,则与待判定元音音素对应的模板元音音素的元音类型也为i。
因此,该方法通过为用户构建的模板语音特征库即可实现实时对用户录制语音的一致性检测,无需人工多次回放收听,解决了检测语音一致性的成本较高以及时效性较低的技术问题,提高了语音一致性的检测效率和检测时效dbscan。
如上图dbscan,为该专利中发明的模板元音音素的音素信息的提取流程图,其中共包括有六个步骤:
1)将所有模板语音输入至预先训练的语音检测模型dbscan,以使语音检测模型丢弃模板语音中的静音片段和噪声片段,输出有效语音片段;
2)按照预设帧长和预设帧移长度对全部有效语音片段进行截取dbscan,得到各个待特征提取帧,进而根据全部待特征提取帧提取MFCC特征;
3)将提取到的MFCC特征使用“隐马尔可夫‑高斯混合模型”并经过Viterbi解码dbscan,得到每个音素对应的音素信息;
4)将全部音素的音素信息输入至预先训练的音素置信度过滤模型dbscan,以使音素置信度过滤模型过滤掉置信度低于预设置信度阈值的音素,输出置信度大于或等于该音素;
5)将音素置信度过滤模型输出的音素输入元音检测模型dbscan,使元音检测模型检测各音素是否为元音音素,即确定全部音素中的模板元音音素;
6)最后,在获取到全部模板元音音素后,按照元音种类,统计各元音种类对应的各模板元音音素的音素信息dbscan。
如上图,展示了一种模板语音特征库的构建流程图,其中,根据所得到的各模板元音音素的音素信息,分别计算模板元音音素的平均能量和平均语速,并进行基频和共振峰(包括共振峰F1和共振峰F2)的提取dbscan。
之后,根据基频和共振峰对各模板元音音素进行聚类处理,并丢弃聚类后的簇外音素(即离群点),以实现对模板元音音素的去噪,即DBSCAN去除噪声数据dbscan。进而将剩余的模板元音音素的音素特征融合,得到各个模板元音音素的特征向量,得到维度为5的特征向量。
以上就是海天瑞声发明的用户语音一致性检查方案,该方案通过为用户构建的模板语音特征库即可实现实时对用户录制语音的一致性检测,无需人工多次回放收听dbscan。从而解决了检测语音一致性的成本较高以及时效性较低的技术问题,并提高了语音一致性的检测效率和检测时效性。