作者:東東1959 | 来源:互联网 | 2023-09-16 18:26
一,六种模型
输入一段声音------>输出文本、声音、判断类别
![](https://img3.php1.cn/3cdc5/6447/339/8f81f6f861eff7e3.png)
![](https://img3.php1.cn/3cdc5/6447/339/0e425767c2d99721.png)
输入语言判断类别:
二、speech recognition声音识别
![](https://img3.php1.cn/3cdc5/6447/339/a74308c753f5af50.png)
![](https://img3.php1.cn/3cdc5/6447/339/78b3e09bef9ef11b.png)
三个主要语音辨识会议中,使用最多的token:
![](https://img3.php1.cn/3cdc5/6447/339/f5b4d853749b984b.png)
语音辨识+xxxx:
![](https://img3.php1.cn/3cdc5/6447/339/bfbd8f53fd900f60.png)
声音特征:
![](https://img3.php1.cn/3cdc5/6447/339/800a09b77b7e7c11.png)
![](https://img3.php1.cn/3cdc5/6447/339/cd7a69d73c6ec96b.png)
![](https://img3.php1.cn/3cdc5/6447/339/1d9710980a2950ff.png)
物种语音识别模型
![](https://img3.php1.cn/3cdc5/6447/339/12dfad67c7920fa1.png)
LAS(Listen,Attend,and Spell )
![](https://img3.php1.cn/3cdc5/6447/339/b450cbf5901bf8cd.png)
![](https://img3.php1.cn/3cdc5/6447/339/2f2f8417f43c6349.png)
encoder 可以采用rnn,cnn
![](https://img3.php1.cn/3cdc5/6447/339/4dff129f2e527c15.png)
![](https://img3.php1.cn/3cdc5/6447/339/81e720d6dced15b8.png)
1,获取attention两种方式:
z0关键字和每一个资料库(encoder的输出)h1、h2.。。。都分别输入一个叫match的function计算出一个skeler即一个数值
。
常用的match function方式:
![](https://img3.php1.cn/3cdc5/6447/339/d74656665f311de8.png)
![](https://img3.php1.cn/3cdc5/6447/339/ae85a961a41af9b1.png)
2,spell
![](https://img3.php1.cn/3cdc5/6447/339/d617a3ac7654a357.png)