声纹识别
- 1. 理论
- 1.1 声纹识别基础
- 1.2 声纹识别算法
- 1.3 声纹识别数据介绍
- 2. 资源
- 2.1 数据(中文/英文)
- 2.2 工具
- Kaldi
- TensorFlow
- PyTorch
- Keras
- 2.3 资源汇总
- 语音/声纹相关书籍
- 语音/声纹相关课程
- 声纹识别的应用
- 声纹识别学习路径
- 2.4 声纹识别大牛
- 3. 实战:理论到代码
声纹识别关心的“
谁在说”,用于解决生物
身份确认和识别;而语音识别关心的“说了什么”,用于解决对说话内容的识别。
1. 理论
1.1 声纹识别基础
-
波的简单知识(声波为例)
-
音频特征(1):时域图
-
音频特征(2):时域图、频谱图、语谱图(时频谱图)
-
音频特征(3):各种波形图像的小结
-
“声音”背后的原理(1):声波、声音的采集、声音的储存
-
“声音”背后的原理(2):采样、量化和编码
-
“声音”背后的原理(3):音频信号处理的基础概念和流程小结
-
声纹识别概述(1)初识
-
声纹识别概述(2)声纹识别原理和过程
-
声纹识别概述(3)声纹识别系统
-
声纹识别技术小结(1):声纹建模技术
1.2 声纹识别算法
- 声纹识别:x-vector 的特征提取原理
- Kaldi说话人识别:基于x-vector 的plda自适应
1.3 声纹识别数据介绍
声纹识别常用数据集简介
2. 资源
2.1 数据(中文/英文)
(1) 中文数据集
SLR33
SLR85
SLR82
AISHELL-2
SLR18
(2)国外数据集
Voxceleb2
可参考点击进行下载(注意:解压方式)
配套论文:论文分享 VoxCeleb2:Deep Speaker Recognition
2.2 工具
Kaldi
TensorFlow
TensorFlow-based Deep Speaker
PyTorch
PyTorch-based Deep Speaker
Keras
Speaker Recognition
2.3 资源汇总
- 详解音频编解码的原理、演进和应用选型等——很全面的音频相关系列连载!
- 语音识别(八)——声纹识别, 地理
- 小白声纹识别(说话人识别)探索
- 20190510 语音识别资源整理
- iamxiaoyubei /Voice-Tech-Study
- kaldi/语音识别ASR/声纹识别SRE/资源汇总——总结了很多综合性的语音识别/声纹识别资源
语音/声纹相关书籍
- Hand Book of Speech Enhancement and Recognition
语音/声纹相关课程
爱丁堡大学计算机学院:Automatic Speech Recognition (ASR) 2018-19: Lectures
更多可以参考:语音及语言处理(SLP)课程与相关资料分享
声纹识别的应用
- 声纹识别的应用实践——李博士的知乎专栏,写的不错!
- Leon晋声纹/ASR/diarization/Kaldi粉——可以看大佬在知乎的回答,说不定就有新的收获
声纹识别学习路径
- 说话人识别/声纹识别学习路径的资料整理,从零学声纹识别——简直牛逼轰轰!如果有时间,又想系统的学习的话,可以参考这个学习路径:GMM-UBM -> JFA -> Ivector-PLDA -> DNN embeddings -> E2E
2.4 声纹识别大牛
- 王赟
- 王泉——这个很强大,有很多理论以及工具的介绍,以及王泉老师维护的项目,以及新书:《声纹技术:从核心算法到工程实践》
3. 实战:理论到代码
数据
语音库的分析与评价
音频质量的评价方法
指标
- 基础指标:FAR、FRR
人脸识别模型评价指标:完整梳理 - ERR
声纹识别 如何获取最佳效果的阈值(通过计算ERR)?
测试
- Kaldi项目测试(1)顺利提取特征、计算相似度分数
代码
papers with code: Speaker Verification +论文+代码!!!
声纹识别项目
-
Python + tensorflow:声纹识别综述+一个简易的tensorflow实现的模型(https://github.com/RDShi/voiceprint)
-
Python + Keras:基于Kersa实现的中英语音声纹识别
-
【工程】深度说话人的应用及声纹识别系统的制作 (附完整代码与数据集)
-
使用tensorflow和densenet神经网路实现语谱图声纹识别,即说话人识别
配套的 github地址:https://github.com/jcfszxc/Project
参考:
- 语音识别(八)——声纹识别, 地理
- 声纹识别知识整理
- 添加链接描述