热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

声纹识别·总章

声纹识别1.理论1.1声纹识别基础1.2声纹识别算法1.3声纹识别数据介绍2.资源2.1数据(中文英文)2.2工具KaldiTensorFlowPyTo

声纹识别

  • 1. 理论
    • 1.1 声纹识别基础
    • 1.2 声纹识别算法
    • 1.3 声纹识别数据介绍
  • 2. 资源
    • 2.1 数据(中文/英文)
    • 2.2 工具
      • Kaldi
      • TensorFlow
      • PyTorch
      • Keras
    • 2.3 资源汇总
      • 语音/声纹相关书籍
      • 语音/声纹相关课程
      • 声纹识别的应用
      • 声纹识别学习路径
    • 2.4 声纹识别大牛
  • 3. 实战:理论到代码
    • 数据
    • 指标
    • 测试
    • 代码
    • 声纹识别项目




声纹识别关心的“
谁在说”,用于解决生物
身份确认和识别;而语音识别关心的“说了什么”,用于解决对说话内容的识别。
1. 理论

1.1 声纹识别基础


  • 波的简单知识(声波为例)

  • 音频特征(1):时域图

  • 音频特征(2):时域图、频谱图、语谱图(时频谱图)

  • 音频特征(3):各种波形图像的小结

  • “声音”背后的原理(1):声波、声音的采集、声音的储存

  • “声音”背后的原理(2):采样、量化和编码

  • “声音”背后的原理(3):音频信号处理的基础概念和流程小结

  • 声纹识别概述(1)初识

  • 声纹识别概述(2)声纹识别原理和过程

  • 声纹识别概述(3)声纹识别系统

  • 声纹识别技术小结(1):声纹建模技术


1.2 声纹识别算法


  • 声纹识别:x-vector 的特征提取原理
  • Kaldi说话人识别:基于x-vector 的plda自适应

1.3 声纹识别数据介绍

声纹识别常用数据集简介

2. 资源

2.1 数据(中文/英文)

(1) 中文数据集
SLR33
SLR85
SLR82
AISHELL-2
SLR18

(2)国外数据集
Voxceleb2
可参考点击进行下载(注意:解压方式)
配套论文:论文分享 VoxCeleb2:Deep Speaker Recognition

2.2 工具


Kaldi


  • kaldi 声纹识别·资源汇总

  • Kaldi 声纹识别·总章

    Python + kaldi
    PYTORCH-KALDI语音识别工具包


TensorFlow

TensorFlow-based Deep Speaker

PyTorch

PyTorch-based Deep Speaker

Keras

Speaker Recognition

2.3 资源汇总


  1. 详解音频编解码的原理、演进和应用选型等——很全面的音频相关系列连载!
  2. 语音识别(八)——声纹识别, 地理
  3. 小白声纹识别(说话人识别)探索
  4. 20190510 语音识别资源整理
  5. iamxiaoyubei /Voice-Tech-Study
  6. kaldi/语音识别ASR/声纹识别SRE/资源汇总——总结了很多综合性的语音识别/声纹识别资源

语音/声纹相关书籍


  • Hand Book of Speech Enhancement and Recognition

语音/声纹相关课程

爱丁堡大学计算机学院:Automatic Speech Recognition (ASR) 2018-19: Lectures

更多可以参考:语音及语言处理(SLP)课程与相关资料分享

声纹识别的应用


  • 声纹识别的应用实践——李博士的知乎专栏,写的不错!
  • Leon晋声纹/ASR/diarization/Kaldi粉——可以看大佬在知乎的回答,说不定就有新的收获

声纹识别学习路径


  • 说话人识别/声纹识别学习路径的资料整理,从零学声纹识别——简直牛逼轰轰!如果有时间,又想系统的学习的话,可以参考这个学习路径:GMM-UBM -> JFA -> Ivector-PLDA -> DNN embeddings -> E2E

2.4 声纹识别大牛


  • 王赟
  • 王泉——这个很强大,有很多理论以及工具的介绍,以及王泉老师维护的项目,以及新书:《声纹技术:从核心算法到工程实践》

3. 实战:理论到代码

数据

语音库的分析与评价
音频质量的评价方法

指标


  • 基础指标:FAR、FRR
    人脸识别模型评价指标:完整梳理
  • ERR
    声纹识别 如何获取最佳效果的阈值(通过计算ERR)?

测试


  • Kaldi项目测试(1)顺利提取特征、计算相似度分数

代码

papers with code: Speaker Verification +论文+代码!!!

声纹识别项目


  1. Python + tensorflow:声纹识别综述+一个简易的tensorflow实现的模型(https://github.com/RDShi/voiceprint)

  2. Python + Keras:基于Kersa实现的中英语音声纹识别

  3. 【工程】深度说话人的应用及声纹识别系统的制作 (附完整代码与数据集)

  4. 使用tensorflow和densenet神经网路实现语谱图声纹识别,即说话人识别

    配套的 github地址:https://github.com/jcfszxc/Project

参考:

  1. 语音识别(八)——声纹识别, 地理
  2. 声纹识别知识整理
  3. 添加链接描述

推荐阅读
  • 在开发过程中,我最初也依赖于功能全面但操作繁琐的集成开发环境(IDE),如Borland Delphi 和 Microsoft Visual Studio。然而,随着对高效开发的追求,我逐渐转向了更加轻量级和灵活的工具组合。通过 CLIfe,我构建了一个高度定制化的开发环境,不仅提高了代码编写效率,还简化了项目管理流程。这一配置结合了多种强大的命令行工具和插件,使我在日常开发中能够更加得心应手。 ... [详细]
  • 普通树(每个节点可以有任意数量的子节点)级序遍历 ... [详细]
  • 利用树莓派畅享落网电台音乐体验
    最近重新拾起了闲置已久的树莓派,这台小巧的开发板已经沉寂了半年多。上个月闲暇时间较多,我决定将其重新启用。恰逢落网电台进行了改版,回忆起之前在树莓派论坛上看到有人用它来播放豆瓣音乐,便萌生了同样的想法。通过一番调试,终于实现了在树莓派上流畅播放落网电台音乐的功能,带来了全新的音乐享受体验。 ... [详细]
  • 2019年斯坦福大学CS224n课程笔记:深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析
    本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理(NLP)领域的应用,重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析,深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]
  • 目录预备知识导包构建数据集神经网络结构训练测试精度可视化计算模型精度损失可视化输出网络结构信息训练神经网络定义参数载入数据载入神经网络结构、损失及优化训练及测试损失、精度可视化qu ... [详细]
  • Spring Data JdbcTemplate 入门指南
    本文将介绍如何使用 Spring JdbcTemplate 进行数据库操作,包括查询和插入数据。我们将通过一个学生表的示例来演示具体步骤。 ... [详细]
  • 本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节,作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识,为后续的机器学习应用打下坚实的基础。 ... [详细]
  • Python错误重试让多少开发者头疼?高效解决方案出炉
    ### 优化后的摘要在处理 Python 开发中的错误重试问题时,许多开发者常常感到困扰。为了应对这一挑战,`tenacity` 库提供了一种高效的解决方案。首先,通过 `pip install tenacity` 安装该库。使用时,可以通过简单的规则配置重试策略。例如,可以设置多个重试条件,使用 `|`(或)和 `&`(与)操作符组合不同的参数,从而实现灵活的错误重试机制。此外,`tenacity` 还支持自定义等待时间、重试次数和异常处理,为开发者提供了强大的工具来提高代码的健壮性和可靠性。 ... [详细]
  • Android 构建基础流程详解
    Android 构建基础流程详解 ... [详细]
  • 在更换电脑后,使用 Git Bash 运行 Python 时可能会遇到找不到 Python 解释器的问题。本文详细介绍了如何在 Windows 环境下通过 Bash Shell 调用不同版本的 Python,并成功运行 SRSPlayer HTTP 服务器。具体步骤包括配置环境变量、验证 Python 版本以及启动服务器的方法。 ... [详细]
  • Python 伦理黑客技术:深入探讨后门攻击(第三部分)
    在《Python 伦理黑客技术:深入探讨后门攻击(第三部分)》中,作者详细分析了后门攻击中的Socket问题。由于TCP协议基于流,难以确定消息批次的结束点,这给后门攻击的实现带来了挑战。为了解决这一问题,文章提出了一系列有效的技术方案,包括使用特定的分隔符和长度前缀,以确保数据包的准确传输和解析。这些方法不仅提高了攻击的隐蔽性和可靠性,还为安全研究人员提供了宝贵的参考。 ... [详细]
  • 能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察
    本周科技前沿报道了多项重要进展,包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果,以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是,一款能够感知用户情绪状态的智能机器人即将问世,为未来的人机交互带来了全新的可能性。 ... [详细]
  • K3Cloud 平台字符串解密技术详解与应用
    在 K3Cloud 平台中,配置文件内的敏感信息如密码会被加密处理。通过深入研究,我们发现可以通过 Kingdee.BOS.Api 提供的接口对这些加密字符串进行解密。本文详细介绍了这一解密技术的具体实现方法及其应用场景,为开发者提供了宝贵的参考和实践指导。此外,还探讨了该技术在数据安全和系统管理中的重要性,以及如何在实际项目中高效地应用这些技术,确保系统的稳定性和安全性。 ... [详细]
  • 技术日志:Ansible的安装及模块管理详解 ... [详细]
  • 从2019年AI顶级会议最佳论文,探索深度学习的理论根基与前沿进展 ... [详细]
author-avatar
书琳天使_984
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有