语音识别，文本转语音，语音转文本

作者：先进的山楂4l4_519 | 来源：互联网 | 2023-09-13 19:20

1.语音合成.百度AipSpeech：synthesis():1:与合成语音的文本.2.语言.3.客户端类型，14.option{语音合成参数}:

1. 语音合成.
	百度AipSpeech：
	synthesis():
		1: 与合成语音的文本.
		2. 语言.
		3. 客户端类型，1 
		4.option{语音合成参数}: pit 声调  spd 语速 vol 音量 per cosplay 合成语音角色.
		
2. 语音识别
	百度 AipSpeech
		 asr():
			1. 音频文件流 
			2. 音频文件格式(pcm)
			3. 音频采样率(16000, 8k/16k)
			4. option{识别语种}： dev_pid :1537  包含简单英文的普通话识别. 
		
		录音文件基本上没有直接pcm格式，需要对音频文件进行转换.
		ffmpeg:FFmpeg公司.涉及audio 处理的基本上都用它了.
		通过os.system(FFmpeg_cmdstr)得到新的pcm文件.

1. 百度注册账号.

案例1 .文本转语音

from aip import AipSpeech
from aip import AipNlp
from uuid import uuid4
import setting
import os

APP_ID = "11562884"
API_KEY = "9iOLKP9VCo4nsEf3N8dcOUmT"
SECRET_KEY = "aW0kwOHFbHrQely6bcmGTzU49t2jOYdL"

baidu_client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
baidu_nlp = AipNlp(APP_ID, API_KEY, SECRET_KEY)

#.1 文本转语音.
def text2audio(text):

    file_name = f"{uuid4()}.mp3"
    print("filename:%s"%file_name)
    file_path = os.path.join(setting.AUDIO_FILE_PATH, file_name)
    print("file_path:%s" %(file_path))
    res = baidu_client.synthesis(text, "zh", 1, {
        "vol": 5,
        "pit": 7,
        "spd": 4,
        "per": 4
    })

    if type(res) == dict:
        return res

    with open(file_path, "wb") as f:
        f.write(res)

    return file_name

print(text2audio("强哥威武"))

打印结果：

filename:86375f56-f42d-447a-9bcc-829d370ff805.mp3
file_path:audio\86375f56-f42d-447a-9bcc-829d370ff805.mp3
86375f56-f42d-447a-9bcc-829d370ff805.mp3

案例2.语音转文本.

def audio2text(file_name):
    file_pcm_path =os.path.join(setting.AUDIO_FILE_PATH,file_name)
    cmd_str =f"ffmpeg -y -i {file_pcm_path} -acodec pcm_s16le -f s16le -ac 1 -ar 16000 {file_pcm_path}.pcm"
    os.system(cmd_str)

    with open(f"{file_pcm_path}","rb") as f :
        audio_context =f.read()

    res =baidu_client.asr(audio_context,"pcm",16000,{"dev_pid": 1537})

    if res.get('err_no'):
        return res

    return res.get("result")[0]

print(audio2text("qiang.wma"))

案例3. 语音识别 NLP

#.3 语音识别
def my_nlp(text):
    if baidu_nlp.simnet("你今年几岁了 ",text).get("score")>=0.72:
        print(baidu_nlp.simnet("你今年几岁了 ",text).get("score"))
        return "我今年73岁了，不然84岁也行"

    if baidu_nlp.simnet("你叫什么名字",text).get("score")>=0.72:
        return "我的名字叫做小嘿嘿"

    if baidu_nlp.simnet("你在哪里学习",text).get("score")>=0.72:
        return "我在学习python"


print(my_nlp('你多大了'))  #结果：我今年73岁了，不然84岁也行

print(my_nlp("你的名字是")) #结果：我的名字叫做小嘿嘿

代码总结：

from aip import AipSpeech
from aip import AipNlp
from uuid import uuid4
import setting
import os

APP_ID = "11562884"
API_KEY = "9iOLKP9VCo4nsEf3N8dcOUmT"
SECRET_KEY = "aW0kwOHFbHrQely6bcmGTzU49t2jOYdL"

baidu_client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
baidu_nlp = AipNlp(APP_ID, API_KEY, SECRET_KEY)

#.1 文本转语音.
def text2audio(text):

    file_name = f"{uuid4()}.mp3"
    print("filename:%s"%file_name)
    file_path = os.path.join(setting.AUDIO_FILE_PATH, file_name)
    print("file_path:%s" %(file_path))
    res = baidu_client.synthesis(text, "zh", 1, {
        "vol": 5,
        "pit": 7,
        "spd": 4,
        "per": 4
    })

    if type(res) == dict:
        return res

    with open(file_path, "wb") as f:
        f.write(res)

    return file_name
#
# print(text2audio("强哥威武"))



#.2 语音转文本.
def audio2text(file_name):
    file_pcm_path =os.path.join(setting.AUDIO_FILE_PATH,file_name)
    cmd_str =f"ffmpeg -y -i {file_pcm_path} -acodec pcm_s16le -f s16le -ac 1 -ar 16000 {file_pcm_path}.pcm"
    os.system(cmd_str)

    with open(f"{file_pcm_path}","rb") as f :
        audio_context =f.read()

    res =baidu_client.asr(audio_context,"pcm",16000,{"dev_pid": 1537})

    if res.get('err_no'):
        return res

    return res.get("result")[0]
#
print(audio2text("qiang.wma"))


#.3 语音识别
def my_nlp(text):
    if baidu_nlp.simnet("你今年几岁了 ",text).get("score")>=0.72:
        print(baidu_nlp.simnet("你今年几岁了 ",text).get("score"))
        return "我今年73岁了，不然84岁也行"

    if baidu_nlp.simnet("你叫什么名字",text).get("score")>=0.72:
        return "我的名字叫做小嘿嘿"

    if baidu_nlp.simnet("你在哪里学习",text).get("score")>=0.72:
        return "我在学习python"


print(my_nlp('你多大了'))  #结果：我今年73岁了，不然84岁也行

print(my_nlp("你的名字是")) #结果：我的名字叫做小嘿嘿

View Code

send_file 与audio标签.

py文件

from  flask  import Flask,request,send_file
import setting
import os

app =Flask(__name__)



@app.route("/getfile/")
def get_file(file_name):

    audio_file =os.path.join(setting.AUDIO_FILE_PATH,file_name)

    return send_file(audio_file)


if __name__ =="__main__":
    app.run()

html文件

"en">

    "UTF-8">

推荐阅读

main
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
main
Zabbix自定义监控与邮件告警配置实践

本文详细介绍了如何在Zabbix中添加自定义监控项目，配置邮件告警功能，并解决测试告警时遇到的邮件不发送问题。 ... [详细]

蜡笔小新 2024-11-22 08:33:19
go
入门指南：使用FastRPC技术连接Qualcomm Hexagon DSP

本文旨在为初学者提供关于如何使用FastRPC技术连接Qualcomm Hexagon DSP的基础知识。FastRPC技术允许开发者在本地客户端实现远程调用，从而简化Hexagon DSP的开发和调试过程。 ... [详细]

蜡笔小新 2024-11-21 10:03:34
go
计算机视觉领域介绍 | 自然语言驱动的跨模态行人重识别前沿技术综述（上篇）

本文介绍了计算机视觉领域的最新进展，特别是自然语言驱动的跨模态行人重识别技术。上篇内容详细探讨了该领域的基础理论、关键技术及当前的研究热点，为读者提供了全面的概述。 ... [详细]

蜡笔小新 2024-11-07 12:41:08
web
Python3爬虫入门：pyspider的基本使用[python爬虫入门]

Python学习网有大量免费的Python入门教程，欢迎大家来学习。本文主要通过爬取去哪儿网的旅游攻略来给大家介绍pyspid ... [详细]

蜡笔小新 2024-11-22 18:00:41
char
PHP与MySQL实现高效分页查询

本文探讨了如何在PHP与MySQL环境中实现高效的分页查询，包括基本的分页实现、性能优化技巧以及高级的分页策略。 ... [详细]

蜡笔小新 2024-11-22 05:45:48
char
Python技巧：将相同元素聚合至矩阵

本文探讨了如何在Python中将具有相同值的元素分组到矩阵中，这是一个在数据分析和处理中常见的需求。 ... [详细]

蜡笔小新 2024-11-21 17:07:12
select
Struts2 + json+ jquery 实现三级联动action和jsp代码竟然有小红叉，提示缺双引号，检查了转义符号也没缺啊，求解

publicclassBindActionextendsActionSupport{privateStringproString;privateStringcitString; ... [详细]

蜡笔小新 2024-11-21 16:25:41
go
Spring AOP学习笔记Advice执行顺序

一、Advice执行顺序二、Advice在同一个Aspect中三、Advice在不同的Aspect中一、Advice执行顺序如果多个Advice和同一个JointPoint连接& ... [详细]

蜡笔小新 2024-11-21 15:28:36
post
Requests库的基本使用方法

本文介绍了Python中Requests库的基础用法，包括如何安装、GET和POST请求的实现、如何处理Cookies和Headers，以及如何解析JSON响应。相比urllib库，Requests库提供了更为简洁高效的接口来处理HTTP请求。 ... [详细]

蜡笔小新 2024-11-21 13:17:41
web
使用Service Locator模式实现高效的服务命名访问

本文探讨了如何通过Service Locator模式来简化和优化在B/S架构中的服务命名访问，特别是对于需要频繁访问的服务，如JNDI和XMLNS。该模式通过缓存机制减少了重复查找的成本，并提供了对多种服务的统一访问接口。 ... [详细]

蜡笔小新 2024-11-20 19:26:30
callback
Spring Boot + RabbitMQ 消息确认机制详解

本文详细介绍如何在 Spring Boot 项目中使用 RabbitMQ 的消息确认机制，包括消息发送确认和消息接收确认，帮助开发者解决在实际操作中可能遇到的问题。 ... [详细]

蜡笔小新 2024-11-16 20:54:38
web
Spring Boot 中配置全局文件上传路径并实现文件上传功能

本文介绍如何在 Spring Boot 项目中配置全局文件上传路径，并通过读取配置项实现文件上传功能。通过这种方式，可以更好地管理和维护文件路径。 ... [详细]

蜡笔小新 2024-11-13 11:19:38
dll
c/c++常用代码doc,ppt,xls文件格式转PDF格式[转]

[转]doc,ppt,xls文件格式转PDF格式http:blog.csdn.netlee353086articledetails7920355确实好用。需要注意的是#import ... [详细]

蜡笔小新 2024-11-12 16:19:40
main
使用JavaScript生成Java兼容的UUID代码实现与优化技巧

本文介绍了UUID（通用唯一标识符）的概念及其在JavaScript中生成Java兼容UUID的代码实现与优化技巧。UUID是一个128位的唯一标识符，广泛应用于分布式系统中以确保唯一性。文章详细探讨了如何利用JavaScript生成符合Java标准的UUID，并提供了多种优化方法，以提高生成效率和兼容性。 ... [详细]

蜡笔小新 2024-11-05 18:19:54