热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

陈老师开讲:Python获取实时语音数据

介绍使用Python让计算机获取

作为一个正经八百的技术男,绞尽脑汁想把文章写得轻松有趣一些,但把文章转给朋友,直接回复我“典型初中教材”。技术男表示很受打击,为了改变码农形象,我冥思苦想了十分钟,最后的最后,我终于决定:不做改变!能坚持读完这篇文章的,都是懂我之人!那么让我们一起来学习初中教材吧。
从语音到自然语言处理的整个流程中,最基本的一步是要得到语音数据,有了语音数据我们就可以转换为文字,然后做各种应用,诸如机器翻译、问答系统等。如果你能够实现一个简易的系统,例如让机器直接和人对话,或者让机器识别人的指令进行一系列的操作,是不是挺酷的一件事?这一篇我们就来看看当人对计算机说话的时候,计算机怎么获取语音数据,以及这中间常见的几种问题。
Python是当前机器学习和数据处理最常用的语言,我们选用基于python的PyAudio库来实现。PyAudio底层是基于一个跨平台的音频IO库PortAudio,使用PyAudio可以在常见的Linux、Windows和Mac平台录音和播放音频。此次我们以Mac平台为例描述主要的步骤,除安装之外,各种平台没有区别。

工具安装

只需要安装PortAudio和PyAudio:
brew install portaudio 
pip install pyaudio
Windows和Linux平台使用各自平台的安装方式安装PortAudio,然后使用pip安装PyAudio。关于创建python虚拟环境和如何使用pip等本文不做介绍。

获取数据

获取数据分为两种方式:阻塞模式和非阻塞模式。以下分别描述。
1. 通过阻塞模式获取数据
PyAudio从声卡得到数据后放入一个host buffer(host buffer大小自行设定),我们以自行指定的数据块大小从host buffer中读取,每次读取时阻塞直到这个指定大小的数据块读取完成。以下代码使用阻塞模式录音20秒,存入名为output.wav的文件。

import pyaudio
import wave
CHUNK = 512
FORMAT = pyaudio.paInt16
CHANNELS = 2
RATE = 48000
BUFFER_SIZE = 1024
RECORD_SECOnDS= 20
WAVE_OUTPUT_FILENAME = "output.wav"
p = pyaudio.PyAudio()
stream = p.open(format=FORMAT,
channels=CHANNELS,
rate=RATE,
input=True,
frames_per_buffer=BUFFER_SIZE)
frames = []
for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
data = stream.read(CHUNK)
frames.append(data)
stream.stop_stream()
stream.close()
p.terminate()
wf = wave.open(WAVE_OUTPUT_FILENAME, 'wb')
wf.setnchannels(CHANNELS)
wf.setsampwidth(p.get_sample_size(FORMAT))
wf.setframerate(RATE)
wf.writeframes(b''.join(frames))
wf.close()
其中 input=True表示录数据,如果是output=True则表示播放数据。BUFFER_SIZE=1024 表示host buffer存1024个数值,CHUNK=512 表示每次读取512个数,CHANNELS=2 表示声卡是两通道的,RATE=48000表示声卡以每秒48k的频率采样数据。录音20秒,需要读取数据的次数为(48000/512)*20次。然后把所有数据存入wav文件,播放wav文件听听就是刚才录音的内容。

2. 通过非阻塞模式获取数据
上面的阻塞模式,如果从host buffer读取并处理数据的速度比实时往host buffer填入数据的速度慢,比如读取数据后做一些数据操作,那么就会存在数据丢帧现象。一个解决的办法就是通过非阻塞模式读取。
使用非阻塞模式,PyAudio使用一个单独的线程调用自定义的callback函数,callback里获取到及时数据不用阻塞等待,进而可以进行及时操作。下面是实现同样功能录音20秒的例子。

import pyaudio
import wave
import time
frames = []
CHUNK = 512
FORMAT = pyaudio.paInt16
CHANNELS = 2
RATE = 48000
RECORD_SECOnDS= 20
WAVE_OUTPUT_FILENAME = "output.wav"
def callback(in_data, frame_count, time_info, status):
frames.append(in_data)
return (None, pyaudio.paContinue)
p = pyaudio.PyAudio()
stream = p.open(format=FORMAT,
channels=CHANNELS,
rate=RATE,
input=True,
frames_per_buffer=CHUNK,
stream_callback=callback)

stream.start_stream()
time.sleep(RECORD_SECONDS)
stream.stop_stream()
stream.close()
p.terminate()
wf = wave.open(WAVE_OUTPUT_FILENAME, 'wb')
wf.setnchannels(CHANNELS)
wf.setsampwidth(p.get_sample_size(FORMAT))
wf.setframerate(RATE)
wf.writeframes(b''.join(frames))
wf.close()
p.open()函数里和阻塞方式有两个区别, frames_per_buffer=CHUNK表示每次往callback里发送CHUNK大小的数据,stream_callback=callback设置要调用的callback方法名。callback()里in_data就是每次得到的数据,我们把它存在frames list中。stream.start_stream()启动stream,然后sleep 20秒,此时PyAudio一直在调用callback()发送数据。最后我们把frames list里的数据存进wav文件。

常见问题和解决方案

上述两种获取语音的方式很直观,大家一看就知道怎么用了,但是在实际应用中会遇到各种问题,介绍这些问题和对应的解决方法才是我想讲的重点,下面列举就我所遇到过的问题。

问题1)Input overflowed异常
在使用阻塞模式的时候,经常会遇到下面的错误
OSError: [Errno -9981] Input overflowed
有多种原因会导致这个错误,最常见的原因是读取并处理数据的速度慢于实时语音产生的速度,host buffer撑满了。
避免错误让程序继续执行的一个办法是读取数据时增加一个参数:
data = stream.read(CHUNK, exception_on_overflow=False)
意思是如果有overflowed错误不报告,实际是忽略了错误,没有真正解决问题,会丢掉一些帧。
真正解决方法是增大host buffer参数frames_per_buffer的值,这种方法只适用于之后读取和处理数据速度能追上产生数据的速度,host buffer设置大一点作为缓冲,否则的话buffer再大也会撑满,只能用callback模式。

问题2)callback方式也丢帧
如果处理数据的速度一直都慢,赶不上产生数据的速度,就算用callback也会丢掉一些帧。此时可以在callback的基础上获得所有数据,存入自定义的存储比如队列或者文件等,再另行处理。

问题3)获取到的数据不正确
其中一个原因是open()中的参数和声卡真实参数不匹配,比如声卡通道数,声卡采样率。下面是我的电脑声卡默然参数,通道数2,采样率48k。如果脚本中参数设置不对,采集到的数据不正确或者脚本会报错。


问题4)实际需要的数据采样率比声卡最低采样率低
比如你的声卡最低采样率为44.1k,但是你的应用需要24k的数据,没法直接采集到24k的数据。这时可以把声卡采样率设置为48k,然后每两个采样数据取一个,或者用其他降采样的方法转换,比如scipy.signal.resample等,要根据实际情况测试降采样的方法是否可行。

问题5)从多通道获取一个通道数据不正确
多通道获得的数据是交织在一起的,比如2通道声卡,需要隔一个数据取一个才是其中一个通道的数据。

本文主要关注数据获取,是stream流中的input stream。如果要播放音频,用同样的方法处理output stream即可,也可以同时处理,不加累述。希望阅读本文后你对如何让电脑获取音频数据有了一个全面的了解。


推荐阅读
  • Python 伦理黑客技术:深入探讨后门攻击(第三部分)
    在《Python 伦理黑客技术:深入探讨后门攻击(第三部分)》中,作者详细分析了后门攻击中的Socket问题。由于TCP协议基于流,难以确定消息批次的结束点,这给后门攻击的实现带来了挑战。为了解决这一问题,文章提出了一系列有效的技术方案,包括使用特定的分隔符和长度前缀,以确保数据包的准确传输和解析。这些方法不仅提高了攻击的隐蔽性和可靠性,还为安全研究人员提供了宝贵的参考。 ... [详细]
  • 零拷贝技术是提高I/O性能的重要手段,常用于Java NIO、Netty、Kafka等框架中。本文将详细解析零拷贝技术的原理及其应用。 ... [详细]
  • [转]doc,ppt,xls文件格式转PDF格式http:blog.csdn.netlee353086articledetails7920355确实好用。需要注意的是#import ... [详细]
  • 字节流(InputStream和OutputStream),字节流读写文件,字节流的缓冲区,字节缓冲流
    字节流抽象类InputStream和OutputStream是字节流的顶级父类所有的字节输入流都继承自InputStream,所有的输出流都继承子OutputStreamInput ... [详细]
  • 大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式
    大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]
  • 在Windows系统中安装TensorFlow GPU版的详细指南与常见问题解决
    在Windows系统中安装TensorFlow GPU版是许多深度学习初学者面临的挑战。本文详细介绍了安装过程中的每一个步骤,并针对常见的问题提供了有效的解决方案。通过本文的指导,读者可以顺利地完成安装并避免常见的陷阱。 ... [详细]
  • 在CentOS 7环境中安装配置Redis及使用Redis Desktop Manager连接时的注意事项与技巧
    在 CentOS 7 环境中安装和配置 Redis 时,需要注意一些关键步骤和最佳实践。本文详细介绍了从安装 Redis 到配置其基本参数的全过程,并提供了使用 Redis Desktop Manager 连接 Redis 服务器的技巧和注意事项。此外,还探讨了如何优化性能和确保数据安全,帮助用户在生产环境中高效地管理和使用 Redis。 ... [详细]
  • 属性类 `Properties` 是 `Hashtable` 类的子类,用于存储键值对形式的数据。该类在 Java 中广泛应用于配置文件的读取与写入,支持字符串类型的键和值。通过 `Properties` 类,开发者可以方便地进行配置信息的管理,确保应用程序的灵活性和可维护性。此外,`Properties` 类还提供了加载和保存属性文件的方法,使其在实际开发中具有较高的实用价值。 ... [详细]
  • Java Socket 关键参数详解与优化建议
    Java Socket 的 API 虽然被广泛使用,但其关键参数的用途却鲜为人知。本文详细解析了 Java Socket 中的重要参数,如 backlog 参数,它用于控制服务器等待连接请求的队列长度。此外,还探讨了其他参数如 SO_TIMEOUT、SO_REUSEADDR 等的配置方法及其对性能的影响,并提供了优化建议,帮助开发者提升网络通信的稳定性和效率。 ... [详细]
  • MySQL初级篇——字符串、日期时间、流程控制函数的相关应用
    文章目录:1.字符串函数2.日期时间函数2.1获取日期时间2.2日期与时间戳的转换2.3获取年月日、时分秒、星期数、天数等函数2.4时间和秒钟的转换2. ... [详细]
  • Spring Data JdbcTemplate 入门指南
    本文将介绍如何使用 Spring JdbcTemplate 进行数据库操作,包括查询和插入数据。我们将通过一个学生表的示例来演示具体步骤。 ... [详细]
  • 本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件,并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]
  • Python错误重试让多少开发者头疼?高效解决方案出炉
    ### 优化后的摘要在处理 Python 开发中的错误重试问题时,许多开发者常常感到困扰。为了应对这一挑战,`tenacity` 库提供了一种高效的解决方案。首先,通过 `pip install tenacity` 安装该库。使用时,可以通过简单的规则配置重试策略。例如,可以设置多个重试条件,使用 `|`(或)和 `&`(与)操作符组合不同的参数,从而实现灵活的错误重试机制。此外,`tenacity` 还支持自定义等待时间、重试次数和异常处理,为开发者提供了强大的工具来提高代码的健壮性和可靠性。 ... [详细]
  • Python 程序转换为 EXE 文件:详细解析 .py 脚本打包成独立可执行文件的方法与技巧
    在开发了几个简单的爬虫 Python 程序后,我决定将其封装成独立的可执行文件以便于分发和使用。为了实现这一目标,首先需要解决的是如何将 Python 脚本转换为 EXE 文件。在这个过程中,我选择了 Qt 作为 GUI 框架,因为之前对此并不熟悉,希望通过这个项目进一步学习和掌握 Qt 的基本用法。本文将详细介绍从 .py 脚本到 EXE 文件的整个过程,包括所需工具、具体步骤以及常见问题的解决方案。 ... [详细]
  • 在Android平台中,播放音频的采样率通常固定为44.1kHz,而录音的采样率则固定为8kHz。为了确保音频设备的正常工作,底层驱动必须预先设定这些固定的采样率。当上层应用提供的采样率与这些预设值不匹配时,需要通过重采样(resample)技术来调整采样率,以保证音频数据的正确处理和传输。本文将详细探讨FFMpeg在音频处理中的基础理论及重采样技术的应用。 ... [详细]
author-avatar
戴安娜DianaKok
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有