python实现一个简洁siri功能

作者：xieyuhua | 来源：互联网 | 2017-05-14 02:44

这篇文章主要介绍了关于python利用不到一百行代码实现了一个小siri的相关资料，文中介绍的很详细，对大家具有一定的参考借鉴价值，需要的朋友们下面来一起看看吧。

前言

如果想要容易理解核心的特征计算的话建议先去看看我之前的听歌识曲的文章，传送门:www.jb51.net/article/97305.htm

本文主要是实现了一个简单的命令词识别程序，算法核心一是提取音频特征，二是用DTW算法进行匹配。当然，这样的代码肯定不能用于商业化，大家做出来玩玩娱乐一下还是不错的。

设计思路

就算是个小东西，我们也要先明确思路再做。音频识别，困难不小，其中提取特征的难度在我听歌识曲那篇文章里能看得出来。而语音识别难度更大，因为音乐总是固定的，而人类说话常常是变化的。比如说一个“芝麻开门”，有的人就会说成“芝麻开门”，有的人会说成“芝麻开门”。而且在录音时说话的时间也不一样，可能很紧迫的一开始录音就说话了，也可能不紧不慢的快要录音结束了才把这四个字说出来。这样难度就大了。

算法流程：

源代码和注释

# coding=utf8
import os
import wave
import dtw
import numpy as np
import pyaudio

def compute_distance_vec(vec1, vec2):
 return np.linalg.norm(vec1 - vec2) #计算两个特征之间的欧氏距离

class record():
 def record(self, CHUNK=44100, FORMAT=pyaudio.paInt16, CHANNELS=2, RATE=44100, RECORD_SECOnDS=200,
    WAVE_OUTPUT_FILENAME="record.wav"):
  #录歌方法
  p = pyaudio.PyAudio()
  stream = p.open(format=FORMAT,
      channels=CHANNELS,
      rate=RATE,
      input=True,
      frames_per_buffer=CHUNK)
  frames = []
  for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
   data = stream.read(CHUNK)
   frames.append(data)
  stream.stop_stream()
  stream.close()
  p.terminate()
  wf = wave.open(WAVE_OUTPUT_FILENAME, &＃39;wb&＃39;)
  wf.setnchannels(CHANNELS)
  wf.setsampwidth(p.get_sample_size(FORMAT))
  wf.setframerate(RATE)
  wf.writeframes(&＃39;&＃39;.join(frames))
  wf.close()

class voice():
 def loaddata(self, filepath):
  try:
   f = wave.open(filepath, &＃39;rb&＃39;)
   params = f.getparams()
   self.nchannels, self.sampwidth, self.framerate, self.nframes = params[:4]
   str_data = f.readframes(self.nframes)
   self.wave_data = np.fromstring(str_data, dtype=np.short)
   self.wave_data.shape = -1, self.sampwidth
   self.wave_data = self.wave_data.T #存储歌曲原始数组
   f.close()
   self.name = os.path.basename(filepath) # 记录下文件名
   return True
  except:
   raise IOError, &＃39;File Error&＃39;

 def fft(self, frames=40):
  self.fft_blocks = [] #将音频每秒分成40块，再对每块做傅里叶变换
  blocks_size = self.framerate / frames
  for i in xrange(0, len(self.wave_data[0]) - blocks_size, blocks_size):
   self.fft_blocks.append(np.abs(np.fft.fft(self.wave_data[0][i:i + blocks_size])))
 @staticmethod
 def play(filepath):
  chunk = 1024
  wf = wave.open(filepath, &＃39;rb&＃39;)
  p = pyaudio.PyAudio()
  # 播放音乐方法
  stream = p.open(format=p.get_format_from_width(wf.getsampwidth()),
      channels=wf.getnchannels(),
      rate=wf.getframerate(),
      output=True)
  while True:
   data = wf.readframes(chunk)
   if data == "": break
   stream.write(data)
  stream.close()
  p.terminate()
if name == &＃39;main&＃39;:
 r = record()
 r.record(RECORD_SECOnDS=3, WAVE_OUTPUT_FILENAME=&＃39;record.wav&＃39;)
 v = voice()
 v.loaddata(&＃39;record.wav&＃39;)
 v.fft()
 file_list = os.listdir(os.getcwd())
 res = []
 for i in file_list:
  if i.split(&＃39;.&＃39;)[1] == &＃39;wav&＃39; and i.split(&＃39;.&＃39;)[0] != &＃39;record&＃39;:
   temp = voice()
   temp.loaddata(i)
   temp.fft()
   res.append((dtw.dtw(v.fft_blocks, temp.fft_blocks, compute_distance_vec)[0],i))
 res.sort()
 print res
 if res[0][1].find(&＃39;open_qq&＃39;) != -1:
  os.system(&＃39;C:\program\Tencent\QQ\Bin\QQScLauncher.exe&＃39;) #我的QQ路径
 elif res[0][1].find(&＃39;zhimakaimen&＃39;) != -1:
  os.system(&＃39;chrome.exe&＃39;)#浏览器的路径，之前已经被添加到了Path中了
 elif res[0][1].find(&＃39;play_music&＃39;) != -1:
  voice.play(&＃39;C:\data\music\\audio\\audio\\ (9).wav&＃39;) #播放一段音乐
 # r = record()
 # r.record(RECORD_SECOnDS=3,WAVE_OUTPUT_FILENAME=&＃39;zhimakaimen_09.wav&＃39;)

事先可以先用这里的record方法录制几段命令词，尝试用不同语气说，不同节奏说，这样可以提高准确度。然后设计好文件名，根据匹配到的最接近音频的文件名就可以知道是哪种命令，进而自定义执行不同的任务

这是一段演示视频：www.iqiyi.com/w_19ruisynsd.html

推荐阅读

select
Python爬虫实战：豆瓣电影Top250数据抓取

本文详细介绍了如何使用Python编写爬虫程序，从豆瓣电影Top250页面抓取电影信息。文章涵盖了从基础的网页请求到处理反爬虫机制，再到多页数据抓取的全过程，并提供了完整的代码示例。 ... [详细]

蜡笔小新 2024-12-27 16:55:07
select
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
get
利用Selenium与ChromeDriver实现豆瓣网页全屏截图

本文介绍了一种使用Selenium和ChromeDriver结合Python代码，轻松实现对豆瓣网站进行完整页面截图的方法。该方法不仅简单易行，而且解决了新版Selenium不再支持PhantomJS的问题。 ... [详细]

蜡笔小新 2024-12-22 15:17:55
get
Python自动化测试入门：Selenium环境搭建

本文详细介绍如何在Python环境中安装和配置Selenium，包括开发工具PyCharm的安装、Python环境的设置以及Selenium包的安装方法。此外，还提供了编写和运行第一个自动化测试脚本的步骤。 ... [详细]

蜡笔小新 2024-12-21 10:48:56
get
使用Numpy实现无外部库依赖的双线性插值图像缩放

本文介绍如何仅使用Numpy库，通过双线性插值方法实现图像的高效缩放，避免了对OpenCV等图像处理库的依赖。文中详细解释了算法原理，并提供了完整的代码示例。 ... [详细]

蜡笔小新 2024-12-28 13:15:40
get
QBlog开源博客系统：Page_Load生命周期与参数传递优化（第四部分）

本教程将深入探讨QBlog开源博客系统的Page_Load生命周期，并介绍一种简洁的参数传递重构方法。通过视频演示和详细讲解，帮助开发者更好地理解和应用这些技术。 ... [详细]

蜡笔小新 2024-12-28 10:39:53
rsa
python的交互模式怎么输出名文汉字[python常见问题]

在命令行模式下敲命令python，就看到类似如下的一堆文本输出，然后就进入到Python交互模式，它的提示符是>>>，此时我们可以使用print() ... [详细]

蜡笔小新 2024-12-27 21:32:05
get
深入理解Tornado模板系统

本文详细介绍了Tornado框架中模板系统的使用方法。Tornado自带的轻量级、高效且灵活的模板语言位于tornado.template模块，支持嵌入Python代码片段，帮助开发者快速构建动态网页。 ... [详细]

蜡笔小新 2024-12-27 19:22:16
get
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
get
JavaScript中属性节点的类型及应用

本文深入探讨了JavaScript中属性节点的不同类型及其在实际开发中的应用，帮助开发者更好地理解和处理HTML元素的属性。通过具体的案例和代码示例，我们将详细解析如何操作这些属性节点。 ... [详细]

蜡笔小新 2024-12-27 10:14:47
get
智能网页分类：识别详情页与列表页

本文探讨如何利用人工智能算法自动区分网页是详情页还是列表页，介绍具体的实现思路和技术细节。 ... [详细]

蜡笔小新 2024-12-26 16:00:58
ip
自己用过的一些比较有用的css3新属性【HTML】

web前端|html教程自己用过的一些比较用的css3新属性web前端-html教程css3刚推出不久，虽然大多数的css3属性在很多流行的浏览器中不支持，但我个人觉得还是要尽量开 ... [详细]

蜡笔小新 2024-12-24 19:26:54
get
解决Selenium浏览器实例化位置导致的闪退问题

本文探讨了在使用Selenium进行自动化测试时，由于webdriver对象实例化位置不同而导致浏览器闪退的问题，并提供了详细的代码示例和解决方案。 ... [详细]

蜡笔小新 2024-12-23 16:09:49
object
解析：IE 浏览器中 IMG 元素 alt 属性的误用及其正确处理方式

在跨浏览器开发中，一个常见的问题是关于如何在鼠标悬停时显示图片提示信息。本文深入探讨了 IE 浏览器对 IMG 元素 alt 属性的特殊处理，并提供了最佳实践建议。 ... [详细]

蜡笔小新 2024-12-23 12:35:10
object
如何清除Chrome浏览器地址栏的特定历史记录

在使用Chrome浏览器时，你可能会发现地址栏保存了大量浏览记录。有时你可能希望删除某些特定的历史记录而不影响其他数据。本文将详细介绍如何单独删除地址栏中的特定记录以及批量清除所有历史记录的方法。 ... [详细]

蜡笔小新 2024-12-22 17:14:01

xieyuhua

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章