热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

MicrosoftSpeechAPIOverview(SAPI5.4)

MicrosoftSpeechAPIOverview(SAPI5.4)SAPI程序开发接口(API)大大减少了程序使用语音识别和TTS所需的大量代码。使得语音技术能在应用程序中更广泛的应用

Microsoft Speech API Overview(SAPI 5.4)

SAPI程序开发接口(API)大大减少了程序使用语音识别和TTS所需的大量代码。使得语音技术能在应用程序中更广泛的应用,并且更加健壮。本部分内容覆盖如下主题:

API Overview
API for Text-to-Speech
API for Speech Recognition

1. 微软语音API概述

微软SAPI编程接口提供了一个在应用程序和语音引擎之间的高层接口。SAPI实现了所有底层细节需要控制和管理的各种语音引擎的实时操作。
SAPI引擎的两个基本类型是:text-to-speech(TTS)文本语音转换系统和speech recognizers语音识别。TTS系统使用合成语音,将文本串和文件到发声音频。语音识别将人类说话音频转化为可读的文本字符串和文件。

2. Text-to-Speech文本到语音转换API

应用程序可以使用ISpVoice组件对象模型(COM)接口来控制文本到语音(TTS)。当一个应用程序创建了一个ISpVoice对象,应用程序便只需要调用ISpVoice::Speak来从一些文本数据产生语音输出。同时,ISpVoice接口还提供了一些方法用于改变声音和合成属性,如发音的速度ISpVoice::SetRate,输出音量ISpVoice::SetVolume和改变当前音色的ISpVoice::SetVoice。

一些特定的SAPI控制,可以同输入文本一起被插入,用于改变实时属性,如voice、pitch、重音、语速和音量。这些合成标定sapi.xsd,使用标准的XML格式,是一种简单但功能强的的方法来定制TTS语音,独立于特定的引擎或者当前使用的声音。

ISpVoice::Speak方法,可以进行异步(当完成发音后才返回)或同步(作为背景进程立即处理和发音)的操作。当使用同步发音(SPF_ASYNC)时,实时状态信息,如说话状态和当前文本位置,可以通过ISpVoice::GetStatus获得。同时,当进行同步发音时,新文本可以通过立即中断当前输出,或追加到当前输出的末尾来发音。

另外,作为ISpVoice接口的附加,SAPI还提供了一些实用的COM接口来提高TTS应用程序:

事件Events
SAPI通过发送事件,使用标准回调机制(Windows Message, callback proc or Win32 Event)与应用程序通讯。对于TTS,事件大多数用于同步输出语音的情况。应用程序可以同步于其他事件实时操作,如到达词边界、音素和viseme(嘴唇运动)边界或应用程序定制书签。应用程序可以通过使用ISpNotifySource、ISpNotifySink、ISpNotifyTranslator、ISpEventSink、ISpEventSource和ISpNotifyCallback来初始化和处理这些实时事件。

词汇Lexicons
应用程序可以使用ISpContainerLexicon、ISpLexicon和ISpPhoneConverter方法,为语音合成引擎定制单词发音。

音频Audio
最后,这里还有一个接口用于为一些特殊目的定制音频输出,如用于电话和定制硬件(ISpAudio、ISpMMSysAudio、ISpStream、ISpStreamFormat、ISpStreamFormatConverter)。

3. 语音识别API
ISpVoice是主要的语音合成接口,ISpRecoContext则是语音识别的主要接口。像ISpVoice一样,它也是一个ISpEventSource,意思是说它是语音软件工具,用于接受语音识别事件的请求工作。

一个应用程序的选择有两种,两种不同类型的语音识别引擎(ISpRecognizer)。一个可以和其他语音识别软件共享的recognizer,这也是推荐大多数识别软件使用的引擎。要为共享ISpRecognizer创建一个ISpRecoContext,应用软件只需要在组件CLSID_SpSharedRecoContext调用COM的CoCreateInstance即可。在此情况下,SAPI将建立一个音频输入流,设置它为SAPI的默认音频输入流。对于大型服务应用程序,可能需要独立运行于一个系统,此时,性能将是关键。一个InProc语音识别引擎更加何时。要创建一个InProc ISpRecognizer的ISpRecoContext,程序必须首先调用CLSID_SpInprocRecoInstance组件的CoCreateInstance来创建自己的InProc ISpRecognizer。接着,程序需要调用ISpRecognizer::SetInput(参见ISpObjectToken)来建立一个音频输入。最后,要调用ISpRecognizer::CreateRecoContext来获得一个ISpRecoContext。

下一步是为应用程序创建感兴趣的事件消息notifications。ISpRecognizer作为ISpEventSource,同样也是一个ISpNotifySource,应用程序从ISpRecoContext中调用ISpNotifySource方法中的一个,来提示ISpRecoContext中的哪些事件需要报告。然后,它要调用ISpEventSource::SetInterest来确定哪些事件需要notified。最重要的事件是SPEI_RECOGNITION,用于提示ISpRecognizer已经为ISpRecoContext识别了一些语音。其他时间的详细介绍可以参见SPEVENTENUM。

最后,语音软件必须创建、加载和激活一个ISpRecoGrammar,which essentially indicates what type of utterances to recognize, i.e., dictation or a command and control grammar.。首先,程序使用ISpRecoContext::CreateGrammar创建一个ISpRecoGrammar。然后,程序加载合适的语法,可以使用ISpRecoGrammar::LoadDictation加载词典,或ISpRecoGrammar::LoadCmdXXX方法的一个用于命令和控制。最后,调用ISpRecoGrammar::SetDictationState、ISpRecoGrammar::SetRuleState或ISpRecoGrammar::SetRuleIdState为词典或命令和控制激活语法,启识识别。

当识别请求处理返回给应用程序时,SPEVENT结构的lParam成员作为ISpRecoResult返回。通过这个结果,应用程序可以决定识别出了什么。
一个ISpRecognizer,不管是共享的或是InProc的,都可以拥有多个ISpRecoContext与其关联。并且,每一个都将有自己的事件提醒通道。ISpRecoContext又可以创建多个ISpRecoGrammar,每个可用于不同类型的utterances。


推荐阅读
  • 本文介绍了在MFC下利用C++和MFC的特性动态创建窗口的方法,包括继承现有的MFC类并加以改造、插入工具栏和状态栏对象的声明等。同时还提到了窗口销毁的处理方法。本文详细介绍了实现方法并给出了相关注意事项。 ... [详细]
  • 本文分享了一个关于在C#中使用异步代码的问题,作者在控制台中运行时代码正常工作,但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机,但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]
  • IOS开发之短信发送与拨打电话的方法详解
    本文详细介绍了在IOS开发中实现短信发送和拨打电话的两种方式,一种是使用系统底层发送,虽然无法自定义短信内容和返回原应用,但是简单方便;另一种是使用第三方框架发送,需要导入MessageUI头文件,并遵守MFMessageComposeViewControllerDelegate协议,可以实现自定义短信内容和返回原应用的功能。 ... [详细]
  • 本文由编程笔记#小编为大家整理,主要介绍了logistic回归(线性和非线性)相关的知识,包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • Java序列化对象传给PHP的方法及原理解析
    本文介绍了Java序列化对象传给PHP的方法及原理,包括Java对象传递的方式、序列化的方式、PHP中的序列化用法介绍、Java是否能反序列化PHP的数据、Java序列化的原理以及解决Java序列化中的问题。同时还解释了序列化的概念和作用,以及代码执行序列化所需要的权限。最后指出,序列化会将对象实例的所有字段都进行序列化,使得数据能够被表示为实例的序列化数据,但只有能够解释该格式的代码才能够确定数据的内容。 ... [详细]
  • Metasploit攻击渗透实践
    本文介绍了Metasploit攻击渗透实践的内容和要求,包括主动攻击、针对浏览器和客户端的攻击,以及成功应用辅助模块的实践过程。其中涉及使用Hydra在不知道密码的情况下攻击metsploit2靶机获取密码,以及攻击浏览器中的tomcat服务的具体步骤。同时还讲解了爆破密码的方法和设置攻击目标主机的相关参数。 ... [详细]
  • 本文介绍了OC学习笔记中的@property和@synthesize,包括属性的定义和合成的使用方法。通过示例代码详细讲解了@property和@synthesize的作用和用法。 ... [详细]
  • 后台获取视图对应的字符串
    1.帮助类后台获取视图对应的字符串publicclassViewHelper{将View输出为字符串(注:不会执行对应的ac ... [详细]
  • 本文详细介绍了Java中vector的使用方法和相关知识,包括vector类的功能、构造方法和使用注意事项。通过使用vector类,可以方便地实现动态数组的功能,并且可以随意插入不同类型的对象,进行查找、插入和删除操作。这篇文章对于需要频繁进行查找、插入和删除操作的情况下,使用vector类是一个很好的选择。 ... [详细]
  • 利用Visual Basic开发SAP接口程序初探的方法与原理
    本文介绍了利用Visual Basic开发SAP接口程序的方法与原理,以及SAP R/3系统的特点和二次开发平台ABAP的使用。通过程序接口自动读取SAP R/3的数据表或视图,在外部进行处理和利用水晶报表等工具生成符合中国人习惯的报表样式。具体介绍了RFC调用的原理和模型,并强调本文主要不讨论SAP R/3函数的开发,而是针对使用SAP的公司的非ABAP开发人员提供了初步的接口程序开发指导。 ... [详细]
  • ASP.NET2.0数据教程之十四:使用FormView的模板
    本文介绍了在ASP.NET 2.0中使用FormView控件来实现自定义的显示外观,与GridView和DetailsView不同,FormView使用模板来呈现,可以实现不规则的外观呈现。同时还介绍了TemplateField的用法和FormView与DetailsView的区别。 ... [详细]
  • Go GUIlxn/walk 学习3.菜单栏和工具栏的具体实现
    本文介绍了使用Go语言的GUI库lxn/walk实现菜单栏和工具栏的具体方法,包括消息窗口的产生、文件放置动作响应和提示框的应用。部分代码来自上一篇博客和lxn/walk官方示例。文章提供了学习GUI开发的实际案例和代码示例。 ... [详细]
  • 本文介绍了lua语言中闭包的特性及其在模式匹配、日期处理、编译和模块化等方面的应用。lua中的闭包是严格遵循词法定界的第一类值,函数可以作为变量自由传递,也可以作为参数传递给其他函数。这些特性使得lua语言具有极大的灵活性,为程序开发带来了便利。 ... [详细]
  • 本文详细介绍了如何使用MySQL来显示SQL语句的执行时间,并通过MySQL Query Profiler获取CPU和内存使用量以及系统锁和表锁的时间。同时介绍了效能分析的三种方法:瓶颈分析、工作负载分析和基于比率的分析。 ... [详细]
author-avatar
蔡晓楠
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有