语音信号处理可以说是从1940年前后Dudley的声码器和Potter等人的可见语音开始的。
20世纪60年代初期,由于Faut和Stevens的努力,奠定了语音生成理论的基础,在此基础上语音合成的研究得到了扎实的进展。
60年代中期形成的一系列数字信号处理方法和技术,如数字滤波器、快速傅里叶变换(FFT)等成为语音信号数字处理的理论和技术基础。
在方法上,随着电子计算机的发展,以往的以硬件为中心的研究逐渐转移到以软件为主的处理研究。
然而,语音识别技术难度使得该技术在70年代的发展几乎停滞不前。
80年代开始出现的语音识别处理技术产品化的热潮,由于矢量化、隐马尔科夫模型和人工神经网络等相继被应用于语音信号处理
90年代以来语音识别逐渐从实验室走向实用化
语音增强:从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。
说话人识别:力求通过语音信号中的语义信息平均化,挖掘出包含在语音信号中的说话人的个性因素,强调不同人之间的特征差异。
语音识别:让机器听懂人说的话
语音情感识别:从语音中识别出人的情感状态
语音合成与转换:将任意文字信息实时转换为标准流畅的语音朗读出来
声源定位:系统接受到的语音信号相对于接收传感器是来自什么方向和什么距离的。
语音隐藏:将特定的信息嵌入到数字化的语音中。
语音编码:方便数字传输和数字存储
声反馈抑制:扬声器播出的声音在被受话方听到的同时,也通过多种路径被送话器拾取到。在很多情况下会产生回波,严重影响语音的清晰度,更为致命的是,当反馈严重时会产生自激嗷叫,使得系统无法工作。