智能语音处理的最基础架构

机器学习的快速发展，为智能语音处理奠定了坚实的理论和技术基础。智能语音处理的主要特点是从大量的语音数据中学习和发现其中蕴含的规律，可以有效解决经典语音处理难以解决的非线性问题，从而显著提升传统语音应用的性能，也为语音新应用提供性能更好的解决方案。

01 智能语音处理的基本概念

为简化处理，经典的语音处理方法一般都建立在线性平稳系统的理论基础之上，这是以短时语音具有相对平稳性为前提条件的。但是，严格来讲，语音信号是一种典型的非线性、非平稳随机过程，这就使得采用经典的处理方法难以进一步提升语音处理系统的性能，如语音识别系统的识别率等。

随着机器人技术的不断发展，以机器人智能语音交互为代表的语音新应用迫切要求发展新的语音处理技术与手段，以提高语音处理系统的性能水平。

近十年来，人工智能技术正以前所未有的速度向前发展，机器学习领域不断涌现的新技术、新算法，特别是新型神经网络和深度学习技术等极大地推动了语音处理的发展，为语音处理的研究提供了新的方法和技术手段，智能语音处理应运而生。

至今为止，智能语音处理还没有一个精确的定义。广义上来说，在语音处理算法或系统实现中全部或部分采用智能化的处理技术或手段均可称为智能语音处理。

02 智能语音处理的基本框架

“声源-滤波器”模型虽然能够有效地区分声源激励和声道滤波器，对它们进行高效的估计，但语音产生时发声器官存在着协同动作，存在紧耦合关系，采用简单的线性模型无法准确描述语音的细节特征。

同时，语音是一种富含信息的信号载体，它承载了语义、说话人、情绪、语种、方言等诸多信息，分离、感知这些信息需要对语音进行十分精细的分析，对这些信息的判别也不再是简单的规则描述，单纯对发声机理、信号的简单特征采用人工手段去分析并不现实。

类似于人类语言学习的思路，采用机器学习手段，让机器通过“聆听”大量的语音数据，并从语音数据中学习蕴含其中的规律，是有效提升语音信息处理性能的主要手段。与经典语音处理方法仅限于通过提取人为设定特征参数进行处理不同，智能语音处理最重要的特点就是在语音处理过程或算法中体现从数据中学习规律的思想。

图1-5给出了智能语音处理的三种基本框架，图中虚线框部分有别于经典语音处理方法，包含了从数据中学习的思想，是智能语音处理的核心模块。

物理服务器和大宽服务器怎么选