语音合成方法的主要分类
语音合成的研究已有多年的历史,现在研究出的语音合成方法的分类,从技术方式讲,可分为波形合成法、参数合成法、和规则合成方法;从合成策略上讲可分为频谱逼近和波形逼近。
1、 波形合成法
波形合成法一般有两种形式,一种是波形编码合成,它类似于语音编码中的波形编解码方法,该方法直接把要合成的语音发音波形进行存储,或者进行波形编码压缩后存储,合成重放时再解码组合输出。另一种是波形编辑合成,它把波形编辑技术用于语音合成,通过选取音库中采取自然语言的合成单元的波形,对这些波形进行编辑拼接后输出。它采用语音编码技术,存储适当的语音单元,合成时,经解码、波形编辑拼接、平滑处理等输出所需的短语、语句或段落。
波形语音合成法是一种相对简单的TTS语音技术,通常只能合成有限词汇的语音段。目前许多专门用途的语音芯片或语音IC,都采用这种方式,如自动报时、报站或报警等。
2、 参数合成法
参数合成法也称为分析合成法,是一种比较复杂的方法。为了节约存储容量,必须先对语音信号进行分析,提取出语音的参数,以压缩存储量,然后由人工控制这些参数的合成。参数合成法一般有发音器官参数合成和声道模型参数合成。发音器官参数合成法是对人的发音过程直接进行模拟。它定义了唇、舌、声带的相关参数,如唇开口度、舌高度、舌位置、声带张力等,由发音参数估计声道截面积函数,进而计算声波。由于人的发音生理过程的复杂性和理论计算与物理模拟的差别,合成语音的质量暂时还不理想。
声道模型参数语音合成是基于声道截面积函数或声道谐振特性合成语音的。早期语音合成系统的声学模型,多通过模拟人的口腔的声道特性来产生。其中比较著名的有Klatt的共振峰(Formant)合成系统,后来又产生了基于LPC、LSP和LMA等声学参数的合成系统。这些方法用来建立声学模型的过程为:首先录制声音,这些声音涵盖了人发音过程中所有可能出现的读音;提取出这些声音的声学参数,并整合成一个完整的音库。在发音过程中,首先根据需要发的音,从音库中选择合适的声学参数,然后根据韵律模型中得到的韵律参数,通过语音合成算法产生TTS语音。
参数语音合成方法的优点是其音库一般较小,并且整个系统能适应的韵律特征的范围较宽,这类合成器比特率低,音质适中;缺点是参数合成技术的算法复杂,参数多,并且在压缩比较大时,信息丢失亦大,合成出的语音总是不够自然、清晰。为了改善音质,近几年发展了混合编码技术,主要是为了改善激励信号的质量,这样,虽然比特率有所增大,但音质得到了提高。
3、 规则合成法
这是一种高级的合成方法。规则合成方法通过语音学规则产生语音。合成的词汇表不是事先确定,系统中存储的是最小的语音单位的声学参数,以及由音素组成音节、由音节组成词、由词组成句子和控制音调、轻重音等韵律的各种规则。
给出待合成的文本数据后,合成系统利用规则自动地将他们转换成连续的语音声波。这种方法可以合成无限词汇的语句。这种算法中,用于波形拼接和韵律控制的、较有代表性的算法是基音同步叠加技术(PSOLA),该方法既能保持所发音的主要音段特征,又能在拼接时灵活调整其基频、时长和强度等超音段特征。其核心思想是,直接对存储于音库的语音运用PSOLA算法来进行拼接,从而整合成完整的语音。有别于传统概念上只是将不同的语音单元进行简单拼接的波形编辑合成,规则合成系统首先要在大量语音库中,选择最合适的语音单元来用于拼接,并在选音过程中往往采用多种复杂的技术,最后在拼接时,要使用如PSOLA算法等,对其合成语音的韵律特征进行修改,从而使合成的语音能达到很高的音质。