语音合成或Speech Synthesis的定义
由人工制作出的语音称为语音合成(Speech Synthesis)。语音合成是人机语音通信的一个重要组成部分,语音合成技术赋予机器或系统设备一种“人工嘴巴”的功能,它解决的是如何让机器像人那样说话的问题。
早在200年前,人们就开始研究“会说话的机器”了,当时人们利用模仿人的声道,做成的橡皮声管,人为的改变其形状来合成元音。近来随着半导体集成技术和计算机技术的发展,从20世纪60年代后期开始,到20世纪70年代后期,实用的英语语音合成系统首先被开发出来,随后各种语言的TTS系统,也相继被开发出来。现在语音合成技术已经能够实现任意文本的语音合成。所以现代电子技术产生以后,“会说话的机器”这一术语也被语音合成所替代。
语音合成技术研究的目的,是制造一种会说话的机器,使一些以其它方式表示或存储的信息能转换为语音,让人们能通过听觉而方便地获得这些信息。语音合成系统是一个单向系统,由机器到人。由语音来传递语言有以下特点:
(1)不用特别注意和专门训练,任何人都有可以理解。
(2)可以直接使用电话网和电话机,以方便人们从中获取有效的服务信息;
(3)语音传达直接、简单、有效,可以让人们迅速产生应急反应。
语音合成领域十分广泛,例如:自动报时、报警、公共汽车或电车自动报站、电话查询服务业务、语音咨询应答系统,车载GPS语音导航、安防监控领域中的语音提示等等,这些应用都已经发挥了很好的社会效益。还有一些应用,例如电子函件及各种电子出版物的语音阅读或TTS语音阅读、识别合成型的声码器等,前景也是十分光明的。
机器说话或者计算机说话,包含着两个方面的可能性:一是机器能再生一个预先存入的语音信息,就像普通的录音机一样,不同之处只是采用了数字存储技术。为了节省存储容量,在存入机器之前,总是要对语音信号先进行数据压缩。例如通过波形编码技术、声码技术等都可以用来完成数据压缩的要求。这种语音合成不能解决机器说话的问题,因为它在本质上只是个声音还原的过程,即原来存入什么音,讲出来仍是什么音,它不能控制声调、语调、也不能根据所讲的内容上下文来变音、转调或改变语气等。因此具有这一功能的系统,又称为语音响应系统。更进一步,我们将可以完成语音响应功能的IC,称之为语音芯片或语音IC。
另一种是让机器人像人类一样的说话,或者说计算机模仿人说话。仿照人的言语模型,可以设想在机器中首先形成一个要讲的内容,它一般以表示信息的、具有标准编码格式的字符文本形式存在;然后按照复杂的语言规则,将信息的文本内容,转换成由基本发音单元组成的序列,同时检查内容的上下文、决定声调、重音、必要的停顿等韵律特性,以及陈述、命令、疑问等语气,并给出相应符号代码表示。这样组成的代码序列相当于一种“言语码”。
从“言语码”出发,按照发音规则生成一组随时间变化的语音信号序列,去控制语音合成器发出声音,犹如人脑中形成的神经命令,以脉冲形式向发音器官发出指令,使舌、唇、声带、肺等部分的肌肉协调动作发出声音一样,这样一个完整的过程,正是语音合成的全部定义,其实,上述的定义,也就是文语转换即文本转语音(即TTS-Text to Speech)技术的定义。
在此基础上,可以针对中文进行文语音转换,生成TTS语音的技术,则又称为汉语语音合成技术。