宇音天下-语音合成或Speech Synthesis的定义

语音合成或Speech Synthesis的定义

    由人工制作出的语音称为语音合成（Speech Synthesis）。语音合成是人机语音通信的一个重要组成部分，语音合成技术赋予机器或系统设备一种“人工嘴巴”的功能，它解决的是如何让机器像人那样说话的问题。
    早在200年前，人们就开始研究“会说话的机器”了，当时人们利用模仿人的声道，做成的橡皮声管，人为的改变其形状来合成元音。近来随着半导体集成技术和计算机技术的发展，从20世纪60年代后期开始，到20世纪70年代后期，实用的英语语音合成系统首先被开发出来，随后各种语言的TTS系统，也相继被开发出来。现在语音合成技术已经能够实现任意文本的语音合成。所以现代电子技术产生以后，“会说话的机器”这一术语也被语音合成所替代。
    语音合成技术研究的目的，是制造一种会说话的机器，使一些以其它方式表示或存储的信息能转换为语音，让人们能通过听觉而方便地获得这些信息。语音合成系统是一个单向系统，由机器到人。由语音来传递语言有以下特点：
    （1）不用特别注意和专门训练，任何人都有可以理解。
    （2）可以直接使用电话网和电话机，以方便人们从中获取有效的服务信息；
    （3）语音传达直接、简单、有效，可以让人们迅速产生应急反应。
    语音合成领域十分广泛，例如：自动报时、报警、公共汽车或电车自动报站、电话查询服务业务、语音咨询应答系统，车载GPS语音导航、安防监控领域中的语音提示等等，这些应用都已经发挥了很好的社会效益。还有一些应用，例如电子函件及各种电子出版物的语音阅读或TTS语音阅读、识别合成型的声码器等，前景也是十分光明的。
    机器说话或者计算机说话，包含着两个方面的可能性：一是机器能再生一个预先存入的语音信息，就像普通的录音机一样，不同之处只是采用了数字存储技术。为了节省存储容量，在存入机器之前，总是要对语音信号先进行数据压缩。例如通过波形编码技术、声码技术等都可以用来完成数据压缩的要求。这种语音合成不能解决机器说话的问题，因为它在本质上只是个声音还原的过程，即原来存入什么音，讲出来仍是什么音，它不能控制声调、语调、也不能根据所讲的内容上下文来变音、转调或改变语气等。因此具有这一功能的系统，又称为语音响应系统。更进一步，我们将可以完成语音响应功能的IC，称之为语音芯片或语音IC。
    另一种是让机器人像人类一样的说话，或者说计算机模仿人说话。仿照人的言语模型，可以设想在机器中首先形成一个要讲的内容，它一般以表示信息的、具有标准编码格式的字符文本形式存在；然后按照复杂的语言规则，将信息的文本内容，转换成由基本发音单元组成的序列，同时检查内容的上下文、决定声调、重音、必要的停顿等韵律特性，以及陈述、命令、疑问等语气，并给出相应符号代码表示。这样组成的代码序列相当于一种“言语码”。
    从“言语码”出发，按照发音规则生成一组随时间变化的语音信号序列，去控制语音合成器发出声音，犹如人脑中形成的神经命令，以脉冲形式向发音器官发出指令，使舌、唇、声带、肺等部分的肌肉协调动作发出声音一样，这样一个完整的过程，正是语音合成的全部定义，其实，上述的定义，也就是文语转换即文本转语音（即TTS-Text to Speech）技术的定义。
    在此基础上，可以针对中文进行文语音转换，生成TTS语音的技术，则又称为汉语语音合成技术。

[上一篇]语音合成方法的主要分类 [下一篇]语音合成技术现状返回

发表留言

QQ咨询

电话咨询