AI之语音合成篇|不要轻易相信自己的耳朵,人工智能能模仿合成任何的声音!
假如有一天,你发现机器人发出的声音和你的一模一样,你是感到惊慌,还是该感到欢喜?这并不是危言耸听,这是AI技术中的语音合成技术在捣鬼。在这个合成图片肆意蔓延、虚假新闻充斥各大媒体的时代,一个可以让任何人说任何话的程序,似乎是引发更多麻烦的催化剂,但是人们对其的研究仍然乐此不疲。本期讯猫软件将带您在AI语音合成技术的浪潮里翻滚。
什么是语音合成?
语音合成一般会经过文本与韵律分析、声学处理与声音合成三个步骤,分别依赖于文本与韵律分析模型、声学模型与声码器。其中文本与韵律分析模型一般被称为“前端”,声学模型和声码器被称为“后端”。
文本与韵律分析中,首先对文本进行分词和标注:分词会将文本切成一个个词语,标注则会注明每个字的发音以及哪里是重音、哪里需要停顿等韵律信息;然后根据分词和标注的结果提取文本的特征,将文本变成一个个文本特征向量组成的序列。
声学模型建立了从文本特征向量到声学特征向量的映射:一个个文本特征向量经过声学模型的处理,会变成一个个声学特征向量。声码器则会将一个个声学特征向量通过反变换分别得到相应的声音波形,然后依次进行拼接就得到了整个文本的合成语音。
声学特征反映了声音信号的一些“关键信息”,反变换则可看作用关键信息还原全量信息。所以在反变换的过程中可以有人为“操作”的空间(如参数的调整),从而改变合成语音的语调、语速等。
反变换的过程还可以让合成的语音具备特定的音色。录制某个人少量的语音片段,在合成时即可据此调整参数,让合成的语音拥有这个人的音色。老司机们最爱的“林志玲导航语音包”就是这么来的。
语音合成的处理过程是怎样的?
1、智能客服机器人
随着人力成本的增加,客服中心逐渐从企业的价值中心转变成了成本中心。同时,如何保持客户人员的服务质量统一,也是企业面临的一大难题。智能客服机器人通过自动识别客户语音及语义,自动回复客户问题,通过语音合成将回复以语音形式呈现,让人机交互闭环。
2、电子有声读物
有声读物的出现让人们可以在开车、走路等不方便阅读的时刻也能享受学习的快乐。人工合成有声读物,耗时费力,且准确率难以保证。语音合成让有声读物的生成变得更简单,情感合成技术让声音更自然动听,自定义发音人支持个性化音色,满足业务多方位合成需求。
3、智慧教育
这项技术在不久的将来还会带来一系列更加精彩的应用,例如:私人助手,用于读取著名的音频书籍;各类可联网的语音合成设备,为视觉障碍的残疾人合成语音,另外,它还可以服务于电影动画或者游戏工作室。
未来,语音合成技术的发展方向就应该是让声音达到真人说话的水准,并逐渐加入音色、情感方面的合成,使之更具特色,更加个性化。甭说是林志玲,周杰伦、林俊杰、邓紫棋等众多明星的演唱会或许都会被语音合成技术所取代,他们完全可以不用自己的声音去歌唱,只要口型对上,人在演唱会的现场,你也不会看出任何的破绽,这就是语音合成的神奇之处。
和语音识别不同,对语音合成质量的评价标准相对主观。对于一段合成语音,一些人耳中的“发音错误”对其他人来说可能只是“发音不准”;同时,什么样的声音像人声,像到什么程度,都很难通过几个像“准确率”这样的简单指标来进行评价。