当机器听懂人类的语言……

首页 >> 创意天地 >> 芯领创意 >> 创意科技

当机器听懂人类的语言……

告别家电遥控器的时代真的就要来了。

在本月举行的中国家电及消费电子展上，长虹正式推出了人工智能智慧家庭解决方案，同时，发布了应用上最新人工智能系统的电视、空调、冰箱等。

在其解决方案中，提出了基于全空间语音交互等人工智能技术，实现在家里可直接与家电设备对话从而进行操控。此次发布的电视新品支持声纹识别，能够分辨不同家庭成员角色，精准推送内容。也就是说，可以直接跟电视“对话”，甚至不必发出“指令”，电视就“心领神会”点开想看的节目……

搭载人工智能语音控制模块的新品空调，也能实现语音控制并作出相应回应，长虹官方表示6米内准确率高达95%以上。

中国电子商会、中国电子技术标准化研究院发布的《2017年中国电视消费及2018趋势预测报告》显示，人工智能电视市场份额提升显著，同比增幅达80%。从这一消费趋势预测，2018年人工智能或将成为彩电产品的标配。新华社记者近日报道表明，工信部将重点支持人工智能在家电等领域应用。到2020年，智能电视市场渗透率达到90%以上。空调、冰箱等家电也不甘落后。

经过60多年发展，人工智能已在神经网络、深度学习算法等方面取得巨大进步。相对来说，中国人工智能研究虽然起步晚，但发展迅速。

统计显示，2007年～2016年，全球人工智能领域论文中，中国占近20%，仅次于美国；深度学习领域论文总量和引用量均居世界第一。此外，人工智能相关发明专利授权量已居世界第二。

科技部高新司司长秦勇在接受《人民日报海外版》记者采访时表示：“我国在语音识别、视觉识别、机器翻译、中文信息处理等技术方面处于世界领先地位。”

据专家预测，语音交互是人工智能在三年到五年内的爆发热点。

实际上，语音技术的应用所带来的便利与惊喜正在或者即将为越来越多的公众所体验。

语音交互让计算机会听会说

中国机器人网介绍，语音交互过程分为信息输入、信息处理和信息输出三步，相对应的技术便是自动语音识别、语义分析（自然语言处理）和语音合成。

最早的语音技术因“自动翻译电话”计划而起，包含了语音识别、自然语言理解和语音合成三项非常主要的技术。语音识别的研究工作可以追溯到20世纪50年代的贝尔实验室。

语音技术让计算机通过识别和理解把语音信号转变为相应的文本或命令，也就是让机器听懂人类的语音。

在我国，过去几年，语音识别一直是社会关注的热点，科大讯飞和搜狗在识别准确率上你追我赶；语义分析里的自然语言处理技术也得到了大规模商业化应用，各种智能客服、聊天机器人如雨后春笋般出现。

2017年以来，语音合成市场需求激增。据资深人士说：“很多从事语音识别的大牛现在转型做语音合成。以一些公司为例，之前对合成的重视程度不是特别高，但从去年开始，重心逐渐转向合成。”

语音合成又称文语转换，指通过机械的、电子的方法产生人造语音的技术。由于如今很多领域对声音的合成效果要求越来越高，比如各类智能玩具、家电等都要语音交互。

以前，只要能出声音就行，现在随着个性化产品的丰富，定制化的需求越来越高，要求声音出来之后产品和场景达到较好的契合度。

让计算机说话就需要用到语音合成技术，其核心是文语转换技术，现在已经应用到汽车的信息系统上，车主可以将下载到系统电脑中的文本文件、电子邮件、网络新闻或小说，转换成语音在车内收听。

叹为观止的应用场景

目前，最让人印象深刻的语音合成技术的应用，该属今年年初在央视纪录频道播出的大型纪录片《创新中国》。片子甫一播出，好评如潮，豆瓣评分9.3。

这部关注最前沿的科学突破、最新潮的科技热点，讲述中国最新科技成就和创新精神故事的影片，最大亮点是，解说部分全程利用人工智能配音，被认为是世界首部利用人工智能模拟人声完成配音的纪录片。

在央视网《创新中国》发布会直播上，当模拟已故播音员李易声音的人工智能配音响起，李瑞英、朱军、沙桐等“央视名嘴”，都因为如此逼真而感到非常吃惊。

根据《创新中国》技术合作方科大讯飞语音技术团队介绍，首先，他们搜集了大量李易老师以往的配音作品，选取可用素材，进行处理加工，建立了一个声音库。

然后根据《创新中国》纪录片的配音稿件，利用声音库的数据初步合成小样，根据原声不断磨合修改，在完成较为满意的版本的基础上，后期制作团队再通过剪辑调整来完成配音与纪录片的贴合。

当然，在表达一些带有情感色彩的语句时，语音合成就露出些许短板和刻板来。另外，字词的衔接上也略感机械。

当运用场景更偏重语音和文字的准确率时，语音识别的优势和便利就凸显出来。据中新社报道，上海市高级人民法院与科大讯飞股份有限公司上月签署战略合作协议，利用智能语音技术，在智能语音庭审系统、合议庭评议音字转换智能系统等方面达成合作。

利用智能语音识别、人工智能技术等替代传统的人工输入，能够有效提升审判效率，减轻法官和书记员的办案负荷，有效缓解案多人少的矛盾，同时还可使法院的文字记录工作最大限度还原审判活动全貌，真正实现审判工作的全程留痕，进一步推进司法公开。

而2017年年底，上海申通地铁集团与阿里巴巴、蚂蚁金服联袂合作进入样机研制阶段的地铁语音购票，同样让公众充满了期待。作为全球里程数最长的地铁，上海共有17条线路、367个站点，语音购票之难可想而知。

据上观新闻报道，推出的上述新一代售票机，可让乘客用语音交互的形式买票，具有指定站名或票价购票、目的地模糊搜索购票等功能。也就是说，站在机器旁，你只需告诉它，如：“我要去东方明珠”，它就会自动调用云端的高德地图服务，确定目的地最近的地铁站后直接出票。

该项目主要负责人、资深人工智能专家鄢志杰介绍，地铁站人多嘈杂，准确识别语音命令是个挑战，他的团队将计算机视觉技术融合到语音识别技术中，攻克了嘈杂环境下的远讲降噪问题。

“当前主流的远场语音识别技术在家居、办公室等比较安静的环境下能够很好地工作，但在公众场所嘈杂环境下，业界此前尚无可以达到大规模商用水平的远场语音交互整体解决方案。语音售票机是业内首个能在嘈杂的公共场所环境下，实现精准远距离语音交互的产品。”鄢志杰表示。

据称，嘈杂环境下远讲降噪技术有很强的普适性，还可以在机场、火车站、展会、社区、餐厅、商场等开放的嘈杂场景下，发挥作用。

[上一篇]语音合成技术已将肯尼迪最… [下一篇]人工智能：这个春天最亮的… 返回

发表留言

QQ咨询

电话咨询