智能语音 vs 自动驾驶：谁的技术难度更高？谁的商业化潜力更大？

首页 >> 创意天地 >> 芯领创意 >> 创意科技

2002年上映的007电影《择日而亡》中，邦德驾驶的豪车阿斯顿马丁兼具智能语音与自动驾驶功能，炫酷的科技感与未来感使其成为许多影迷心目中的经典。人们不会想到，十几年后的今天，智能语音与自动驾驶作为新一波AI浪潮的宠儿，正在逐渐走入真正的现实世界。

2016年3月AlphaGo的横空出世标志着AI时代的来临，智能语音与自动驾驶无疑处在这波AI浪潮的最前端。智能语音作为最早代表AI的概念，目前是人工智能三大分支之一NLP（自然语言处理）领域最重要的落地场景之一。而自动驾驶作为人工智能多领域的“集大成者”，近年也在世界范围掀起一波热潮。二者同为现阶段AI最典型的落地业务，目前正为全世界科技力量所聚焦。了解它们的现在与未来，将为我们在AI时代的浪潮里找到潮头所指的下一个方向。

智能语音：人工智能的滥觞与终点

严格意义上来讲，人工智能肇始于智能语音。

1950年，“人工智能之父”阿兰图灵在一篇论文里首次提出了“图灵测试”。通俗来说，如果把机器和人都放到一个黑屋子里，屋外的人仅通过提问无法判断屋内是机器还是真人，那么这个机器便通过了“图灵测试”。

这是智能语音在理论上第一次被提出。由于其实现的困难性，这个从一开始就被提出的设定，也可以看作是人工智能的终极形态。事实上，“是否能通过图灵测试”，也是人类对于人工智能是否达到人类水平的最终评价标准。

既是人工智能概念的起点，又是技术发展的最终目标，智能语音可以说拥有一个“以终为始”的开端。

自从被图灵提出以来，智能语音迅速成为人类对人工智能的“终极想象”。从《星球大战》里可爱而话痨的C-3PO，到《钢铁侠》里堪称全能助手的Javis，再到三年前的电影《Her》中有着寡姐声线和近乎完美设定的Samantha，人类从未停止对于智能语音的美好构想。然而相比之下，现实则骨感很多。

1966年，MIT制造出了第一个真正意义上的聊天机器人Eliza。之后近50年里，智能语音主体上一直没有彻底摆脱“关键词匹配”+“人工规则”的固定模式。过于简单而死板的模式使系统不仅过于依赖人工，而且机动性很差。长期以来，我们与语音系统之间“能聊”的内容始终有限，整个领域也因此几遇寒冬。

近年来，随着深度学习的兴起，NLP技术取得很大进展。作为NLP领域实际意义上最接近落地的产品，智能语音也重燃热度。当前的智能语音大体可以分为闲聊式与任务式两大类。闲聊式系统的主要作用在于“插科打诨”，先前一度火热的小黄鸡与微软小冰的部分功能都属此类。这类对话的特点是大多没有明确的主题与目的，以用户留存为主要目标。因此一方面对话自由度很高，相对容易实现，但另一方面也不太容易市场化。

值得注意的是，近几年在NLP任务上效果突出的“端到端”生成式方法，被应用到了许多开放域闲聊式系统中。凭借着模型平滑流畅的生成效果，系统的许多回答可以给人耳目一新的以假乱真效果。

而任务式系统的主要作用在于解决实际问题，相比于闲聊式系统，它更加实用，同时也更难实现。像《钢铁侠》中Javis那样事无巨细的全职管家自然是最理想的情况，但现实系统很难做到对各领域知识如此高的覆盖率与精确掌握。因此目前的任务式系统大多针对于特定场景下的某一垂直领域。

目前最典型的应用场景包括家用音箱、售前/售后客服以及车载语音等。不同场景虽然各自独立，但对话过程中需要解决的问题存在共性，系统的框架也具有一定程度上的可移植性。因此目前普遍的观点认为，任务式系统需要以各个垂直领域作为突破口。

智能一点是一家专攻售前客服的科技公司，其在六月底刚刚发布了萝卜塔（ROBOTA）智能交互推荐系统和垂直行业售前AI导购解决方案。在CEO胡云华看来，按照Gartner技术成熟度曲线，售前客服目前应该是在低谷后的爬坡阶段。由于现在市面上大部分系统是基于检索式的，需要大量语料，所以现阶段整理语料就需要大量工作。在没有语料的情况下光有模型，就好比“空有屠龙技，但没有龙去屠”，这也是很多学界模型看起来很漂亮，实用性却并不高的原因之一。

谷歌五月初发布的Duplex系统曾在业内引发关注，系统不仅使用了很真实的人声，而且在对话过程中也加入了一些人性化的设置，最终的任务解决也很顺利。不过，在许多“懂行”的人眼中，Duplex系统虽然取得了很大进步，但并不算实际意义上的巨大突破。胡云华表示，Duplex虽然在产品思维上很巧妙，但它在受限场景下实现的一些功能，他们团队在垂直领域内也已经实现。

相比于方兴未艾的智能客服，人们对各式语音助手要更为熟悉。从智能手机上搭载的Siri，到智能音箱上的小米AI、亚马逊Alexa，再到各种车载语音，语音助手在现代生活的方方面面若隐若现，不断勾画出未来美好蓝图的同时，也在反复提醒人们AI技术目前不成熟的现实。当前的语音助手虽然一直在提升，也偶有闪光，但总体还是没有摆脱“人工智障”的阶段。

在CES 2017上，各种智能家居的语音助手曾掀起一波热潮。但行业在经历了短暂的风光后，也迅速沉入谷底。这其中最主要的原因之一是技术积淀远没有达到相应水准。

神经网络与深度学习经历了数十年的坎坷发展与沉默积累，在数据与算力达到要求的今天终于得以充分展现其威力，这才有了AlphaGo带火的这波AI浪潮。相比之下，智能语音领域目前似乎还没有找到一个完备而合理的框架。来自CV（计算机视觉）领域与机器翻译的技术移植虽然能取得一定程度的效果，但在一些对话领域所独有的问题上依然乏力。

当前智能语音最大的瓶颈一方面是领域标准的模糊与大量高质量数据的缺乏，另一方面，系统本身的不成熟也使得其在知识库交互以及上下文理解方面的表现远不理想，这些在系统涉及到多轮对话时表现得尤为明显。

随着智能时代的到来，智能语音其实有着很广阔的需求场景。比如车载语音，其最初出发点就是利用人类在驾驶汽车时，双手无暇兼顾复杂的功能按键，因此想到用相对空闲的耳与嘴来接收与传递信息。这类涉及“解放生产力”的业务，其需求是真实存在的。因此，在需求驱动下，智能语音发展即使缓慢，也会朝着终点不断靠近。

自动驾驶：近在咫尺的落地与遥不可及的未来

自动驾驶是人工智能的另一个典型落地场景。满街秩序井然的自动驾驶汽车，与配置高级智能语音系统的人形机器人，几乎是每部描述未来世界的科幻电影的标配。相比智能语音而言，自动驾驶起步相对较晚，但近两年发展迅速，大有触手可及之势。

智能语音在CES 2017的火热后回归平静，以自动驾驶为主的汽车科技则在CES 2018顺利接棒。据报道，CES 2018有近500家汽车科技类企业参展，展位总占地将近3万平方米。巨头英伟达也将其发布会的重点放在了自动驾驶上，并发布了相关硬件产品。近年来，国外以宝马大众为首的传统车企，以及谷歌特斯拉为代表的高科技企业在自动驾驶领域频频发力，不断取得突破。

国内的AI巨头同样有在自动驾驶方面布局。百度在2015年就开始大规模投入无人车领域，当年底就在北京进行了城市道路与高速路的全自动驾驶测试，2016年9月获得美国加州自动驾驶路测牌照，11月在浙江乌镇开始了普通开放道路的无人车试运营。2017年7月的AI开发者大会上，李彦宏乘坐自动驾驶汽车上五环收罚单的一幕令人印象深刻，今年的AI开发者大会上，百度又发布了首款特定场景下的高度自动驾驶巴士“阿波龙”，同时升级了自动驾驶技术平台Apollo 3.0，直指自动驾驶商业化。

与其他人工智能领域相比，自动驾驶涉及技术更为广泛，包括感知环境、自身定位、决策、规划路径、车辆控制、语音交互、摄像头监控驾驶员状态等多方面，对各方面之间协同交互的要求也相对更高。在技术方面，国内除了有百度为首的传统巨头，还有以Pony.ai、Roadstar.ai为代表的新兴创业公司，发展势头迅猛。

据了解，目前国内公司与国外巨头之间的区别更多体现在技术差异而非差距上，不同公司的主攻方向不同，自动驾驶适用场景也不尽相同，这些都会带来技术上的差异。

差异主要体现在两方面，一方面各公司的方案定位不一样，有的公司针对特定场景会有具体的设计，比如自动泊车，其场景主要限于“园区内受限环境低速”，所使用的技术自然与通用场景下的自动驾驶不同。另一方面每个公司的技术背景也有差异，如华为在通信方面技术积累更为深厚，其与一些侧重芯片的公司在发力点上也会有所不同。

随着自动驾驶近几年发展迅猛落地在即，目前拦在行业面前的不再是技术问题，而是法律许可与社会舆论接受度。

2018年上半年的特斯拉事故曾引发舆论讨论。在涉及人身安全的领域，人们似乎天然地对自动驾驶之类的AI抱有不信任感。而实际情况是，AI永远无法做到百分之百准确。在哪怕0.01%的误差都可能导致人命的情况下，如何说服大多数人接受自动驾驶，成为了一个亟待解决的问题。

目前，行业内用了很多方法来尽量提高自动驾驶系统的可靠性。但建立健全合理的法律法规，以及令大众逐步接受自动驾驶都需要时间。因此，虽然自动驾驶的技术发展已接近落地，但它离人们期待中的未来依然遥远。

智能语音 vs 自动驾驶：谁更“智能”？

智能语音与自动驾驶近几年你方唱罢我登场，相继引领了当前这波人工智能热潮。那么二者相比，谁更难实现？谁又更能代表“纯正”的人工智能？

智能语音作为人工智能甫一提出时的初始概念，溯源甚早。经过几十年发展与各种电影作品的渲染，已经几乎成为人工智能最主要的代表之一。一个完整的智能语音系统需要先进行语音识别，将识别出的语言进行自然语言理解，然后通过对话管理模块与自然语言生成模块生成相应回复，并合成语音反馈给用户。其中的智能主体部分主要集中在自然语言理解与对话管理，这些都要依赖当前很火的NLP技术。

NLP的主要工作是让计算机可以理解人类的自然语言，并生成可被人类理解的自然语言，它与CV、speech（语音识别）并称人工智能三大领域，也是其中公认最为困难的一个。其困难之处一方面在于自然语言的复杂性与多变性，另一方面在于其需要大量的外部知识与数据库交互。

拿对话任务举例，人类用户在提问时可能会有一些人类社会中约定俗成的概念表述，或者话语本身就存在歧义需要人类经验进行判断，这些都会增加计算机理解的难度。另外，多轮对话常常需要放入上下文语境中进行关联，为了帮助理解与回应，又往往需要一些百科知识，或者与对话内容有关的数据库信息，这些都是具有挑战性的工作，目前对话系统中对这些问题的处理也并不理想。

自动驾驶虽然近年兴起，但总体发展速度快于智能语音，现在也逐渐成为了大众对于人工智能的代表印象之一。有种观点认为，当前技术下的自动驾驶主要是对周围环境进行反应，可以看做是更为丰富的自动化，但因其缺乏自主学习的过程，因此严格意义上不能被称作是人工智能。从这个角度来看，语音助手由于涉及到海量数据的分析挖掘与学习，显得相对更“智能”一些。

这种观点有一定道理，但如果考虑到自动驾驶过程中需要统筹的环境、车辆、行人、路线等多重概念，其过程也并不简单。一些自动驾驶从业者认为，智能语音主要是识别人的信号，这个信号往往是一个确定的东西，其中的动态性主要来自一些噪声干扰所带来误识别，而相比之下，自动驾驶更多处理的是动态的目标，包括人的行为预测，路况的瞬息变化，这个都是并不确定的东西，所以系统的智能性要求也相应很高。

总体而言，自动驾驶虽然涉及的面更广，但多是在现有技术存在积累，或者可以解决的范畴之内，目前技术发展上也可以看到相对清晰的未来。智能语音虽然发展更久，但一些最困难的核心技术还没有取得理想的突破，因此整个领域目前更为困难，未来也存在更多的变数。

未来潮向何方

今年的百度AI开发者大会上，李彦宏在之前的“All in AI”之后，又提出了“Everyone can AI”的概念。与之相对应，百度近年不仅满足于开发语音助手或者无人车，其对话操作系统DuerOS与自动驾驶平台Apollo也都是面向人工智能开发者的。这是百度目前的战略走向，也可以看作当前全球人工智能领域发展的一个大方向。

未来的AI，一定是面向开发者、面向大众的。从这个角度来看，平台化与系统化的思路是对的。

互联网时代经过十几年的发展，如今已经几乎遍及全球各地每一个家庭与个体。人工智能时代如果来临，那么它的未来也注定不只是大公司的科技玩具，而会与更多的人息息相关。

几个月前，我国发行全球首本人工智能高中教材曾引起热议。这次DuerOS开发平台上年龄最小的开发者也只有12岁。可以预见，随着编程教育的不断普及化与低龄化，人工智能与相关行业的技术培养与传播也将不断发展进步。

在许多科技企业眼中，智能语音助手不仅仅可以担负与人交流的能力，其更长远也更重要的应用是未来智能家居的入口。巨头们布局语音助手，更多是为了在未来智能家居的市场中抢占先机。如果想要达到“万物互联”的美好愿景，智能语音与其负责连接的操作系统作为整个体系的中转与枢纽，作用不容小视。

除此之外，DuerOS在人工智能商业化上也为行业带来了一种很好的模式。传统智能语音的商业化主要依赖2C的智能音箱等硬件产品，DuerOS则直接面向开发者，为其提供技术支持的同时，开发者可通过技能内付费、付费技能、亿元开发者支持计划、DuerOS对话技能大赛等方式获得收益。

百度前COO陆奇在去年的AI开发者大会上曾说，“AI平台将是社会的巨大的推动力，与互联网时代相比，它能带我们的社会进入一个唤醒万物新世界。”如今，智能语音和自动驾驶，作为当前AI时代的新宠儿，正引领着一场深远的时代变革。假以时日，等到目前的技术逐渐走向成熟，AI时代真正到来，李彦宏所说的“Everyone can AI”也将随之实现。

来源于：财经网

[上一篇]未来，语音技术将如何重塑… [下一篇]语音技术将会重点应用的几… 返回

发表留言

QQ咨询

电话咨询