会打电话的AI：即便为真也不值得大惊小怪

2018-09-26 11:21
科技日报

　　“语言交互是智能音箱的核心功能。智能音箱的销量剧增，大量的语音交互会带来多样化的数据样本，目前研究界都在试图突破自然语言处理的难关，虽然从事这项研究的人比以前多很多，研究条件也很好，但理论的瓶颈、语言理解的语义鸿沟问题，不是一时半会能解决的。”

　　近日，谷歌在I/O开发者大会上展示了备受争议的Duplex AI，它通过电话完成了饭馆、发廊的预约，并没被对方“识破”。但过于干净的对话环境，也引发了一些人对于视频真假的争论。

　　语音合成技术已经可以“以假乱真”？语音交互取得了突破性进展？人和机器可以对答如流？这段展示之后，围观者的惊喜、质疑、担忧纷至沓来。

　　技术加持智能音箱爆发式增长

　　“相对于触摸、按钮等操纵，语音交互直接、方便、快捷。受惠于人工智能行业飞速发展，语音和语义的识别已经愈发准确。”智能设备厂商负责人赵明对科技日报记者表示。技术进步为智能音箱的产品化提供了支撑。

　　智能音箱的基本功能是为与人类语言互动、播放媒体音频和智能家居提供统一入口，其中语言交互是核心功能。对于用户来说，智能音箱可以用来查询天气、听音乐、进行一些简单问答等。对于厂商来说，智能音箱意义更大：在语音时代，它是重要的流量入口，生产大量数据，并把用户牢牢稳固在自己的生态链上。

　　从2014年亚马逊的智能音箱Echo面世，这种智能家居产品在过去几年爆发式增长，巨头纷纷入场，智能音箱发展史上的重要产品不断出现：国外的谷歌Home、苹果HomePod、微软Invoke，国内的京东叮咚、联想音箱、喜马拉雅小雅、阿里巴巴天猫精灵、小米小爱同学等。据赵明介绍，全球智能音箱市场规模在过去几年迅速增长，从2015年的255万台到2017年的3000万台。去年中国智能音箱市场达到176万台的销量，销售额4.9亿元，市场潜力明显。

　　对标Echo 产品功能初级单一

　　据赵明介绍，作为智能音箱领域的头部厂商，亚马逊通过接入Alexa语音助手以连接其他硬件软件服务，在先发优势和技术壁垒下，已经形成一定业务体系。亚马逊具有深厚的电商基础，并在内容、硬件、平台、云计算、物流仓储等领域布局，通过智能音箱整合软件、硬件、平台及内容资源，进一步盘活电商资源。

　　“亚马逊Alexa平台及云计算平台为打通多个服务链条奠定了基础，在硬件操作、软件应用及内容观看收听中的海量数据被有效收集并整理，实现内容与服务的个性化。”赵明表示，亚马逊在中文语音识别方面缺少布局，目前没有进入中国市场，但其发展为中国市场提供了借鉴，多数厂商以Echo为对标，布局智能音箱。

　　但据赵明介绍，目前智能家居行业还处于整体发展的中前期，行业标准尚未形成，巨头之间难以统一的平台标准为智能家居的普及造成了巨大困难。“目前的AI水平较为有限，很多智能家居实现了基本的AI功能，但都比较初级单一，用户使用体验并不理想。”

　　此外，中科院自动化所研究员王金桥表示，中文语音交互存在更多特殊障碍：中文的方言和口音种类过多，交流非常困难，语义鸿沟难以跨越。“市面上的智能音箱都‘傻乎乎’的，只能用来搜索和问答一些条条框框的问题，无法理解逻辑、上下文关系等，大家买回家玩几天，新鲜劲儿一过就闲置了。全国三百多家智能音箱厂商，没有一家赚钱的。”王金桥说。

　　灵隆科技CEO魏强也曾对媒体表示，目前消费者普遍反馈智能音箱存在远场识别差、误唤醒率高、连续对话功能不稳定和语义理解能力差、音质不好等问题，看似火爆的智能音箱行业正在面临创新能力弱、产品体验差、内容和技能不足、用户认知度低等诸多挑战。

　　水平有限仍是简单场景的人机交互

　　谷歌演示Duplex AI的过程引发了真实与否的争议：人们注意到，这些通话中的两位女性员工都没有在电话上提到自己公司的名称，另外这两个录音中也都没有环境噪音。不过谷歌并没有对是否编辑过电话录音的问题发表评论。

　　对于Duplex AI的表现，王金桥表示：“这只是展示了一个效果，不能说机器通过了图灵测试，也不代表理论上的突破。况且真实性没有验证。如果是真实的，那确实是先进的自然语言理解，这说明大家都在往自然语言处理的方向努力。”

　　思必驰副总裁、语音交互科学家初敏表达了类似的观点。“这个预约的过程难度不大，是一个简单场景的人机交互。只是角色置换了一下，不是我们常见的‘人问机器’，而是‘机器问人’，引发了大家的热议。”初敏说。

　　初敏表示，谷歌展示的“机器预约餐厅、发廊”一定是可以实现的，没有被对方听出来说明语音合成的效果不错，但整体来看，全程“没有展现有挑战性的问题”——如多任务切换、跨场景、噪音、上下文逻辑理解等。她同样表达了对视频真实性的怀疑：“餐厅听起来应该是乱七八糟的，但视频中没有背景噪音，所以不排除表演的可能。”

　　要想质变需要自然语言处理技术突破

　　自然语言处理是语音交互的核心技术，也是三十年来几乎没有突破的痛点。通俗来说，这项技术就是“让机器理解人”。据王金桥介绍，自然语言处理的核心是理解，希望机器能理解人的语言和目的。但每个人都是个性化的，说话的轻重缓急、重音位置，看到夕阳西下时或开心或伤感的个人感受，这些都是目前的机器无法理解的。尤其是在中文语境下，常见的一语双关、倒装、句式简化等，人有时候都理解不了，对机器来说更是难上加难。

　　初敏表示，在语音交互背后，是语音识别、自然语言理解、对话管理、自然语言生成等诸多环节，各环节充分配合才能实现良好的交互效果。“相比于谷歌展示的预约，我们已经可以处理更复杂的交互，只是效果没那么好。”初敏说。

　　“机器的认知推理和理解是一个系统的处理工程，是各种复杂算法的结合，不是单项技术能解决的。”王金桥表示。目前比较可行的限定场景下的自然语言处理，比如儿童陪伴、学科细分的语料库，可以实现智能化交互。中国科学院院士谭铁牛也在两院院士大会期间谈到人工智能正处在从“不能用”到“可以用”的技术拐点，距离“很好用”还有诸多瓶颈。“像‘那辆白车是黑车’‘能穿多少是多少’一类的表述，机器无法准确理解和翻译。”谭铁牛说。

　　语言交互是智能音箱的核心功能。智能音箱的销量剧增，大量的语音交互会带来多样化的数据样本，“目前研究界都在试图突破自然语言处理的难关，虽然从事这项研究的人比以前多很多，研究条件也很好，但理论的瓶颈、语言理解的语义鸿沟问题，不是一时半会能解决的。”王金桥说。

　　（原标题：会打电话的AI：即便为真也不值得大惊小怪|自然语言生成|谷歌|音箱）