【经济观察】让机器听懂人说话
人机互动方式的历史演变
起步阶级:穿孔纸带
上世纪70年代:学习计算机语言,通过键盘、屏幕输入复杂的命令行
上世纪80年代:以视窗、图标、菜单呈现出来的图形用户界面
2013年:第一代苹果手机iPhone上市,触摸屏开始成为人机交互主流
2016年:计算机语音识别的词错率降低到5%,随着这一技术的普及,人类的自然语言将成为人机互动的一个新接口
语音交互的生态链
语音识别将使人机交互能够以人类最熟悉的方式进行,未来语音交互将凌驾于浏览器、App等其他应用入口之上,形成一个以语音交互技术为核心的全新应用生态链。
与此同时,随着智能设备影响的扩大,用户群逐步向老龄人群、低龄人群、身体残障人群渗透扩散的趋势非常明显,而对这些新进入人群而言,原有的触控交互方式或许并不太适合,用户习惯也未形成。例如老年人视力下降、手指也不够灵活;低龄儿童还不能掌握手写等能力,也不适合长时间看电子屏幕;弱视/盲人更希望接受语音信息和发出语音指令,诸如此类,因此语音交互也更适合拓展智能设备新的用户人群。
在人机互动方面,语音识别正在取代传统的图形用户界面。语音识别能让我们更快、更有效地与身边的智能设备互动。语音接口不会完全取代现有其他形式的用户界面———鼠标、键盘、触摸屏,但在人们与身边的各种智能设备互动过程中,语音无疑是最方便的一个,它的普及只是个时间问题,而且我们也不会等得太久。
■张斌
在 PC时代,浏览器是流量入口,人类通过键盘和鼠标与信息进行交互;在移动 互联网 时代,以 App Store为代表的移动应用商店成了流量入口,人类通过触摸屏上的 UI 来操纵App和信息进行交互;在即将到来的物联网时代,人工智能会是流量入口,语音交互成为极具竞争力的交互方式。
在今年1月举行的2017年拉斯维加斯CES大展上,亚马逊的语音助手系统Alexa无疑是最大的亮点,它几乎出现在了每一家公司的展台上:除了内置在亚马逊自家的Echo智能音箱身上外,通用电气公司的环形灯、LG公司的智能冰箱、华为的智能手机、福特公司的自动驾驶汽车、Hubble Hugo小墨机器人,以及西屋电气、日本精机的智能电视机上都内嵌了Alexa……Alexa的成功甚至刺激到了苹果,根据海外媒体的报道,苹果已计划提前发布酝酿已久的Siri智能音箱。
“词错率”降到了5%
Alexa如此受关注,除了因为亚马逊公司的开放策略外,更与最近两年人工智能领域中语音识别技术的巨大进步有关系。
Alexa这个名字极具女性色彩的语音系统,不仅能播放音乐和广播、讲笑话,还能为用户定披萨、打专车,从亚马逊网站上订购用户喜爱的商品,甚至还可以替用户完成中学高年级的家庭作业。根据消费者智能研究机构CIRP的调研,内嵌了Alexa的Echo具有多重用途,用户的使用方式也比较多样化,其中大约有30%的用户用它来查询信息或回答问题,有40%的用户会用它来聆听音乐,10%以上的用户会用它来控制家电。据亚马逊官方称,每天甚至有超过5000人通过语音对Alexa示爱……要让Alexa完成各种任务,用户需要先发出一条触发语音指令“Alexa”,然后再用缓慢、清晰的语速说出自己的任务指令,要“她”具体去执行什么任务。否则,Alexa很可能会说:“抱歉,我无法回答这个问题。”
A1exa之所以在CES上成为“网红”,得益于“开放”策略。亚马逊想要把Alexa打造成一个“平台”:让开发者可以在这个平台上为用户开发、整合各种功能———相当于智能手机上的应用。公司负责Echo智能音箱、Alexa和应用商店的副总裁迈克·乔治在CES上宣布,自2015年6月Alexa开放以来,其技能目前已经达到了7000多项———2016年9月时,这一数字大概是3000多项;而在3个月后的2016年12月,超过了5000项。这7000多项功能中,有些是亚马逊自己开发的,更多的则来自
第三方。
“虽然亚马逊尽己所能扩大其Alexa平台有自己的动机,但无疑这种势头 (智能设备上内嵌语音识别系统)代表了一个更大的趋势。”美国消费者技术协会首席经济学家肖恩·杜布拉瓦茨这样表示。在他看来,语音识别技术正处在一个“拐点”———根据最新的统计,计算机语音识别的词错率(Word Error Rate:WER) 到2016年底已达到5%的水平。
为什么说“词错率”达到5%,意味着语音识别技术达到了“拐点”?因为它标志着计算机识别人类语言的能力已经接近人类。研究表明,人类接收同类语言的平均词错率就在5%左右。
在上世纪90年代中期,电脑的词错率是100%;到2013年,大约为23%。2006年,在一次产品演示中,微软早期在视窗中嵌入的一项语音识别技术把“mom”(妈妈)听成了“aunt”(阿姨)……当
苹果公司最初推出Siri时,这款个人语音助理因为无法为用户提供正确答案或听不清问题而备受人们的嘲笑。比如,在被问及美国女演员吉莉安·安德森是不是英国人时,Siri竟然给出了一份英国餐馆的列表。
“在过去30个月的时间里,我们在这一技术(语音识别)上看到的进展,比我们在过去30年里看到的还要多。”杜布拉瓦茨说。“基本上,在人机互动方面,语音识别正在取代传统的图形用户界面。伴随更好的语音识别技术的出现,一个新的计算时代———语音计算将要开启。”
电脑的新入口
正如杜布拉瓦茨所言,电脑语音识别技术正在让人类的自然语言成为人机互动的一个新接口———“语音接口”,语音接口的便利性能诱使人们更快、更有效地与身边的智能设备互动。Siri现在每周要处理超过20亿条语音指令,在美国,安卓手机上20%的谷歌搜索就是由语音输入的。
人类与计算机的互动方式经历了一系列演变,从最初的使用穿孔纸带,到通过键盘、屏幕输入复杂的命令行,到后来以视窗、图标、菜单呈现出来的
图形用户界面,再到之后的触摸屏。以上种种,都离不开“用户界面(user interface,UI)”这一概念。而当语音接口出现以后,人们能对着计算机说话———相比屏幕、键盘、鼠标,人们会更愿意以这种更自然的方式与机器互动———这在一定程度上能减少人们学习使用每个新智能设备接口的时间与精力,也会让人们逐渐模糊掉对“用户界面”概念的界定。
市场研究公司 Research and Markets于2016年5月发布的《全球及中国语音产业报告(2015-2020)》认为,随着计算机语音识别技术在智能产业的加深应用,全球以及中国的语音识别市场在接下来的5年中将维持显著增长:预计到2020年,全球语音识别的市场规模将达到191.7亿美元。这份报告中的数据显示,全球语音识别市场三成被美国公司Nuance占据———但已经出现明显下滑趋势,而其他科技巨头谷
歌、微软、苹果和科大讯飞则获得了迅速增长,全球市场份额分别为20.7%、13.4%、12.9%和6.7%。2016年10月,谷歌发布了一款名为“谷歌Home”的设备———从其功能和用途来看,与亚马逊的Echo相差无几。用户可以通过它进行语音搜索,询问诸如“最近的一个露营地在哪儿”、“明天会下雨吗”这样的问题;也可以把它与家里的其他众多智能设备连接,用语音来控制它们———打开空调、关掉电灯、调节温控器的温度。而在中国,京东正在联合科大讯飞,准备推出一款与Echo颇为类似的产品。在科大讯飞董事长刘庆峰看来,“语音识别的目标,就是实现人机交流无障碍。”
作为未来人机交互最重要的方式之一,语音识别技术的发展可以从两方面来衡量,一是软件系统的提升,如识别率和智能度的改进;二是与硬件的结合,即最终场景应用的实现———这也是技术成果转化的关键。
苹果公司在2016年就开始打造一款基于Siri的智能音箱产品,并已经在部分工程师的家中进行了秘密测试。韩国三星也于2016年在自己的开发者大会上推出了与Echo功能非常类似的语音联网设备,名为“Otto”。美国的芯片公司高通已经研发出一个线
路板,可让研发人员更方便地打造此类设备。
在国内,语音识别技术的众多商业化应用中,输入法、车载语音、智能家居、教育测评是语音识别最为普遍的应用模式。其中,输入法是最为优质的数据入口,国内目前由科大讯飞、百度、搜狗三家独占;教育测评也是发展较成熟的一类,目前市场上各类外语教学、测评软件,都有不错的数据流量;而社交软件的流量则被腾讯抢占。
对于新崛起的科技公司,硬件搭配语音识别是一个很普遍的应用模式,例如云知声做智能家居,思必驰做智能车载语音系统,出门问问推出智能手表。由于智能家居、车载语音、手表本身的场景要求,其需要处理的语音复杂度较低,对于数据流量的要求也没那么苛刻。
目前国内语音识别行业的产品现状是:技术领衔且实力雄厚的大公司在
建立服务性质的技术集成大平台,打算以此来抢占未来人工智能和物联网的入口;剩下的企业(众多创业型公司,如出门问问等)则在努力打造消费级的成型产品,为的是拿实用化的产品占领市场以及快速变现。
这也就不难解释搜狗推出知音引擎(2016年8月)、百度语音开放平台宣布将情感合成、远场方案、唤醒二期技术和长语音方案四项语音技术免费开放给用户和开发者共享(2016年11月)、腾讯上线智能语音服务(2016年5月)以及腾讯发布微信语音开放平台
(2016年12月)、科大讯飞旗下的讯飞开放平台总用户数达8.1亿(2016年)等这些事件出现的原因了。
同样,像云知声的车载智能后视镜、出门问问的智能语音手表、思必驰的智能车载语音系统、捷通华声的智能语音导航系统、灵隆科技的DingDong智能音箱、Focalmax的智能机器人管家等这类应用于车载、可穿戴及智能家居场景下的产品层出不穷,也同一个道理。
尚需跨越多道门槛
虽然这么多大牌玩家进入语音交互的领域,但由于技术和社会环境的限制,语音交互还处在起步阶段,相关的语音交互技术,至少在未来二到三年内,还无法支持大规模的应用和推广。
要想让语音交互流行起来,必须合理解决以下几点客观的限制:
技术还处于起步阶段 语音识别技术,也被称为 自动语音识别Automatic Speech Recognition (ASR),其目标是将人类语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audrey系统,它是第一个可以识别十个英文数字的语音识别系统。而一些行业巨头则是在2010年左右才开始加大对语音技术的投入的。各大巨头各自为战,语音识别领域内,目前还没有形成统一的行业标准和应用生态。
使用场景有限 语音识别技术对环境要求苛刻;在识别的准确率上受较多因素的影响,比如背景噪音、口音、语速、特定领域的专有名词等都影响准确率。有一项这样的测试,有人随机截取了几段网络课程,然后用主流的云端引擎测试识别准确度,基本上准确率在70%左右;然后又截取了一段新闻联播的音频,用同样的云端引擎做测试,准确率达到了95%左右。从这个测试可以看到客观环境对语音识别准确率的影响。目前的技术限制,导致语音交互体验的“机器感”特别强,缺乏人性化的感知,要知道,如果有选择,没有人喜欢跟呆板的机器一直做交流的。
用户习惯有待养成 研究显示,人在与系统做交互的时候,能记住的信息也就10秒左右。举一个常用的场景,有时候打银行的客服电话,你必须集中精力听语音播报,一旦被打断就又得从头听一遍。与此同时,没有人愿意对着冰冷的机器说话,然后得到毫无感情、甚至是错误的回应。用户对语音交互对象的要求不但是对方可以听懂,还应该能人性化地给以回应。人类更期望通过语音达到“人/人”交互的感受,而不是“人/机”交互,这也是为什么语音交互的普及很大程度上还依赖于人工智能技术进一步提升的原因。
题图:视觉中国