人工智能何时才能“说人话”
■本报记者 徐晶卉
苹果全球开发者大会(WWDC)近日在圣何塞会议中心召开,人工智能(AI)不出意外地成为了主题词。苹果发布了搭载新一代Siri的HomePod智能音响,用以对抗亚马逊的回声智能音响(Echo)及微软即将推出的人工智能助理科尔塔纳(Cortana)。它们几乎已经代表了全球科技前沿AI应用的最高水准。
但从用户的反馈来看,当我们与Siri、Echo对话的时候,依然觉得怪怪的———明明在交流,却总觉得对方不说“人话”。
要实现人机自由对话,还有哪些问题要解决?
AI回应为何不说“人话”?
在苹果对外展示的Siri新功能上,最主要的改进在于“更自然更富有人性”。新版本中,由Siri 自动生成的男声和女声出现了语调的差别,反复读一个词,也有可能用完全不同的语调来完成。
不过这种提升极为有限。对于苹果Siri、亚马逊Echo或者百度美的合作的智能语音盒,用户总觉得人工智能在回答问题时说得不那么像“人话”,比如有延迟性、回应语速太慢、话术不自然等等现象。
“流利说”首席科学家林晖认为,语音识别只是把语音转成文字,但“对话”需要的不单是识别的技术,还需要进行自然语言的理解———在理解语言方面,机器还有很长的路要走。
“从一定程度上,这是技术没有到达一定水准造成的。”云知声联合创始人黄伟认为,人工智能有“三重门”,如今的人工智能技术还处于弱人工智能范畴,技术有局限性,自然语言理解本身就非常难———不同语境下,不同人对同一句话的理解都是不同的,“让机器回答的语音语调和话术更加自然,本质上是自然语言生成技术,就像让人组织语言一样,不仅要知道上下文,还必须有相应的知识结构,以现有技术很难达标”。
开放场景增加AI“困惑感”
人工智能发展到现在,出现了交叉路口:一个方向是做“变形金刚”,苹果、微软、谷歌、百度等巨头都是冲着这个方向前行,但难度很大;另一个方向是人工智能与某个领域的落地结合,这是巨头而外的绝大部分企业的选择方向。
“限定领域的语言理解,结合使用的场景,能做出体验较好的应用。”林晖说,他所在的企业“流利说”专攻英语口语学习领域的人机互动,相对封闭式的交互已能达到甚至超过人的识别水准。但他也坦言,面对人类复杂场景的开放式对话,目前AI还无法做到影视作品当中呈现的对答如流。
腾讯AI实验室副主任、西雅图人工智能研究室负责人俞栋认为,我们离真正的人机自由交流还有一定差距,难度在于,如今我们研究的语音识别问题越来越没有环境、说话风格、口音、词汇等因素的限制,这极大地增加了语音识别的难度。
最新版本的Siri已经初步具备了掌握方言的本领。比如,Siri已经可以用上海话来识别和沟通了,但其他方言未必能快速跟上。科大讯飞联合创始人王智国认为,为了使人与机器对答更加流利,机器必须适应人们在自然沟通中会出现的一些情形,比如方言识别、随时唤醒、让机器自动纠错而且可以被随时打断等,都是需要AI攻破的难题。
“众里寻音”,AI暂无抗干扰能力
在与苹果Siri、微软小冰等对话前,有哪几道程序是必须做的?首先,用户需要通过某个按键来唤醒人工智能,提醒它“现在开始交流了”;再次,用户还必须对准麦克风———声音小一些、周边环境嘈杂不堪,都极有可能干扰AI的理解。
但人与人之间的交流不是这样的,俞栋透露,“鸡尾酒会问题”是困扰人机自然交流的一大阻碍,“人在鸡尾酒会这样嘈杂的环境中也能够把注意力集中在某一个人的声音上,屏蔽掉周围的说话声或噪音,但现阶段绝大部分的语音识别系统没有这个能力”。
俞栋表示,“众里寻音”的问题在近场麦克风识别领域并不明显,但如果对话的人稍微站远些,在远场识别系统上,信噪比下降得很厉害,这就成为了一个非常关键、比较难解决的问题。他透露,在AI的前沿研究中,已经将重点从近场麦克风转向远场麦克风,试图找到并解决远场环境下语音识别效果欠佳的问题。