人工智能何时才能读懂人心
中国团队在世界计算机视觉领域权威比赛中刷新谷歌、微软保持的纪录夺得分组冠军,但离破解计算机视觉识别难题仍有很大差距
日前结束的世界计算机视觉领域权威比赛———“ImageNet大规模视觉识别挑战赛”上传来消息,来自中国的自动驾驶公司Momenta研发团队和来自中国的360人工智能团队分别夺得分类组和检测组冠军,并且刷新此前由谷歌、微软和牛津大学等保持数年的世界纪录。在此次参赛的27支队伍中,超半数来自中国,且表现最出色的团队也都来自中国。
据预测,未来30年,智能机器人数量将超过全人类总数,人们需要考虑如何与没有屏幕的设备打交道,因此,听觉和视觉识别的地位突飞猛进,被业界认为是开启人工智能时代的两把钥匙。从中国团队在世界计算机视觉识别大赛上的突出表现来看,在这一入口我们有了很大的提升,但是离真正破解计算机视觉识别难题仍有很大差距。
“机器识图”已超越人类,错误率小于5%
ImageNet大规模视觉识别挑战赛分为两大类别:分类和检测。分类是让机器标注一张图片里有什么,检测就是让机器把图片中的内容全部标注出来。“如果一张图中既有猫又有狗,机器给这张照片标注了猫,在分类组里就是对的,在检测组就是错的。”大赛参与团队之一、七牛云人工智能实验室发起人和负责人彭垚表示。
美国斯坦福大学计算机系终身教授、人工智能实验室与视觉实验室主任李飞飞是ImageNet的创始人之一。2009年,他们建成一个含有1500万张照片、涵盖2.2万种物品的数据库。2010年开始,ImageNet设立竞赛规则,邀请全世界的计算机科学研究者参加竞赛,比较算法识别特定图像的错误率。
在2015年的比赛中,计算机看图错误率的百分比已经低至个位数。业界认为,从这一刻起计算机的识图能力已超越了人类。今年该类别的冠军更是把错误率降低到2.25%,去年的冠军成绩是错误率2.99%。和分类相比,检测的难度要大得多。今年冠军队对图片的检测中,识别精确度为73.1%,较之去年冠军队的66.3%有显著提高。
“现在最好的机器能在一张图片中识别出1000多件物品,而且对于不认识的物品,也能大致猜出它是什么。”中科院上海微系统与信息技术研究所仿生视觉系统实验室主任张晓林说。不过,由于大部分图片都不需要视觉人工智能双眼处理这么大的信息量,且机器不会疲劳、工作稳定,因此在疑犯追踪、扫黄等特定应用场景中,机器检测图片的准确率已超过人类。
视频识别成热点研究方向,准确率尚不足10%
随着机器识图准确率的不断提高,科学家开始接受更高难度挑战:视频识别。相比图片,视频应用场景更多。近年来,在安全视频监控领域,人工智能已经可以从海量监控视频中找到可疑物品或人员,而不是通过侦查人员不眠不休地盯着屏幕看。
视频识别的基础同样是2012年发布、如今大红大紫的“深度卷积神经网络算法”,因为视频在本质上就是若干帧图像的连续播放,只是视频识别的计算量比图像识别大多了。一辆行进中的公交车,机器除了要记得公交车的形状,还要掌握其运动轨迹特征。这样才可以对视频中提取的多张照片进行比对,准确率也就更高了。
视频识别的难度在于机器对视觉语言的理解,比如机器很难判定人们正在举行婚礼还是开派对。彭垚说,现在他们的团队就尝试通过多线索学习来突破困境,比如把字幕、声音等场景要素都考虑进去,当机器能“听”到婚礼进行曲时,是婚礼视频的可能性就更高了。
“视频识别现在还处于非常初级的阶段,就谷歌发布的数据集对业内主流算法的评测来看,准确率不足10%。”彭垚说。不过,视频识别的前景又是如此之广,以至于越来越多人工智能视觉大赛都开始将此作为竞赛内容。今年之后,ImageNet也将由WebVision竞赛接手,其中视频识别是很重要的比赛项目。
终极目标:让机器看着人脸,读懂人心
尽管最“智慧”的机器已经可以将一段视频画面转化为“他笑了,他哭了”的文字,不过张晓林表示,以它们现在的“智商”,还无法理解笑和哭的含义。
“当前的图像处理还是道数学题。”张晓林说,所谓数学题,就是把每一个像素转化为计算机的0和1,利用数学的归纳、概率、统计去算出结论。然而事实上,大脑不需要如此大量的计算,它会过滤掉很多东西,只保留它所关注的。
科学家们正在从两方面去征服这座“高山”,一类科学家从计算机领域,他们不断积累数据,加快硬件的传输速度、分辨率和稳定性,增强计算机的运算能力。而另一条路,则是从理解语言本身出发。大脑中的布诺卡氏区是语义产生的地方,韦尼克区是解析语义的地方,张晓林所带领的团队希望从这两处得出大脑是如何处理语言的,从而让机器能够主动发现并抓取信息。但是,“最终的目标还是要让机器看着你的脸,读懂你的心。”张晓林说。