▲Math question answering比赛训练题型
对AI而言,SAT答题远比下围棋困难
2016年,“初级围棋”(AlphaGo)让人类棋手铩羽而归时,不少人惊呼:人工智能要超越并替代人类了!其实,早在2011年,IBM沃森机器人就在智力问答竞赛中击败人类,赢得冠军,成为人工智能发展史上的一个里程碑。
然而,要应付SAT这类高难度学业测试,不仅需要强大的计算能力,更需要理解人类思考和信息处理的过程——如果能顺利通过SAT,将为人工智能技术发展树起新的里程碑。
2011年前后,日本开始尝试研发相关人工智能系统,目标是让机器人考上东京大学,可惜2015年、2016年人工智能两次都未能考出理想成绩,研究者最终选择放弃,因为他们看不到系统提升的希望——要突破其中的技术难点,实在太困难了!
周熠告诉记者,解答SAT或高考试卷主要有两大步骤:首先要理解题意;其次是推理和答题。这对人类来说,难度并不太大,可对计算机而言,任务极度困难,每一步都埋伏着重大挑战,需要理论上的突破以及强大的工程能力作为支撑。
从众多现有技术看,比如百度搜索,仅能从语法层面匹配字符串,并不能从语义层面理解字符串背后的含义。而在推理层面,当前人工智能在应用上获得成功的主要技术,比如深度学习和知识图谱等,只能进行非常简单的浅层推理,而解答SAT或高考综合题,往往需要多达20步推理步骤。
理论上有突破,答题准确率高出两倍
根据机器语义理解方向的当前学术难点和热点,人工智能权威组织之一的国际语义评估研讨会每年会遴选举办数项国际赛事。去年,机器人考试竞赛首次入选。
SAT数学问题自动解答大赛是由国际语义评测研讨会组织,面向SAT数学科目的机器自动答题国际竞赛。该比赛覆盖SAT数学科目的所有类型题目,难度与真实考试水平完全一致,训练集合来自历年SAT数学科目的真题,主要有代数、应用、几何三种题型。
“之所以选择SAT,是因为它对目前的人工智能技术提出了重要挑战,这些挑战涵盖人工智能的很多方面,包括知识表示与推理、机器学习、自然语言理解与图像理解等等。”周熠介绍,自2015年起,在863项目支持下,我国也开始研发考试人工智能系统。此次夺冠的人工智能选手就是几年攻关的成果。
据了解,这次比赛共有来自全球各地的132支队伍参赛,全部采取匿名形式。去年秋季报名后,每个团队都收到了一份答题规范和训练题集,然后利用这些资料开始编写程序。直至今年1月底各团队提交参赛程序后,就静候结果。
2月6日,竞赛成绩揭榜,上海脑中心/张江实验室与科大讯飞、复旦大学联合团队斩获此次比赛的冠亚军——冠军的综合准确率达45%,比第三名的21%高出两倍多。
为何上海人工智能团队能以明显优势领跑赛事?周熠说,主要有三方面原因:首先,团队用自主创新的“断言逻辑”替代传统数理逻辑来表示数学知识。断言逻辑不仅表述更简单、表达能力更强,而且更便于深度推理。其次,在题意理解方面,团队结合基于神经网络的深度学习和基于符号计算的专家系统这两类迥然不同的人工智能方法。最后,科大讯飞强大的工程实现能力为本次比赛提供了强有力的护航。
▲Math question answering比赛的最终榜单
蕴含颠覆创新机遇,应用空间广阔
研发考试机器人,将推进人工智能知识表示与推理、机器学习、自然语言理解、图像理解、搜索等诸多领域最前沿技术的发展与融合。而且,一旦获得成功,这些技术将很快在实际生活中得到广泛应用,包括智能客服系统、问答系统、对话系统、智能辅助、企业知识库、信息抽取等。
“‘初级围棋’作为棋类应用场景,运用范围十分狭窄,而与考试机器人相关的技术应用和商业价值则要广阔得多。”周熠透露,他们正在开发能够自由组合知识点和规则的新一代考试机器人。未来,团队希望在考试机器人中引入数学方法,比如反证、归纳、分情况讨论等,这将是一个重大前沿突破。科大讯飞正在将此类技术融合到智慧教育系统中,并已取得不错的进展。
“不过,即使实现了突破,这也仅仅是弱人工智能通向强人工智能路上的小小一步。”周熠特别强调,这些点上的突破尚无法完全解决自然语言理解、常识问题、自动知识获取等人工智能领域的重大科学问题。
作者:许琦敏
编辑:储舒婷
责任编辑:许琦敏
*独家稿件,转载请注明出处。