随着近些年信息的爆发式增长,人们每天能接触到海量的文本信息,如新闻、博客、聊天、报告、论文、微博等。从大量文本信息中提取重要的内容,已成为我们的一个迫切需求,而自动文本摘要则提供了一个高效的解决方案。单文本自动摘要技术通过使用计算机软件及其底层分析算法自动从原始文本中创建一个简明、全面且反映该文章核心思想的摘要,从而辅助人们实现大量信息的快速阅读与检索。甚至更进一步,可以通过在单文本自动分析的基础上分析多文本,实现对同一事件不同报道的多维度、多角度自动文摘。
慧科(Wisers)夺冠的自动文本摘要技术使用人工智能(AI)与自然语言处理(NLP)技术,支持中英文跨语言自动文章摘要,采用无监督式摘要生成技术,不依赖于训练数据,可胜任各类文本的自动摘要。
该技术包含两个重要模块。第一个内容分析模块自动分析文本的话题大意,利用统计学和语言学特征,识别出文本中最精确且全面地涵盖文本讨论主题的重要语句。
第二个摘要编辑模块,通过精心设计,不仅解决了提取式摘要技术通常因简单提取句子并拼接所造成的上下文不连贯问题,同时也克服了生成式摘要技术产出句子可读性差的问题。
慧科夺冠技术的秘诀在于:
•通过内容分析与识别检测并纠正摘要中不清晰的指代表述(例如代词等)和不完整语段(例如编号不完整的列举项等);
•通过文本去噪和句子压缩确保最终生成摘要的简洁度、流利性与可读性;
•集成了基于深度学习和语义嵌入模型的垃圾广告过滤与话题分割技术,以保证最终摘要的信息多样性和清洁度。
慧科AI实验室自动文本摘要技术自2018年1月起已在慧科产品后台广泛应用,支持日常数据管理与运营。
除获得自动文本摘要评测第一名之外,慧科AI实验室的自动话题分类技术也在第七届国际自然语言处理与中文计算大会(NLPCC 2018)“知乎问题自动标注”技术评测的16支参赛队伍中名列前四。该评测任务旨在对任意未先指定的知乎问题从超过2万5千多个可选标签集中自动判断话题分类。慧科的自动话题分类技术采用了基于语义向量模型与深度学习相结合的集成学习技术;并且透过高效定制化工具,可快速支持话题扩展。
国际自然语言处理与中文计算大会(NLPCC)是由中国计算机学会中文信息技术专业委员会(CCF TCCI)组织的专注于自然语言处理和中文计算技术领域的一流国际会议。参加者包括来自世界各地自然语言处理和中文计算领域的专家和学者。今年第七届年会NLPCC 2018将于2018年8月26日至30日在中国呼和浩特举行。
NLPCC评测单元涵盖自然语言处理和中文计算领域中各种经典和新兴的重要课题,受到学术界和业界的广泛欢迎和参与。本届评测任务于2018年1月份公布并开始接受报名,3月份正式启动,4月底提交结果,5月份结束。每个评测任务统一给参赛队提供一份供算法开发的训练数据集,之后由评测任务组织者根据严格设计的测试数据集和性能指标对每个参赛队提交的解决方案进行评估并排名。
慧科AI实验室(Wisers AI Lab)2014年7月成立于香港,专注于以人工智能技术解决中文全媒体资讯自动化分析与大数据情报挖掘,于2016年4月成功获取香港特别行政区政府逾八百五十万港币创新科技基金。团队由毕业于国际知名院校的AI及计算语言学专家组成。所有成员均拥有硕士以上学位,其中35% 的成员拥有博士学位。
慧科AI实验室自主研发的,面向实际应用、开放领域、多元化数据的AI分析技术全面涵盖自动化媒体情报处理与挖掘的各个层面,既包括基于文本分析的实体识别,关系提取,话题分类,情感分析和事件检测追踪等技术,也包括基于图像分析的品牌标识和人脸识别技术。以上技术均可以在慧科AI实验室官网(www.wisers.ai)提供的实时技术演示中获得体验。
慧科讯业有限公司(Wisers Information Limited)是全球领先的全媒体大数据智能商业情报专家,凭借20年累积的数百亿海量媒体数据,先进的人工智能技术,以及科学的分析模型体系,为全球超过2500家客户提供创新的产品服务和解决方案,助力企业及各类机构做出明智决策(www.wisers.com.cn)。