日前,中华书局总编辑、古联数字传媒科技有限公司董事长顾青在接受本报记者专访时表示,中华书局的数字化战略,将根据国家规划,着力打造中华传统文化大数据中心和国家级古籍整理出版资源平台,使中华书局成为国内领先的优质传统文化数字资源的内容提供商和知识服务商,再造一个“线上中华”。
中华经典古籍库:以最高质量汇聚优秀古籍
“处理古籍,我们要应对的是几千年留下来的各种形体汉字。越是大数据时代,古籍数据来源的可靠性、准确性、规范性就越是重要。这些汉字呈现要准确,而且能够被检索。”2014年,中华书局“中华经典古籍库”发布,4年来已从初期的2亿字扩展至10亿字,从单一的局域网版扩展到在线版和微信版。“我们经过多年积累,建立了11余万字的字库,解决了绝大部分古籍生僻字、异体字和字符集外字等用字难题,满足了古籍文献全文本数字化加工要求。”顾青说。
面对目前市面上良莠不齐的古籍资源库,顾青用“自来水”和“纯净水”的差别来比喻其质量的差异。“目前网络上各类古籍数据库不少,数量大、版本多,但是存在两个大问题,一是没有版权,二是差错率高,不能被直接引用。中国几千年的文献流传,尤其一些经典文献历经各代抄、刻、删改,如不进行认真整理,会出很多问题。中华书局是代表国家做这个项目,我们的数据库必须是以古籍整理为基础,因此‘中华经典古籍库’的特点是:基于古籍整理成果和规范的海量合法数据,最高质量,可供征引。”
除了质量过硬,“中华经典古籍库”还实现了多功能服务,不仅能浏览、阅读、定制资源,在线编辑、下载、写作,还可以全文检索、深度检索和个性化检索。
“中华经典古籍库”发布后,销量持续增长,并在美、日、德、英等国实现了海外销售。2015年销售收入400万元,2017年升至 1500万元,今年预计可达2800万-3000万元。
顾青表示,加速发展的同时,也要解决产品面临的“痛点”。“一是版权问题。我们是代表国家形象,必须严谨,所有书的版权我们都是一家家出版社去签合同。二是制作问题。新中国成立以来很多古籍的数据是不能用的,有的全是铅排,要重新录入、制作。因此,数据库只能以每年3亿-4亿字的速度增加,每1亿字意味着500万-1000万的资金投入。”
“未来还要将新中国成立以来整理好的优秀古籍全部融汇进去,‘十三五’的目标是30亿字,5000种整理本古籍。我经常鼓励员工,当数据量达到一定程度时,我们质量优势就能充分体现了。”顾青说。
产业升级,开创古籍整理出版3.0时代
今年4月,国家级古籍整理出版资源平台“籍合网”上线,这是一个基于古籍整理与数字化的综合性知识服务平台,由中华书局旗下的古联公司负责建设和运营。
“籍合网”的一个令人瞩目的功能,是推出了“古籍整理工作与发布平台”这一在线应用系统,可通过发放整理任务、自主申领选择的“众包”形式,实现古籍的线上协作整理。同时,平台还提供校勘、标点、注释等一系列在线工具,“籍合网”的数据库也可供整理者利用,使古籍整理的质量更有保证。整理工作完成后,成果可直接在“籍合网”上发布,实现全流程数字出版。
“越是大型项目,这一平台越有优势,例如‘中华大藏经续编’多达两亿字规模,利用线上整理和全媒体出版,可减少重复劳动,提升质量,使古籍整理的生产能力成倍增加。”顾青说,“古籍整理出版从‘纸—纸’的1.0时代,发展到‘电子—纸’的2.0时代,现在又进入了‘电子—电子’的3.0时代。‘籍合网’是对古籍整理出版产业链进行重组的一次大胆尝试,通过线上线下联动,充分发挥网络技术和新科技的优势推动古籍整理工作,这将彻底改变古籍整理出版的生态。”
顾青还透露,为了实现古籍的知识服务,目前,中华书局正准备做“中华传统文化大数据中心”,将涵盖中国传世古籍的主要品种,基本满足学术界和全社会对优质传统古籍的需要。计划三年时间完成150亿字,2万种古籍的整理工作,其中50亿字(自有版权)要完成校勘与标点,成为可供阅读引用的标准文献。
“‘中华传统文化大数据中心’的基础是已经过深度标引的知识化、结构化的数据,这是中华书局数字古籍的核心竞争力。这是中华书局的未来,更是中华优秀传统文化和古籍整理出版的未来。”顾青表示。
作者:本报驻京记者 李扬
*独家稿件,转载请注明出处。