文献、大数据与人工智能论坛综述

(书同文数字化公众号消息)2021年6月15日,由中国社会科学院古代史研究所主办的文献、大数据与人工智能论坛在中国历史研究院召开。本次论坛旨在探讨中文古籍数字化暨文史研究与计算机相结合的范例与前景。会议分为三个板块,其中第一板块为制作机构的交流,4家知名数字化专业机构介绍产品功能及规划;第二板块为前沿项目交流,5家课题组(团队)发布了最新数字人文成果。第三板块为互动交流。

中国社会科学院古代史研究所研究员鱼宏亮主持了第一板块的交流。他首先介绍了此次论坛的缘起以及与会人员、大致安排。他指出,在中文数据库方面,因为古汉语与现代汉语及其他语言在语法、组织方面有着很大不同,中文古籍数据库制作是数字化领域的技术高地、技术难点。近些年,随着人工智能技术迅速渗入数字化领域,为中文古籍的数据处理带来革命性变革。中文古籍数字化处理质量、成果数量均以中国大陆为最。社科研究机构是中文古籍数据库使用的重镇,中国社科院近年来连续组织有关数据库制作机构进行产品介绍和技术宣讲,促进使用单位和制作单位的沟通和了解,今年是连续举办的第三届。此次论坛与会的包括学术研究机构、数据库产品制作机构以及图书馆等采购机构人员,其中与会制作机构均自主制作数据库产品,其数据产品是可靠的、质量也是有保证的。他希望通过此次面对面交流,使学界、采购机构了解制作机构在做什么、有什么技术功能,还亟需什么样的数字化产品;课题组和制作机构也可以通过对话,了解学界需求,明确技术发展状况和趋势。
       随后,中华书局古联数字传媒科技有限公司总经理洪涛以《 2021年古联产品发展与技术规划》为题作报告。他首先介绍了古联公司的专题数据库产品,包括已经上线的,持续推进和准备上线的。其中经出版社和作者授权后的资源约有30亿字,加上一些经公司自己整理的中转资源,共有50亿字的规模。他重点介绍了公司的已经上线或重点推进的四个项目,包括小学文献数据库、甲骨文数据库、龙泉司法档案数据库、中华石刻总目数据库等。其中嵌入数据库的一些工具,如小学文献数据库的字符查询系统,可供社会查询和研究。
       此外,洪涛还介绍了古联公司的一些学术支撑项目、课题项目等。如为配合商周金文大词典编纂,建设词典编纂工作平台,提前导入和关联一些有关的书库库,供编纂人员取用,会大大加快后续的出版进度;古联公司正准备建设古籍智能书目系统,以建立古籍资源和古籍目录之间的关系;与北京师范大学、商务印书馆联合制作的了《古籍印刷通用字规范字形表》,第一批选出了比较重要的古籍整理著作里的高频字14520字,即将发布。另外,古联公司正在打造籍合学院,线上发布一些关于古籍整理相关的课程,包括理论通识课、案例课、实务技能课和专题知识课。每年会组织三五十门课程,供大家网上学习,涵育社会古籍整理人才。
       北京书同文公司张弛宜以《除了AI,古籍数字化工程还需要什么?》为题作报告。她指出,古籍数字化工程不同于个人、学者的简单加工和应用古籍,工程一定是处理对象有一定规模的,同时又是许多人参与的。书同文成立于1997年,推出的数据库产品首秀是研发和制作文渊阁四库全书全文检索版。目前书同文已经有了50多个专题数据库,涵盖基本古籍、明清研究、中医中药、文博文玩、典章制度等方面,拥有深厚的古籍全文数字化标准实践经验,以及工程实践性强的全文数字化技术,特别是古籍OCR技术,古籍库检索呈现方式等。在实践中,书同文对AI技术的利用,主要体现在OCR、造字、分词三个方面。她认为,古籍数字化项目得到持续稳定发展,需要市场的参与,在运行中要符合市场经济规律。她还推介了正在免费试用的i-慧眼OCR系统。
       中国知网智库服务事业部总经理毕宏霞以《古籍智能识别与成果数字化利用》为题作报告。她介绍了知网的两个系统:一是智能图文识别系统。该系统基于知网海量标引数据以及对文献资源加工与应用的经验,运用深度学习文字识别技术以及语种迁移扩展技术,自主研发的一套图文检测与识别系统,可实现高精度、多语种的文字识别。基于此,知网还研发一套图文扫描识别一体装置,可以实现标准文字识别、免拆书籍自动(或手动)扫描等功能。其二是成果数字化管理系统(TPI)。该系统是基于非结构化文档管理的大型智能化内容成果管理系统,是一套基于网络平台用于知识仓库创建、生产、管理、维护和发布的全面解决方案,具有检索发布首页及后台管理、碎片化自主标引、内容管理、在线标注、电子书加工工具、数据整合工具等功能模块,可用于图书馆、档案馆、博物馆的资源数字化、资源整合、专题库(知识库)构建等场景。她还介绍了承建的十月革命专题数据库的建设情况。
       北京世纪超星信息技术有限公司刘博以《古籍在读秀中的应用》为题介绍了读秀的功能和服务。她介绍说,读秀现收录700万种中文图书题录信息(其中古籍丛书目录40790种),可以对325万种中文图书进行文献传递,可搜索的信息量超过17.5亿页。读秀知识库是可以为文献使用者提供多种获取途径。其中,一是一站式检索服务,可以实现目录级的图书检索,相关知识和人物的关联检索以及纸本、电子版的一站式立体检索。二是古籍图书的获取服务,读秀通过与实体馆藏资源的接入,可以直接获取图书馆已购的纸本资源、电子本资源信息,并能提供全国馆藏联合目录、图书馆文献传递服务等。三是知识点检索阅读服务,可以直接检索出不同分类不同图书对同一知识点的研究,提供由点到线再到面的检索方式,以及直接的下载及阅读服务。

       论坛第二板块为前沿项目交流,有5个课题组介绍了在数据库建设和课题研究中对AI技术的使用和探索。该板块由中华书局古联数字传媒科技有限公司总经理洪涛主持。
       中国海关出版社数字出版部主任刘冬介绍了《旧海关刊载中国近代史料数据库》的基本情况。她指出,1854—1949年中国近代90余年的历史中,海关实行外籍税务司制度。其间,外国人采用西方科学、系统的记录方式记载几乎涉及中国近代史全方面的史料资源。目前保存下来的该批史料共分七大系列和其他系列,7大系列约计946卷(期)、装订成600余册,约6亿字。该批史料具有浩瀚、系统、丰富、科学、翔实、地图精致的特点。他们在对这些史料进行汇编出版的同时,于2016年开始,采用小步快跑方式,按专题逐步开发数据库产品上线,目前已经有通令数据库、贸易数据库(上、下)、海关总署馆藏数据库、医报数据库、图片库,约3亿字。同时,数据库融合了海关的研究机构、研究学者、研究成果。数据库一是实现了全文检索,并在数据库中提供了识别之后的文字以及史料原文影印件。二是提供了一些便捷实用工具,包括关键词历史趋势可视化、与海关辞库关联实现高亮、锚点定位便于快速匹配等。她介绍说,2021年将会把剩下的3亿字史料全文识别完毕,还将在目前已有中英文本对应展示基础上,通过人工智能方式,实现中英释义。
       北京大学信息科学技术学院王军教授带领的团队介绍了北京大学数字人文研究中心最近开发的吾与点古籍自动整理系统。他指出,在大量古籍文本实现全文检索利用、人文技术快速提升的基础上,利用人工智能技术,打造大数据学习平台成为可能。吾与点古籍自动整理系统可以对古籍文本进行自动句读、命名实体识别的工作。该平台已经在互联网上公开测试。
       此外,数字人文研究中心团队介绍了其面向中国古籍的知识工程建设。该工程任务之一发布一个中国古籍内容表示的本体模型,并在业内得到推广应用,形成统一的标准,这样有利于不同数据集之间的链接与语义互操作。二是发布一个大规模的中国古籍内容的语义结构化数据集,将会首先专注于《资治通鉴》《朱熹年谱长编》《宋元学案》三本古籍,终极目标是要实现自然问答。王军教授最后指出,项目的可持续性研发和推广应用,需要借助企业的力量、学术的力量和资本的力量,才能受到用户欢迎,更好地活下去。
       北京龙泉寺藏经办公室主任贤超法师以《人工智能在古籍整理中的探索和实践》为题做报告。他在发言中认为,古籍整理的对象可分为古籍经典和古籍史料,前者重在求精,让人看得懂,面向学习者;后者重在求广,资料让人找得到,面向研究者。古籍整理环节包括文字录入、版本校勘、添加标点、文本对读、白话翻译等环节。随着人工智能的发展,古籍整理中有些人力工作可以被技术替代。龙泉寺藏经办在各环节均针对性开发了技术工具,其中有业界水平领先的自动标点、文本对齐、OCR的技术。其OCR“臭皮匠”算法可以实现字识别、列识别、语言模型和版面分析;自动标点工具已经迭更3代,全面开放使用;文本对齐技术,可以实现古文与现代文的、古文与古文、现代文与现代文之间同源文本对齐。下一步他们将逐步实现核心技术的全面自主化,能够自主完成整个工作环节;构造工具链,涵盖数据的产生、管理、使用的各种古文工具;在应用上将更加面向对古籍经典的学习与研究需求。
        中文在线CBDB项目负责人朱厚权以《结构化数据的历史文献整理——基于CBDB的数据挖掘和扩展应用开发》做报告。他介绍说,自2011年国内首家数字人文研究中心(武汉大学数字人文研究中心)成立开始,到2019年教育部大力助推新文科建设,大陆高校的数字人文研究进入快车道,近两年数字人文研究蓬勃发展、成果显著。当前数字人文研究亟需集合结构化数据资源和研究工具的综合性数字人文服务平台。他介绍了中文在线的“引得”数字人文资源平台,目前上线有基于CBDB的中国历代人物传记资料库、中国历代通用古籍文献库,同时有人文工具,包括古籍识别、文本标记,并提供了知识图表库。中文在线将致力于对数据进行结构化处理,为人文学者提供研究环境和训练环境,同时提供辅助研究工具和工作流程,为人文学者服务。
       中国科学院自然科学史研究所图书馆馆长孙显斌团队介绍了他们正在建设的历代典籍目录分析系统。他们认为,一个时代文献的存量或者说数量能够在某种程度上反映知识发展水平,而文献的流变能够反映知识的变化。历代典籍目录分析系统综合运用数字人文常用的数据处理、检索、统计、可视化等方法,与古典目录学方法相结合,主要以历代史志目录为对象做长时段、全领域的知识流变分析。目前处理了《汉书·艺文志》、《隋书·经籍志》、《旧唐书·经籍志》、《新唐书·艺文志》、《宋史·艺文志》、《明史·艺文志》、《清史稿·艺文志》及以及《四库全书总目提要》的书目数据达11万条。在经过对书目进行拆分、结构化处理后,再进行品种认同,做统计分析、可视化展示,从而可以反映我国古籍的目录演化,以及对古籍进行亡佚分析与统计。

       在第三板块讨论交流中,大家肯定了近年来在数据库建设上的取得的成绩和技术的进步,介绍了需求以及各自自主建设的数据库,并表达了加强合作和交流的愿望。大家认为,此次论坛时间虽短,但发言报告精彩,技术运用反映了前沿趋势。倡议今后每年进行一次类似的研讨,聚焦专业性和技术性,推动业界、学界、图书馆界的融通交流,达成发展共识,推动学术研究进步,实现共赢发展。

撰文:中国地方志指导小组信息处负责人 王超

zh_CNChinese