三大古籍全文数据库使用体验对比

作者:陆岩军 / 上海交通大学人文学院

基础设施

陆岩军 / 上海交通大学人文学院


摘 要:“中国基本古籍库”“鼎秀古籍全文检索平台”“中华经典古籍库”已成为当下中国文史研究及教学必备的三大古籍全文资源库,各具特色和优势,相得益彰,形成三足鼎立之势。从使用者角度来看,衡量数据库优长的主要因素为大容量、准确性、便利性、整合性、智能性。数据库开发者应密切关注用户需求,不断拓展完善现有数据库,以谋求长远发展。

关键词: 古籍全文数据库 主要性能 使用体验


学术研究的推进离不开研究者、研究材料、研究技术三大要素。这三者均受到时代影响,研究者的观念意识、不同时代条件下所赋予的研究技术以及由此所搜集到的研究材料,无不体现出鲜明的时代性。时至今日,得益于互联网和数据库技术发展,文史研究已经日益借力于数据库,并呈现出由数据库逐步向知识库转变的鲜明趋势。荀子说:“君子生非异也,善假于物也。”[1]在电子技术、大数据技术高度发展的今天,充分利用数据库提供的现代便利,助力相关研究,已然成为研究者的现代必备技能之一。

“中国基本古籍库”“鼎秀古籍全文检索平台”“中华经典古籍库”已成为当下中国文史研究及教学必备的三大古籍全文资源库,各具特色和优势,相得益彰,形成三足鼎立之势。

从使用者角度来看,衡量数据库优长的主要因素为大容量、准确性、便利性、整合性、智能性。现根据长期使用体验,笔者从以上诸因素对三大古籍全文数据库予以对比。

一、大容量

数据库(Database)是按照数据结构来组织、存储和管理数据的仓库。用户对数据库的首要需求是大容量,越大的容量越能吸引尽可能多的用户,并满足其尽可能多的数据需求。

表1 三大数据库容量对比

根据表1统计,“鼎秀古籍全文检索平台”容量最大,以书种数而言,是“中国基本古籍库”的两倍、“中华经典古籍库”的三倍,超过“中国基本古籍库”和“中华经典古籍库”的容量总和。

以大容量作为衡量数据库的第一指标,就决定了各大数据库之间的竞争,首先表现在数据扩展的速度以及容量的绝对领先上。截止目前,“中国基本古籍库”已升级到V8.0版,“中华经典古籍库”也以每年一次的扩展速度更新到第10期,“鼎秀古籍全文检索平台”现则已升级到2.0版,名为“文心阁古籍数据库”,在原“鼎秀古籍全文检索平台”21,000种古籍基础上又增加了10,305种,古籍总数为31,305种,仍以数据扩展速度和超大容量保持绝对领先优势。但据《中国古籍总目》所著录的现存20万种中国古籍的总量来看[2],古籍数据库还有很大的提升空间。

二、准确性

如果说大容量是衡量数据库的第一外在要件,那么准确性则是衡量数据库的第一核心要件。换言之,使用者会为数据库的超大容量吸引,但真正决定其对数据库的正面评价及继续使用的主要因素则是数据库的准确性。

表2显示,“中华经典古籍库”的准确性最高。“中华经典古籍库”所收录数据资源为中华书局、凤凰出版社、华东师范大学出版社、上海书店出版社、上海书画出版社、浙江古籍出版社、浙江人民美术出版社、西泠印社出版社、天津古籍出版社、齐鲁书社、三晋出版社、巴蜀书社、辽海出版社、三秦出版社、岳麓书社、大象出版社等多家专业出版社已出版的古籍整理本,其纸本图书在教学和科研中已被广泛征引,学术性已得到学界普遍认可。“中华经典古籍库”以这些古籍整理图书为原始文本,利用计算机技术进行了精准的数字化编辑工作,对每一个标准字符集外的古籍用字都一一处理,并修改了原书中的一些错误,因此其数据质量相较纸版图书更优,且该数据库提供原版图书图片与数据库文字予以全面对照,页码一一对应,研究者可以放心地复制、引用相关文献,极大地节省了研究者录入、复核文献时所耗费的精力和时间,而可将主要精力放在文本研究上。

表2 三大数据库准确性对比

“中国基本古籍库”和“鼎秀古籍全文检索平台”二者性质较类似,所收数据均为先秦至民国的各类古籍文献的影印本图片及OCR数据。因为影印本的漫漶、模糊、缺损、页面误排等,尽管OCR数据经过了初步的人工核对,但其数据的准确性仍亟待提高,仍需要使用者与影印本图片仔细核对才能放心使用。同时,研究者除了仔细复核OCR数据外,还要进行自行断句、标点。因此,使用这种未经仔细校勘、整理的古籍OCR数据,既要求使用者要足够细心,又要求使用者有足够的小学句读能力。综合来看,与“中华经典古籍库”相比,“中国基本古籍库”和“鼎秀古籍全文检索平台”的数据在准确性和便利性上都存在较大的不足和差距。这也是“中华经典古籍库”后来居上,被众多研究者青睐的重要原因。

三、便利性

在确保数据库准确性的同时,数据库的便利性真正决定了用户的使用体验。从用户角度来看,数据库的便利性主要体现在页面简洁友好、功能多样实用、限制因素较少。

表3 三大数据库便利性对比

在基本功能方面,三大古籍数据库较为相似。其中,“中国基本古籍库”和“中华经典古籍库”均有纠错或修订功能,具有一定开放性和纠错能力,在理论上为完善数据库提供了技术保障。然而在实践操作层面上,却因缺少灵活实用的激励措施,用户在纠错或修订方面的积极性并不高,使此项功能的实际效果大打折扣。从数据库开发者角度看,每项开发的功能都意在为用户提供便利,也最终为自身发展提供切实保障。如果用户对某些重要功能的使用度和参与性不高,数据库开发者就需要反思和采取相应的改进措施了。

在特色功能方面,“中华经典古籍库”的引用功能极其便利,可以同时生成引用文献及引用格式(包括作者、书名、卷次、出版社、出版时间、页码等详细信息),这对于研究者来说极为便利实用。同时,“中华经典古籍库”还有读者反馈和在线客服,提供了便利的反馈渠道,便于使用者及时咨询,也便于数据库开发方及时发现问题。

在拓展功能方面,“中华经典古籍库”所在的“籍合网”平台还有纪年换算、自动标点、文字识别等工具。这些功能非常实用,进一步增加了数据库使用的便利性,也无疑提升了用户体验。以自动标点为例,“籍合网”的“自动标点”的准确率可达97%以上,研究者只需将主要精力放在个别错误标注处的修正上即可。“自动标点”已成为古籍整理者的得力助手,“自动标点的初加工+专家的仔细审核把关”将成为古籍整理的一种新通行方式。此外,“中华经典古籍库”中还有一种强大的拓展功能,即其古籍图书资源均已经研究者权威、深度整理,其标点、断句、分段、注、疏、眉批、专名、注释、系年、考证等研究成果可以直接促进中国古代文史教学与研究,可供师生借鉴、整理、汇总以往的古籍整理成果,展开进一步的科研工作。

如何在保护自身数据安全和复制限制之间保持最佳平衡,也是数据库今后发展的一个重要问题。在复制限制方面,三大数据库为保护自身数据安全、防止大量复制数据,均有明确的复制字数限制。相对来说,“中华经典古籍库”最为宽松。

综合基本功能、特色功能、拓展功能及资料复制、引用上的极大便利性,“中华经典古籍库”一跃成为目前用户体验最好的古籍资源库。

四、整合性

数据库就所收数据而言,其实质是一个数据内网,尽管内部数据可以做到足够大,但受到技术、硬件、财力等客观因素的限制,仍仅能涵盖各个学科的有限部分。因此,只有与相关数据库优化整合、关联起来,尽可能多地组合成数据库集群,才能满足尽可能多的用户尽可能多的数据需求。这也就要求数据库必须有一个大平台作为依托,或者至少要与相关数据库组成数据库集群。

表4 三大数据库整合性对比

从表4可见,“中华经典古籍库”依托中华书局创办的“籍合网”平台,以中华书局等16家专业出版社古籍图书为核心数据,同时借助“籍合网”平台组成以“中华经典古籍库”为核心的数据集群,下辖“中华经典古籍库”“历代进士登科数据库”“中华古籍书目数据库”“历代石刻总目数据库”“晚清民国文献平台”“中华石刻数据库”“陕西文献集成数据库”“西南联大专题数据库”“中华善本古籍数据库”“历代教外涉佛文献数据库”“中华文史工具书数据库”“中华书法数据库”等26个专业数据库。[3]这些数据库中的绝大部分都是由“籍合网”提供平台和技术、由专家提供相关数据合作而完成的。这一数据库合作模式可谓各尽所长、双赢互利,具有极大的整合再生空间,专家既是数据库的设计者也是使用者,用户既是数据库的使用者也是潜在的合作者。这对于提升数据库的科研性和用户的参与度都至关重要,也是促进数据库良性、快速发展的秘密武器。显然,“中华经典古籍库”所依托的“籍合网”平台走的是一条与专家密切合作、不断生成专题研究性数据库的发展道路。

“中国基本古籍库”依托“爱如生典海数字平台”,组成以“中国基本古籍库”为核心的数据集群,下辖“中国基本古籍库”“四库系列数据库”“历代诗文集总库”“历代教育文献库”“历代行政文化库”“中国方志库”“中国谱牒库”“中国金石库”“中国丛书库”“中国类书库”“中国辞书库”“中国史学库”“中国儒学库”“中国兵学库”“中国法学库”“中国医学库”“中国艺术库”“中国俗文库”“佛教经典库”“道教经典库”“科技史料库”“敦煌文献库”“明清档案库”等23个专业数据库。显然,“中国基本古籍库”所依托的“爱如生典海数字平台”走的是一条大类别型、全涵盖式的发展道路。

“鼎秀古籍全文检索平台V2.0”,即“文心阁古籍数据库”,以其本身为平台,其实质也是一个数据库集群,下辖“四库全书”“四库存目丛书”“四库分类书”“四库禁毁书”“四部丛刊”“四部备要”“日本古典书籍库”“古本小说集成”“古本戏曲丛刊”“古今图书集成”“中国地方志”“中国地方志续集”“敦煌史料”“明清史料”“道教典籍全书”“医药汉文典籍全书”“六府典籍全书”“清代诗文汇编”“永乐大典”“明代别集丛刊”等20个专业数据库。显然,“鼎秀古籍全文检索平台”依托自身平台,走的是一条丛书型的发展道路。

总之,在数据整合性方面,三家古籍数据库各有优势与特色。相较而言,“中国基本古籍库”与“鼎秀古籍全文检索平台”偏于资料性,在规模效应上具有较大优势;而“中华经典古籍库”偏于研究性,在合作与创新上具有较大优势。

五、智能性

进入21世纪,数据库建设取得了长足的发展,无论是数据的丰富性,还是检索技术的便利性,都让人叹为观止。在此基础上,使用者对数据库的智能性要求渐增。所谓人工智能性的要求,其实就是希望从数据库提升到知识库,即“由数字化向数据化即知识库的转变”,甚至明确提出构建“中国古典知识库”的建议:“数字化和数据化的最大区别是,前者仅可提供简单的字词检索,后者则具结构化、关联性,可自动进行知识再生。辅之以相应的工具,借助此前中外一切中国古典学的研究成果,在保障古籍文献内容完整性及内部逻辑性的基础上突破文献原有结构,周密地设定主题词表,专业地提取各种实体,如年代、地域、人物、事件等,构建实体的相关属性及不同实体间的关系,通过这些实体及相互关系对文献进行深层组织和知识管理。”[4]

因此,知识库是数据库的高级版,即在原有数据资源的基础上进行大规模的数据调取与分析,以满足用户更多研究性的综合需求。以笔者研究对象“张溥”为例,在目前三大古籍全文数据库,可以全文检索到有关“张溥”的史传、笔记、诗文、年谱、注释等。但作为研究者,我们更希望通过综合检索后获得张溥的生平(包括史传、年谱、行踪等)、作品(包括他人评点、交游唱和等)、社会关系(包括家庭关系、社会交游、学术师承等),并希望以较好的方式呈现出来。从技术角度来说,建立知识库的技术难度并不大,主要是标注的工作量较大,同时根据用户个性化的需求进行合理的检索设置。

目前已有一些数据库逐步发展为这种知识库型的数据库。如由美国哈佛大学费正清中国研究中心、中国台湾“中研院”历史语言研究所与北京大学中国古代史研究中心共建的“中国历代人物传记资料库”(CBDB),利用其数据可做四种数据分析:地理空间分析(Geospatial Analysis)、社会网络分析(Social Network Analysis)、群体研究统计分析(Prosopographical Analysis, Statistical Analysis)、文本分析和标记(Textual Analysis and Markup)。[5]又如浙江大学徐永明教授及其团队打造的“智慧古籍平台”,作为人机交互式智慧数据共享平台,借鉴知识图谱理念,综合运用大数据技术,将中国古典文献和研究成果图谱化、智能化。[6]

这些文史专业数据库的新发展及所取得的新成就,值得三大古籍全文数据库在智能性方面借鉴参考。从这个角度来看,三大古籍全文数据库正在数据容量扩展的路上蓬勃前进,而如何整合现有数据资源,顺势提升为知识库,则或是三大古籍全文数据库未来发展方向的首要选择。

最后,需要强调的是,正如张岂之先生所指出的:“对于从事人文和社会科学教学和研究的教师,不但需要提高自己的人文素养,而且应通过适当的方式加强对科学技术的认识。”[7]积极关注并充分使用各类数据库,正是当下文史研究者秉持“人文精神与科学精神的高度统一”理念、切实推进相关研究的有效科学技能。


Comparison of Use Experience of Three Ancient Books Full-text Databases

Lu Yanjun

Abstract: The Chinese Basic Ancient Book Database, the Dingxiu Ancient Book Fulltext Search, and the Chinese Classic Ancient Book Database have become three essential ancient book full-text resource databases for the research and teaching of Chinese literature and history, each with its own characteristics and advantages, complementing each other, forming a tripartite balance. From the perspective of users, the main factors that measure the advantages of databases are large capacity, accuracy, convenience, integration, and intelligence. Database developers should pay close attention to user needs and continuously expand and improve existing databases to seek long-term development.

Keywords: Full-text Database of Ancient Books; Main Performance; User’s Experience


(编辑:许可)

注释:

[1]荀况撰,楼宇烈注:《荀子新注》,北京:中华书局,2018年,第4页。

[2]中国古籍总目编纂委员会编:《中国古籍总目·经部·前言》,北京:中华书局,2012年,第3页。

[3]数据截止2022年10月31日。

[4]张蕾:《全国人大代表:呼吁构建“中国古典知识库”》,《北京日报》2020年5月28日,第9版。

[5]佚名:《玩不转大数据?历史学家来教你|CDBD的故事》,https://www.sohu.com/a/131820815_312708?qqpf-to=pcqq.group,2017年4月3日。

[6]佚名:《重磅上线!浙大“智慧古籍平台”开启古籍阅读新模式》,https://3g.163.com/local/article/GOJL1T8V04379D64.html,2021年11月12日。

[7]张岂之:《我理解的人文教育观》,陈战峰、夏绍熙编:《张岂之教授论学书信选》,南京:江苏人民出版社,2017年,第345页。

zh_CNChinese