数字人文视域的古典文学研究回顾

作者:毛建军 / 兴义民族师范学院(马来西亚新纪元大学学院)

古典文学与文献  

毛建军 / 兴义民族师范学院(马来西亚新纪元大学学院)


摘 要:信息技术辅助古典文学研究已在文献计量分析、计算机辅助唐宋诗词研究、GIS技术与古典文学研究等方面取得了较为成熟的应用和实践。随着数字人文的快速发展,古籍数字人文平台也被广泛运用到古典文学研究之中。古籍数字人文平台利用文本挖掘、社会网络分析、数据可视化、历史地理信息系统等功能可以发掘大量文史资料内部隐含的关系和网络,帮助人文学者从文本中发现新事证。

关键词 信息技术 数字人文 古典文学


信息技术辅助古典文学研究是近30年来,尤其是数字人文兴起之后的新研究议题。自1990年代开始,各典藏机构和研究机构在积极推动古籍数字化资源建设的同时,更将古籍数字化定位为促进知识发现和人文研究深化的发展方向,一方面致力于古籍数据库基础平台建设,另一方面也大力鼓励古籍数字资源与技术在人文社会科学领域的应用和创新,其目的在于帮助研究者对大量古籍数字资源进行关联性探索和多重人文脉络分析。尤其是“数字人文”概念提出以来,古典文学研究领域从不同的思维与视角重新审视古籍数字资源与技术,不断发现新材料、新议题和新方法,并进一步孕育出新型态的古籍数字人文平台和古籍数字人文研究。

一、计量分析与古代文学研究

以计量的方式来分析研究文献,一般称之为文献计量学,可以追溯到1960—1970年代欧美兴起的计量史学(Cliometrics)。文献计量学由A.普里查德(Alan Pritchard)于1969年提出。文献计量分析主要应用于大规模资料的统计和运算,以及关键词的检索与查找,可进行信息检索、学术评鉴、现象评鉴等方面的研究。早在1960年代,威斯康星大学的周策纵就已开始鼓励学生采用计算机来研究文学。[1]1970年周策纵教授指导陈炳藻的博士论文《计算机红学:论〈红楼梦〉作者》(The Authorship of the Dream of the Red Chamber: A Computerized Statistical Study of Its Vocabulary),开始用计算机统计法分析《红楼梦》前80回与后40回用字的差异,以判断作者相关问题。1983年秋,彭昆仑担任课题负责人的江苏省“《红楼梦》电脑处理”课题启动。此后,陈炳藻、陈大康、刘颖、肖天久等利用聚类分析法、ITC算法、KNN算法、SVM方法、ICTCLAS汉语词法分析、N元文法分析等方法,对《红楼梦》中的语法结构、时间关系、言语特征、艺术风格等方面进行了科学探讨。

1990年代,王兆鹏将古代文学引入计量分析,发表了一系列关于唐宋诗词的“定量分析”研究论文,如《历史的选择──宋代词人历史地位的定量分析》(《文学遗产》1995年)、《简谈宋词繁荣昌盛的“量化”标志》(《古典文学知识》1996年)、《本世纪东坡词研究的定量分析──词学研究定量分析之一》(《文学遗产》1999年)等,直至2011年,仍然继续践行计量分析的方法,通过对唐诗选本、评点资料以及网络链接的唐诗数据进行统计分析,推出了《唐诗排行榜》《宋词排行榜》两部著作。张三夕、张世敏等指出,古代文学引入计量分析的重要意义体现在:“计量分析法能够提高古代文学研究分析过程与结论的精确性;运用计量分析法得出的结论具有稳定性和可验证性的特点;计量分析法能够为古代文学研究提供更加宏观的视野。”[2]

随着信息技术和数据库技术迅猛发展,借助计算机和古籍数据库进行文献计量分析会更加精准和高效。尚永亮谈到他与王兆鹏在利用计量分析进行古代文学研究时说,“我们分别利用自己建构的唐诗数据库和宋词数据库,对唐宋诗词的数量、作者人数及其在不同时段的变化,对作者的地域分布、层级分布、代群发展及交往诗创作等相关情形,制成若干图表,予以量化统计和分析,得出了一些不同于前人的结论,或者使原有成说得到更为有力的数据支撑”。[3]数据是证据的延伸和扩大,文献计量分析可以为学术研究提供更具科学性、客观性和准确性的理论依据。依照词频统计所做的研究,不只可以用于文学风格分析,还有可能进一步发现新议题。每个人写作(或发言)时所使用的词汇,不只是写作风格的差异,也反映着每个人思考的倾向和方式。从这个角度来看来,借着写作风格分析,其实也是在捕捉思考的风格。[4]林淑慧利用“台湾历史数位图书馆”(THDL)系统性分类数据的特性(档案年代、出处、词频详列的功能)和强大的词频分析功能成功分析出台湾清治前期采风诗文作者的书写策略。[5]廖学盈以数字工具量化分析探勘《诗经》的语言风格,捕捉选词用字的节奏型式,重新描述兴体诗的语言特征,可以说是《诗经》兴体诗的实验性基础释读。[6]古籍数据库的突出特点是庞大的数据和便捷的管理,数字人文时代古代文学研究应充分发挥古籍数据库的强大功能。

随着信息网络科技的突飞猛进,古籍数字化资源成海量增长,大量古籍文献数据于弹指间即可获取,甚至可以进行全文检索和数据分析。相对于前辈学者须经过长年苦读和博学强记,现今文史研究环境已经历革命般的改变。海量古籍数字化资源给文史研究带来巨大变化,台湾清华大学黄一农教授甚至提出“E-考据”的概念。黄一农教授说“随着出版业的蓬勃以及图书馆的现代化,再加上网际网路和电子资料库的普及……我们有机会在很短时间内就掌握前人未曾寓目的材料,并填补探索历史细节时的许多隙缝,或透过逻辑推理的布局,迅速论断先前待考的疑惑或矛盾。事实上,一个有机会孕育‘E-考据学派’的时代或已出现!”[7]黄一农教授的著作《两头蛇——明末清初的第一代天主教徒》在研究过程中,充分利用网络和电子数据库,查找到了很多与群体、家族相关的第一手资料,是著博采穷搜各种原始资料和近代著述,引用资料达1,099种之多。可以说,没有网络和电子数据库无法充分表现历史视野的辽阔和文献诠释的深度。古籍数字化资源既是古代文学研究方法的一大辅助,也是使古代文学研究更具客观性和准确性的重要途径。

二、计算机辅助唐宋诗词研究

随着信息技术的发展,很多学术领域都引用信息技术作为研究的辅助工具。中国文学领域与信息技术交叉学科研究的起步比较晚,这是因为相对于自然科学而言,文学的主观成分居多,其中尤以诗词为最。因此,结合文学与信息技术,建立一个接近人类知识体系的诗词语言知识库,开创新的文学研究方法与研究议题,已经成为时代的必然趋势。利用计算机辅助唐宋诗研究就是这样一个全新的领域。[8]对这一领域探索的杰出成果当属北京大学计算语言学研究所开发的“唐宋诗计算机辅助研究系统”和台湾元智大学罗凤珠先生开发建置的“唐宋诗词格律自动检测系统”。

唐宋诗计算机辅助研究是北大计算语言学研究所的一个长期项目。北京大学计算语言学研究所1998年承担了国家社科基金项目“古诗计算机辅助研究系统及其应用”(98BYY022),2000年项目最终成果“唐宋诗计算机辅助研究系统”通过相关部门鉴定。“唐宋诗计算机辅助研究系统”主要取得以下几方面的突破:一、基于唐宋诗语料库的词汇自动提取研究与基于词汇的统计知识库的构建。从作者、时代等多个角度提取了相应的字频、词频等统计信息,为作者、时代的风格研究提供了数据基础。二、《唐宋诗计算机辅助研究系统》的开发及应用。该系统可提供词汇的共现、对仗以及作者特征分析等统计功能。三、基于统计的词汇语义关系的自动发现。通过统计的手段对词汇之间的语义相似性进行量化,构建了词汇近义关系网络以及基于近义关系的唐宋诗检索引擎。四、实现了汉语构词规则的自动提取。在字一级提取了21,301条构词规则,并进一步以宋代诗歌语料为对象,对所得结果的实用性进行了验证。[9]

台湾元智大学罗凤珠先生开发建置的“唐宋诗词格律自动检测系统”,首次将古诗词的自动注音功能与检索阅读系统结合在一起。系统包括“新诗改罢自长吟——唐诗吟唱虚拟实境教学环境建置计划”和“浅斟低唱——宋词古唱虚拟实境教学网站”两个独立网站平台。每个平台依网站内容分为五大区:一为“诗(词)律对韵区”,包括声律诗韵、曲谱、诗词曲典故等部分,系统提供使用者依类别检索,以作为做诗填词时应用典故的参考。二为“诗(词)吟唱区”,包括洪泽南老师的吟读教学及传统八音再现两部分,供使用者在线学习。三为“诗(词)·意·象图库区”,包含“诗(词)·意·象图库”及“诗(词)·意·象情境卡”,旨在将内心之情与外物之景,配合诗文,传达言有尽而意无穷的情感。四为“全文数据区”,提供“全唐诗全文数据库”“唐宋词全文数据库”全文检索。五为“教学区”,内容包含阅读唐诗宋词的入门百科以及在线教唱部分。

三、GIS技术与古典文学研究

地理信息系统(Geo-Information System,简称GIS)是一个由计算机硬件、软件、地理数据及人员组织所形成的,能有效撷取、储存更新、管理、分析及展示所有形式的地理数据系统。地理信息应用发展与历史地图数字化更易产生特别的连结。大量历史地图被数字化,使得地理信息在人文社会领域有更广泛的发展。历史地理信息系统(Historical GIS,简称HGIS)与人文社会研究关系密切。“一张简略的老地图,或许没有精确的坐标,或许数据非常精简,但是对于人文社会研究而言,却可以反映许多意象,呈现环境变迁的时空关系。”[10]通过HGIS可以分析历史特定人地事物的分布、演变及消长。比如历史小说中事件发生地就可以通过小说内容与地理信息数据库整合比对,可以更为直观地再现历史人物和历史事件。

HGIS基础平台建设是人文史地学术研究的基础。目前国内外已开发建置有多种HGIS基础平台。复旦大学历史地理研究中心“中国历史地理信息系统”可以为研究者提供GIS数据平台、时间统计以及查寻工具和模型。中国台湾“中研院”近代史研究所“近史所档案馆馆藏中外地图查询系统”全部地图分为全国性分幅舆图、各省分幅地形图、各种水道地形图、世界地图等四大总目。台湾“中研院”人文社会科学研究中心“中华文明之时空基础架构”平台主要根据谭其骧先生主编的《中国历史地图集》以及中国国家基础地理信息中心发布的《中国数字地图》综合而成,并整合各类相关信息系统与研究成果,最终形成具备精确空间定位、整合时间与空间属性的汉学研究应用环境。台湾“中研院”人文社会科学研究中心“文化资源地理信息系统”(CRGIS)以空间为主轴概念,搭配地理信息技术,汇整各类有形、无形文化资源空间及属性数据,并搭配各类影像图资,为人文研究提供了非常便捷的地理参数。

地理环境与文学发展关系密切。那么,古典文学研究中引入GIS技术可以拓展哪些新的研究视野呢?郑永晓认为,在古典文学研究中引入GIS,至少可以协助解决如下问题:历代作家的地域分布、迁徙与消长;作家群体的分布与嬗变;家族与文学的演变;具体作家创作情况及其作品分布;作家文集的流布、刊刻;文学事件、作家活动与文学史编年;作家年谱的编纂等。[11]目前,历史GIS与古典文学研究依旧处于探索阶段。

王兆鹏主持的“唐宋文学编年系地信息平台建设”(12&ZD154)获2012年国家社科基金重大攻关项目(第三批)立项。“唐宋文学编年系地信息平台”类似于一个海量信息库,并且将打破时间对文学史的垄断,创造性地引入“系地”这一概念,利用GIS技术将唐宋时期的作家作品按照时空序列完整地在地图上呈现。据王兆鹏教授介绍,已有的文学编年史注重作家活动和作品创作的时间,而忽略作家活动和作品创作的地理空间,文学研究富有时间感却缺乏空间感。因此,建成后的“唐宋文学编年系地信息平台”将具有资料查询、数据统计、地图生成等功能。[12]

台湾元智大学罗凤珠建置的“唐宋诗词作者及作品分布地理信息系统”是一个较为成熟的中国文学、文化与地理关系研究平台。该系统以已有的唐宋诗词作品及作者数据库为基础数据,引用GIS技术及其它信息工具,并最终建置成一个能够展示唐宋诗词作者及作品分布与变迁的数字地图。[13]“唐宋诗词作者及作品分布地理信息系统”由“唐宋诗词作品”“唐宋诗词作者资料”“行政地名数据库”三大数据库和“地理信息系统平台”组成。“地理信息系统平台”提供“唐宋诗词作品”“唐宋诗词作者资料”与“行政地名数据库”GIS整合查询。三者与GIS系统作融合、查询的同时,可获得作品、作者与地理信息间彼此的对应关系。

近年来,利用GIS技术实现文学数据可视化(Data Visualization)逐渐受到重视。数据可视化是指运用视觉的方式呈现数据,有效的图像可以将繁杂的数据简化成为易于吸收的内容。北京师范大学互联网教育智能技术及应用国家工程研究中心建置的“唐诗别苑——基于知识图谱的全唐诗语义检索与可视化平台”是一个基于知识图谱的全唐诗语义检索与可视化平台,具有强大的语义检索功能和数据可视化功能。该平台能够查询诗人信息或作品;诗人交友状况;诗歌地点、风格、主题、题材、意象、教学阶段等信息;动态的诗人社交网络;作品地域热点图;诗人知识图谱等。

四、数字人文平台与古典文学研究

随着数字人文的蓬勃发展,近年来,古籍数字人文平台建设取得丰硕成果。古籍数字人文平台已成为古籍数字化领域的发展主流。按照平台主要功能,古籍数字人文平台可分为古籍目录数字人文平台、古籍数字人文分析平台和古籍数字人文开放研究平台。

古籍目录数字人文平台具有强大的书目聚类分析功能、责任者相关性分析功能、内容分析统计功能、时空及社会关系分析功能、可视化功能以及交流研习分析功能,实现了向研究者提供版本循证、考镜流藏的目录学价值与功用。古籍目录数字人文平台代表性成果主要有“中国历代典籍总目分析系统”“中文古籍联合目录及循证平台”“古典目录导航系统”等。

古籍数字人文分析平台是在古籍电子文献基础之上增加数字人文分析功能重新建置的数据平台。古籍数字人文分析平台不仅具有古籍电子文献的主要功能(浏览、检索、链接等),还增加了自动标记、文本挖掘、历史地理信息分析、社会网络分析等功能。古籍数字人文分析平台代表性成果主要有“汉籍电子文献资料库”“通用型古籍数位人文研究平台”“中国历代人物传记资料库”等。

古籍数字人文开放研究平台是基于古籍文献导入社群参与概念的开放性平台,并导入信息检索、文本挖掘、社会网络分析、可视化、历史地理信息系统等功能,让人文学者实现具体实践进行数字人文跨领域研究。古籍数字人文开放研究平台秉持开放、自由、自主的理念,以学术服务为目的,提供人文研究的数字科技协作,其典型特征主要表现在开放性、共享性、参与性和数据无限延展性等方面。古籍数字人文开放研究平台代表性成果主要有“中文在线引得数字人文资源平台”“上海图书馆开放数据平台”“DocuSky数位人文学术研究平台”等。

表1 古籍数字人文平台一览表

古籍数字人文平台利用文本挖掘、社会网络分析、可视化、历史地理信息系统等功能可以发掘大量文史资料内部隐含的关系和网络,帮助人文学者从文本中发掘新事证。杜协昌利用元智大学“《红楼梦》电子系统”以“文本挖掘”作为分析工具,先计算出可能有用的候选字词,然后再利用前后缀词工具来观察这些字词在前80回与后40回的使用频率上的差异。实验结果支持《红楼梦》后40回作者并非曹雪芹的论点,[14]运用数字和词汇分析“赋予了《红楼梦》以无声透露着的意义,而寻找意义正是人文学研究的核心所在”。[15]严程使用可视化工具展示以《魏其武安侯列传》为代表的史传文章,以王安忆《天香》为代表的长篇家族志小说以及以阎连科《四书》为代表的平行结构多视角模糊叙事文本等作品的叙事结构,以期在传统叙述学“叙事单元”划分的基础上,进一步呈现叙事单元在时空坐标中的位置及其相互关系。[16]徐永明、唐云芝通过对《全元诗》作者历史地理分布的考察,对有元一代诗作者分布的地域特色进行了精确的数据分析,并利用GIS软件将《全元诗》作者的地理分布进行可视化呈现。[17]古籍数字人文平台还可以协助研究者找出复杂的人际网络关系。美国哈佛大学费正清中国研究中心与北京大学中国古代史研究中心等机构合作共建的“中文在线引得数字人文资源平台”通过整合分析中国古代传记、著作等古籍资源,可实现人物关系分析、地理信息分析和数据可视化分析。如依照南宋中后期进士登科的出身背景,绘制地图,发现其中有许多来自四川盆地东部的进士。又或者,以宋代中国各地的商税额绘制地图,再与北宋科举进士出身的地理分布相比较,进而探索商业与地方教育文化的关系。[18]

数字人文的快速发展必将为古典文学研究提供更多的利器。古籍数字人文与古典文学的结合,启发了许多人文学科的研究者投入到这个新兴的应用研究领域,也开拓了古典文学研究的新范畴。数字技术与人文学术的结合,也成为近年来科技界和人文学术界共同努力的目标。但我们必须清楚地认知,古典文学数字人文化可能带来的研究方法的新突破只是古典文学研究工具的变化,而古典文学研究的目标和宗旨不应也不能改变。


Review on Classical Literature Research from the Perspective of Digital Humanities

Mao Jianjun

Abstract: There are the application and practice on statistics analysis methods, research in the Tang and Song poetry and the classical literature teaching aided by computer, and GIS technology applied to the study of classical literature. With the rapid development of Digital Humanities, the Digital Humanities platform of ancient books has been widely used in the study of classical literature. The Digital Humanities platform of ancient books can explore the hidden relationships and networks in a large number of historical and cultural materials by using the functions of text mining, social network analysis, data visualization and historical geographic information system, and help humanists find new evidence from the text.

Keywords: Information Technology; Digital Humanities; Classical Literature

(编辑:邱伟云)

注释:

[1]周策纵:《红楼梦案》,香港:香港中文大学出版社,2000年,第15页。

[2]张三夕、张世敏:《古代文学研究中计量分析的应用与限度——由唐诗宋词排行榜引起的思考》,《社会科学》2013年第2期。

[3]尚永亮:《数据库、计量分析与古代文学研究的现代化进程》,《文学评论》2007年第6期。

[4]项洁编:《从保存到创造:开启数位人文研究》,台北:台湾大学出版中心,2011年,第12页。

[5]林淑慧:《台湾历史数位图书馆(THDL)于清治前期采风诗文研究的应用》,项洁编:《数位人文在历史学研究的应用》,台北:台湾大学出版中心,2011年,第137—155页。

[6]廖学盈:《〈诗经〉的量化研究:发掘兴体诗的隐藏节奏》,第七届数位典藏与数位人文国际研讨会论文,台北,2016年。

[7]黄一农:《两头蛇——明末清初的第一代天主教徒》,上海:上海古籍出版社,2006年,第2页。

[8]罗凤珠:《唐宋诗词语言知识库的建构动机与方法》,国际中国语言学学会第21届年会论文,台北,2013年6月。

[9]胡俊峰:《基于词汇语义分析的唐宋诗计算机辅助深层研究》,博士学位论文,北京大学,2001年,第1页。

[10]赖进贵、王钧慧:《地理资讯系统与数位典藏结合的回顾与展望》,《国土信息系统通讯》2011年第2期。

[11]郑永晓:《以GIS为例看信息技术在古典文学研究中的应用》,《重庆第二师范学院学报》2006年第5期。

[12]王兆鹏:《建设中国文学数字化地图平台的构想》,《文学遗产》2012年第2期。

[13]罗凤珠等:《文史地理信息网站建置与文学研究之应用》,数位典藏地理信息学术研讨会论文,台北,2009年。

[14]杜协昌:《利用文本采矿探讨〈红楼梦〉的后四十回作者争议》,项洁编:《数位人文研究与技艺》,台北:台湾大学出版中心,2014年,第93—120页。

[15]项洁、陈丽华:《数位人文——学科对话与融合的新领》,项洁编:《数位人文研究与技艺》,第10—23页。

[16]严程:《叙事结构的可视化呈现:以司马迁〈魏其武安侯列传〉和王安忆〈天香〉等为例》,数字人文:大数据时代学术前沿与探索学术研讨会论文,南京,2017年7月。

[17]徐永明、唐云芝:《〈全元诗〉作者地理分布的可视化分》,《浙江大学学报(人文社会科学版)》2019年第1期。

[18]项洁、涂丰恩:《导论——什么是数字人文》,项洁编:《从保存到创造:开启数位人文研究》,台北:台湾大学出版中心,2011年,第9—28页。

zh_CNChinese