徐永明 韩玉凤

受访人简介: 徐永明,浙江大学人文学院教授、博士生导师。浙江文献集成编纂中心办公室主任,浙江大学经济与文化研究中心主任。浙江大学“大数据+学术地图创新团队”“学术地图发布平台”(amap.zju.edu.cn)“智慧古籍平台”(https://csab.zju.edu.cn)负责人,明代文学学会(筹)副会长、浙江省政协应用智库成员、哈佛大学“中国历代人物传记资料库”(CBDB)专委会委员。先后任哈佛大学东亚语言文明系、哈佛大学燕京学社访问学者。撰写、整理和编纂了《元代至明初婺州作家群研究》《文臣之首——宋濂传》《宋濂年谱》《明人别集经眼叙录》(合著)、《浙江文献要目》(副主编)、《中国古代戏曲考信与传播研究》《陶宗仪集》(1/2)、《郑元祐集》《胡奎诗集》《乌斯道集》《陶宗仪集》《英语世界的汤显祖研究论著选译》(主编)、《方国珍史料集》《清代浙江集部总目》《美国哈佛大学哈佛燕京图书馆藏明清善本总集丛刊》《美国哈佛大学哈佛燕京图书馆藏清代善本别集丛刊》《美国哈佛大学哈佛燕京图书馆藏丛部善本汇刊》《美国哈佛大学哈佛燕京图书馆藏子部善本文献丛刊》《稀见明代戏曲丛刊》(副主编)等。承担国家社科基金后期资助项目《清代浙江集部总目》、国家社科基金重点项目《浙江古代现存著述总目》及国家社科基金重大项目“明代文学智慧大数据及平台建设”。

采访人简介: 韩玉凤,清华大学人文学院博士研究生

访谈地点: 浙江大学紫金港人文学院大楼1001室

访谈时间: 2021年8月24日

问: 您的研究从古典文献转到数字人文,成为国内最早接触数字人文的学者之一,最初是怎么想到从事数字人文研究工作的呢?

答: 我硕士毕业后到浙江图书馆古籍部工作,主要分管古籍善本的管理和借阅。在善本库,我发现读者来看古籍善本有很多不便,如只能抄录,复制的话要领导批示,且费用很贵。那时候古籍的数字化刚刚开始,数据的存储主要是靠软盘和光盘。在图书馆期间,我学会了打字,并开始关注古籍的数字化情况。我博士毕业时,已经出现了全文检索的《四库全书》软件,但博士论文没有用上。在复旦大学读博士后期间,网友分享了大量超星格式的数字化古籍,我将其刻成光盘,数量达数百张。到浙江大学工作后,承担了“浙江文献总目”中“集部著述”的目录编纂,这个项目迫使我去学习数据库的知识。因为条目的查重和文本的编辑工作,如果不用数据库的话,效率是极其低下的。我一方面向擅此技术的同行请教,一方面也去网上学习Access数据库的知识。 Access对我后来理解哈佛大学CBDB数据库很有帮助,因为CBDB开始的时候主要是用Access存储的。

我2007年有了去哈佛大学访学的机会,联系导师包弼德教授正在主持CBDB和CHGIS项目,我由此知道了数字人文(Digital Humanities)的概念。 2008年至2009年,作为哈佛大学燕京学社的访问学者,我又在哈佛大学待了一年,期间旁听了包弼德教授的硕博生课程,参加了他的团队的一些工作坊,对其项目有了进一步的了解。不过,那时候的兴趣主要在海外的汉学,对数字人文技术,并没有花太多的精力。 2014至2015年,本人再度访问哈佛大学。这时,经过多年建设的CBDB已展示出强大的检索功能和可视化效果,而哈佛大学的WorldMap也显示出“气吞万里如虎”的数据汇集能力,我这才下决心学习相关的技术,如ArcGIS和Gephi等。除了向CBDB团队的成员如王宏苏、徐力恒等请教外,我还去地理信息中心听课,学会了Arcgis、 QGIS等软件的基本操作。

回国后,我希望建一个类似WorldMap的发布平台,但找不到投资人。后来在南京大学举办的一次数字人文会议上,我跟包弼德教授表达了合作共建的想法,他非常支持,提出由他们牵头去联系哈佛大学的地理信息中心,恰好浙江大学领导要出访哈佛,希望在人文方面有所合作,因此各方一拍即合。 2017年10月,在包弼德教授的牵线之下,浙江大学与哈佛大学的地理分析中心签订了共建“学术地图发布平台”(AMAP)的协议,平台于2018年3月29日正式上线。

问: 听您介绍,您学习数字人文技术主要是在哈佛CBDB团队吗?您当时学习技术是否遇到了一些困难?有没有具体的解决思路、方法或经验可以跟大家分享一下?

答: 应该说数据库知识我主要是向国内学者学习,包括目录如何导入到数据库等,我自己也专门去网上学习Access数据库课程。另外,也在线上跟很多朋友交流学习,并搜集电子书资源。

困难肯定有,遇到困难一定要向别人请教,而且一定不要怕麻烦,我有时候就从杭州跑到上海去跟人家当面请教,不要因为距离问题而放弃学习的机会。另外,还要看相关的书籍或视频。譬如,我在哈佛的时候已经听说了Python这一流行的语言,看到个别留学生用Python下载电子资源。在哈佛的时候,我还没下决心学习。回国后,哈佛有位学者来浙大参加会议,他知道我在学正则表达式,跟我说:“你既然学了正则表达式,再学Python就不难了。”我于是购买了Python的书籍,学习其语法。学了之后发现Python原理并不难,其难度在于编程思维的转换和自己写代码解决实际的问题。后来,我又请计算机专业的同学专门来指导我学习Python。目前,我能根据计算机专业的同学给的代码来处理图片的切分、索引的编纂、目录的比对等,解决了很多我实际工作中存在的问题。

问: 您做“学术地图发布平台”现在看来已经非常成功了,大家接受度很高,有六十多个国家和地区的读者访问,您能谈谈前期在做这个项目的时候遇到的一些困境吗

答: 困境肯定存在。首先是平台没有专职的技术人员。“学术地图发布平台” AMAP是浙江大学社科院与哈佛大学地理分析中心共建的,即AMAP的底层框架是在哈佛大学WorldMap的底层框架基础上加以改造而成的,其技术改造和维护,主要是浙大地科学院GIS团队的老师和学生。学校没有为这个平台配备专职的技术人员,而哈佛的WorldMap是由哈佛大学地理分析中心开发和运营的,有多位专职的技术人员。三年的合作中,出现了太多的bug,这些bug都是我在数据测试和使用中发现的,我要不断向浙大地科学院团队的老师和学生反映,商量如何解决这些bug。此外,还要向哈佛大学那边的技术员反映,因为有些问题需要他们来解决。由于12个小时的时差,常常是深夜里与哈佛那边沟通。三年下来,与GIS团队的老师、学生及哈佛大学那边的沟通短信和邮件,估计都可出一本书了。

其次是经费。学校虽然提供一点经费,但这经费主要用于平台的开发、双方的合作、专家的咨询及国际会议的举办上,而数据建设经费是极其有限的。数据主要是靠上课的作业、暑期的社会实践及个人的奉献来建设的。数据建设、平台的维护及暑期社会实践培训,耗去了我大量的时间和精力。现在“学术地图发布平台”已经有1,600多幅地图, 3,700多个图层, 500多万条数据,约5,000万字的容量。目前已经有六十多个国家的用户来访问,访问量在浙大一千多个网站里排名前二十,暑期排名第一。

问:“学术地图发布平台”目前是公益的,今后有商业化的打算吗?

答:“学术地图发布平台”如要可持续发展,必须要商业化。就像哈佛大学的CBDB,经过十几年的建设后,他们现在与中国的上市公司中文在线合作,这样, CBDB就不用太为经费问题担心了。现在也有公司来找我,希望将“学术地图发布平台”商业化。但AMAP商业化,一是要有资金投入,对其进行进一步改造,譬如增加收费系统等。二是要得到学校政策上的支持。这个待过些时候再说。

问:“学术地图发布平台”未来在内容建设上有什么规划吗?

答:“学术地图发布平台”是结构化的地理信息数据库。平台除了发布个体的人物行迹外,还可以发布群体的分布图、密度图等。

在人物行迹方面,平台目前有500余人的行迹,相对于中国历代数十万的名人来说,这个数据只是一个零头。因此,名人行迹图的建设任重道远。二是群体数据建设,包括历代人物的分布、历代诗歌的定位、历代名人故居、墓地及文化遗存的分布,也是一个需要长期建设的浩大工程。

由于地方志是准结构化的数据,我们希望将中国古代的方志信息建成结构化的数据发布在平台上,但中国古代方志的体量很大,我们每年都是通过暑期社会实践活动来建设方志的数据。

问:“学术地图发布平台”的内容建设,过去有哪些与地方合作的项目?

答: 过去三年,我们与地方的合作,主要局限于浙江省。譬如,我们与省文旅厅合作,承担了“诗路文化”的数据建设。与萧山区委党史和地方志编纂研究室合作,建设了萧山古代方志的地理信息数据。与绍兴市水利局合作,建设了“浙江禹迹图”。与杭州市文史研究馆合作,建设了杭州名人地理信息数据。与杭州市发改委合作,建设了杭州多部古代方志的数据。

问: 您于 2020年申请到国家社科基金重大项目“明代文学智慧大数据及平台建设”,这是您在数字人文领域的又一重大实践,能否请您谈谈这个项目的具体定位和进展情况?

答:“学术地图发布平台”是结构化的地理信息数据,由于数据能在地图上定位,给人以直观明了的可视化效果,因此受到了广大读者的欢迎。但结构化数据也有缺点,一是数据碎片化,二是不能与文本进行较好的关联。要克服这些问题,必然要向智慧数据的方向发展。“明代文学智慧大数据及平台建设”是我在智慧化数据建设方面的实践。

平台经过一年的建设,已于2021年11月上线,取名“智慧古籍平台”,现阶段平台主要围绕明代文学文献进行校点和标引。上传的文献要经过智能OCR识别、机器标点、众包校对、机器标引等环节,最后发布出来,供读者检索和阅读。其主要的功能:一是图文对照,二是全文检索,三是标引的文本关联着工具书,四是文本中的地点可以在地图上定位,五是古代的纪年可以换算成公元纪年,六是人物有世系图和社会网络关系图等。目前已上传了20多部明代的别集,这些别集都是通过众包校对、众包标引完成的。也就是说,一部书的校点和标引,是由分布在全国各地的线上整理人员在线共同完成的。这一方式改变了传统的古籍整理模式,即由个体作业的模式变为集体线上作业的众包模式,大大加快了古籍整理的速度。

我们希望通过这个平台,快速推进明代文学文献的整理,同时在有余力的情况下,也能将其他部类、其他时段的古籍在线上整理发布。

问: 您这个项目做成之后,未来面向的受众是怎样的?

答: 由于平台上的古籍关联着词语、人物、职官等工具书,因此会大大减少读者阅读古籍的障碍。目前平台提供的古籍是繁体字本,今后会推出简体字本,希望平台的文献不仅能供专业的研究者阅读,而且在文化普及方面也能起到作用。平台上线三个多月以来,已有二十多个国家数万读者访问。报名参与众包校对和标引的人员己有二百五十余位。

问: 您能谈谈目前标引工作的具体内容吗?

答: 标引包括机器标引和人工标引。机器主要对地名、职官等实体进行标引。词语的标引,目前主要是靠人工。词语本来也是可以用机器标引的,但词典里的词语没有进行难易分级,如果用词典去标引,会发现所有容易和难的词语都给标出来了,这没什么必要。一篇文章,我们只要标出偏僻难懂的词语即可。当然,以后我们会对词典进行分级筛选,这部分工作完成后,就可以用机器来标引了。一篇文章,如果经过了标引,那标引的词语就会关联工具书库、地图等。

问: 您与产业界合作来建设“智慧古籍平台”,是怎样沟通的?有没有遇到什么问题?

答: 与我们合作的是一家图数据公司,他们有图数据库的专利。按照学校的财务规定,我们走了招标的流程。

因为是招标,我们有详细的设计需求。我们团队的成员,有来自计算机专业的,他们将我的需求转化成程序员可以理解的设计语言,然后交给公司。当然,在项目的实施过程中,我们与公司会有磨合和沟通的过程。这个沟通和磨合,主要是通过线上和线下两种途径进行的。线上,主要是建群讨论。线下,主要是面对面开会讨论,一般两周一次。由于公司就在浙大紫金港校区附近,平时要么是他们过来,要么是我直接到他们公司去。总的来说,双方的合作还是较为顺利的。公司主要是嫌我们给的经费少。在我们搞文科的人看来, 45万的合同价已相当高了。因为除了公司的开发经费外,我们还要支付服务器、其他子课题负责人的费用。

问:“智慧古籍平台”已上线,那接下来第二期会有哪些待开发的功能?

答: 第二期建设三个月,主要解决的问题,一是将阿里智能OCR服务引入到平台。二是增加地域导览,即发布的文献,能按现在的行政区域进行查询。三是进一步优化社会关系网络图谱等。

问: 您已经连续多年给研究生开设“元明清文学文献检索”课程,并在课上教授数字人文软件的使用,可以说是数字人文教学的先行者,当初是怎么想到要教学生使用这些工具的?在您的教学过程中有哪些经验?

答: 数字人文肯定要使用数字人文工具。我自己首先有检索的需求,体验到工具的好处,我几乎每天都使用,大大提高了我的工作效率,例如EmEditor,只要需要查资料,我马上就到自己的TXT文件里面去搜索一遍,不管是书目还是词条,如果再加上正则表达式速度会更快。又如Excel里的Vlookup,对于批量匹配非常有用。 QGIS能够制作数据地图。 Python几乎无所不能,现在的年轻人一定要学会。课程结束后,我都会布置作业,让学生提交数据,或发布在“学术地图发布平台”,或发布在“智慧古籍平台”。

问: 自2018年起,您每年都在线上开设“学术地图发布平台”暑期实践工作坊,亲自指导来自全国各地的学员学习和实践数字人文,这跟您面对面授课很不同。能谈谈您在这方面的经验吗?

答: 这确实不同,因为可以录屏,学生可以反复观看,不过基本上通过两个小时的演示,学生都能学会QGIS这个制图软件。去年暑期社会实践,共有四百余人线上报名。社会实践活动的要求是,每人提交两份作业,一份分布图,一份行迹图。

问: 数字人文发展到现在,大家都有目共睹,虽然炙手可热,但也确实有一些局限,您能谈谈国内数字人文发展目前的局限和问题主要在哪里吗?

答: 从政策层面来说,现在从事数字人文工作的主要分为两拨,一拨是计算机或者图书馆领域的人,一拨是我们人文学者。计算机行业的人在高校主要是图书情报或者信息管理这一块,他们搞数字人文好像更加名正言顺。我们人文这边则不同,如果用数字人文的方法来写学位论文是要被毙掉的,这点对数字人文发展起阻碍作用。教育部没有设置数字人文学科,但真正的数字人文要做好、做深的话,一定是从人文的角度出发,这可能是教育层面要解决的问题。

另外,现在提倡新文科建设,数字人文作为新文科之一,真的需要实验室,但现在满足这个条件还很难,像我们都是线上沟通,大家各自在家里把事情做好。数字人文工作最好有工科背景和人文背景的人在一起交流。

还有一点就是在课程设置方面,我们目前缺少统一的教材,当然不同学科背景的人来写教材侧重点肯定不同,目前还没有人文背景的学者编写的教材。

问: 教材确实是个问题,您觉得如果要真正把数字人文做好,除了教材还需要什么?

答: 数字人文一方面要能解决学术的问题,如线上的古籍整理。如《全明诗》《全明文》,如果按传统的方法,我这辈子是不可能看到这两个项目完成的,但如果用众包的方式,或许还能看到。

学术研究要对社会有用,不然的话,只能局限在象牙塔里,很难走向社会。利用数字人文技术和平台,就能使高冷的学术更加接地气,“飞入寻常百姓家”,更好地传承文化,传播文明。

问: 您对数字人文有什么展望或者期待?

答: 纸本文献,包括出土文物都需要数字化,数字化之后再结构化,结构化之后再智慧化,最后是人机互动,这是大势所趋。要意识到现在是一个数据为王的时代,数据是无形的资产。但数据的建设是一个很漫长的过程,尤其是结构化数据建设。我们国家需要投入大量人力、物力、财力来建设文本以及图像数据库。对于现在的学者来说,除了要掌握传统知识分子倡导的“义理”“考据”“辞章”,还要掌握“算法”,形成四位一体。

我们要做的事情还很多,而且需要全社会都来做,我们希望通过自己平台的建设先行一步,当然先行有风险,甚至有可能做出牺牲,因为不一定能得到教育评估体系的认可。虽然可能会失去很多,但我们做的事情是对社会有益的,未来会有价值。无论从社会效益还是国家话语权来说,(数字人文)意义都十分重大。我们不建的话,西方国家就利用我们的数据去建,这里就涉及到话语权的问题。另外,(数字人文平台建设)对于扫除阅读障碍,传承传统文化也很有帮助。我们现在做的事情相当于把最古老的东西跟最先进的计算机技术结合,这是一个很伟大的实验,也是很有意义的事业。

(编辑:严程)

zh_CNChinese