作者: 任平 ;转自:公众号 DH数字人文
基础设施
任平 / 清华大学图书馆
———————————————-
一、图书资源
A Companion to Digital Humanities(《数字人文指南》,ISBN:9781405103213)于2004年11月由Blackwell出版社出版,由Susan Schreibman、Ray Siemens和John Unsworth编辑。本书收录由该领域学者撰写的37篇原创文章,提出了数字人文的概念。2016年1月,Wiley-Black出版其修订本:A New Companion to Digital Humanities(《 最 新 数 字 人 文 指 南 》,ISBN:9781118680599),提供数字人文学科领域最全面和最新的研究资料。2007年2月,Blackwell与Wiley出版社合并,两个出版社的出版物整合到Wiley Online Library平台提供服务。目前,这两种图书均可在Wiley Online Library平台获取全文,访问网址为https://onlinelibrary.wiley.com。(订购单位:中国国家图书馆、清华大学图书馆。本文仅列举资源的部分馆藏信息或获取途径,下同。)另外,在国际数字人文组织联盟(Alliance of Digital Humanities Organizations, ADHO)网站可免费获取A Companion to Digital Humanities的全文,访问网址为http://www.digitalhumanities.org/companion/。(开放获取资源)
《人文社会科学数字资源的建设、管理与服务》(ISBN:9787510833427)于2015年由九州出版社出版,由蒋颖、包凌等人编著。本书全面系统地论述了数字资源建设、数字资源管理、数字资源服务等相关内容,在撰写过程中借鉴并引用了该领域最新的学术成果,同时也反映了国内外数字资源管理实践的最新进展。(馆藏信息:中国国家图书馆、武汉大学图书馆)
《图书馆的数字人文实现模式研究》(ISBN:9787561093221)于2018年由辽宁大学出版社出版,作者是辽宁大学历史学院宫平。本书分八章,内容包括绪论、文献综述、图书馆的数字人文基本理论问题、图书馆的数字人文实践调查与分析、案例研究、图书馆的数字人文实现模式构建、我国图书馆的数字人文实现策略等。(馆藏信息:中国国家图书馆、清华大学图书馆)
《面向知识挖掘的平行句法语料库构建研究:数字人文视角下的史部典籍信息组织》(ISBN:9787305188114)于2019年由南京大学出版社出版,作者王东波。本书基于自然语言处理中的句子对齐、自动分词、词性标注、实体识别和短语结构识别等技术,针对《左传》《战国策》《史记》《汉书》《后汉书》《三国志》的典籍文本和对应白话文本,构建了古白平行语料库,并结合传统机器学习和深度学习的系列模型,从数字人文的视角完成了对史部典籍的知识组织。在对史部典籍知识组织的基础上,对典籍中所蕴含的类别和涵盖的相应问题进行了知识的挖掘和探究。(馆藏信息:清华大学图书馆、南京大学图书馆)
《数字人文研究》(ISBN:9787309147865)于2020年由复旦大学出版社出版,为复旦大学国家文化创新研究中心“文化创新论丛”之一,主编孟建。本书收录的21篇文章涉及“数字人文:概观与透视”“数字人文:探索与反思”“数字人文:应用与实践”“新媒体文化:阐释与实证的视角”四个部分。(馆藏信息:中国国家图书馆、清华大学图书馆)
《文化科技蓝皮书:文化科技创新发展报告(2020)》(ISBN:9787520176675)于2020年由社会科学文献出版社出版,主编李凤亮。本报告分为五篇,其中第二篇为数字人文篇,这是该报告自2013年发布以来第一次设数字人文篇。收录报告6份,分别是《数字人文与新视听时代分析报告》(花建,上海社会科学院文化产业研究中心)、《人工智能与文化产业融合发展研究》(周建新、杨玉凤,深圳大学文化产业研究院)、《我国“科技+旅游”历史、现状及未来应对策略研究》(李竞爽,中国艺术研究院文化政策研究中心)、《数字人文在博物馆观众服务大数据方面的创新研究》(李世杰、韩霈泽等,天津恒达文博科技股份有限公司)、《数字人文的历史与发展:多学科的融合与对话研究》(罗丹,中山大学哲学系[珠海])、《数字人文视阈下中华优秀传统文化的传承创新发展》(王梁宇,深圳大学文化产业研究院)。(馆藏信息:中国国家图书馆有纸本馆藏,索取号2021\G12\58;该报告同时收录于《皮书数据库》,访问网址为http://www.pishu.com.cn,订购单位:中国国家图书馆、清华大学图书馆)
二、期刊资源(含集刊)
Computers and the Humanities(《计算机与人文》,PISSN:0010-4817)于1966年在荷 兰创办,由Springer出版,2005年起更名为Language Resources and Evaluation(《语言资源与评价》,PISSN:1574-020X),为季刊。访问网址为http://link.springer.com/journal/10579/。(订购单位:清华大学图书馆、中国人民大学图书馆)
Digital Humanities Quarterly(《数字人文季刊》,ISSN:1938-4122)于2007年创刊,由国际数字人文组织联盟(Alliance of Digital Humanities Organizations, ADHO)资助和出版,是一本同行评审的开放性学术期刊,为季刊,内容涵盖人文科学数字媒体的各个方面。可在ADHO网站免费获取全文,访问网址为http://www.digitalhumanities.org/dhq/。(开放获取资源)
Literary and Linguistic Computing(《文学语言计算》,PISSN:0268-1145)由欧洲文学与语言计算协会(Association for Literary and Linguistic Computing, ALLC)于1986年创办。2015年更名为Digital scholarship in the humanities(《数字人文学刊》,PISSN:2055-7671),由欧洲数字人文协会(European Association for Digital Humanities,EADH)主办、英国牛津大学出版社出版,为同行评审的学术期刊,按季度出版。主要刊发数字人文理论、方法、实验和应用研究方面的论文报告,包括研究项目的结果,对工具、技术和方法的描述和评价,以及正在进行中的工作的报告,还刊载对书籍和资源的评论文章等。访问网址为http://dsh. oxfordjournals.org/。(订购单位:北京大学图书馆、清华大学图书馆)
《数字人文》于2020年初由清华大学和中华书局联合创办,是中国大陆正式出版的第一本数字人文学术集刊,为季刊。该刊取大人文观,即以文史哲等传统人文学科为中心,涵盖社科、艺术、教育、新闻、法学、管理等多学科,发表运用数字资源、方法和思维解决人文问题的优秀成果及相关资讯。该刊持全球视野,侧重中文世界的数字人文研究,同时关注不同语言、文化和地域的数字人文研究。期刊目录可在期刊网站(https://www.dhcn.cn/site/works/dhjournal)免费浏览,电子版全文可在中国知网获取,访问网址为https://navi.cnki.net/KNavi/JournalDetail?pcode=CJFD&pykm=SZRW。(订购单位:清华大学图书馆、北京师范大学图书馆)
《数字人文研究》是中国大陆首本数字人文领域专业学术期刊,由中国人民大学信息资源管理学院、中国人民大学书报资料中心合办,于2021年3月创刊,为季刊。该刊立足中国本土文化,兼具全球视野,发表数字人文发展与历史、理论与实践、技术与工具、教育与传播、批判与反思等多方面的研究成果。主要栏目有“学人哲思”“人文新知”“攻玉以石”“国际视窗”“教育进展”等。期刊目录可在中国人民大学数字人文研究中心网站(http://dh.ruc.edu.cn/xsqk/)免费浏览,部分电子版全文可在《中国人民大学复印报刊资料数据库》获取。(订购单位:中国人民大学图书馆、清华大学图书馆)
三、数据库资源
《中国古籍保护网》是由中国国家图书馆牵头实施“中华古籍保护计划”的成果之一。自2007年实施以来已上线以下4个数据库:(1)《中华古籍书目数据库》。该数据库是全国各古籍收藏单位通过目验原书,按照统一的古籍著录规则完成的全国古籍统一检索系统,于2014年10月开通。发布内容主要包括普查编号、索书号、题名、著者、版本、册数、存缺卷、收藏单位等。提供简单检索和高级检索界面,可检索字段有题名著者、版本、收藏单位、普查编号、索书号、批校题跋、名录编号、分类、装帧形式、所属丛书题名、子目、附注等,支持简体中文、繁体中文检索。用户通过该系统可查询古籍在全国的收藏分布情况。截至2020年11月30日,累计发布264家单位古籍普查数据825,362条、7,973,050册。(2)《中华古籍数字资源库》。该数据库整合了中国国家图书馆(国家古籍保护中心)自建和征集的古籍资源,自2016年9月上线以来已收录数据9.4万余条,目前整合的资源包括宋人文集、赵城金藏、数字古籍、数字方志、碑帖菁华、甲骨实物、甲骨拓片、西夏文献、西夏研究论著、年画撷英、前尘旧影、徽州善本家谱、云南图书馆古籍、上海图书馆家谱、天津图书馆古籍、东洋文化研究所汉籍影像库、哈佛大学善本特藏、法藏敦煌遗书、中华医药典籍资源库、中华古籍联合书目等20种,提供在线浏览、单库检索和多库检索、基本检索和高级检索,支持模糊检索。(3)《国家珍贵古籍名录数据库》。该数据库于2018年9月上线,目前已公开发布《国家珍贵古籍名录》第一批至第六批的13,026部古籍的信息。数据库支持用户按照名录编号、名录内容、名录批次、名录公布时间、文献类型、文种、分类、省份、收藏单位、索书号、题名著者、版本、批校题跋、版本年代、版本类型、是否有全文影像等字段进行检索,支持用户自行选择是否开启繁简共检功能。检索结果默认按名录编号排序。同时提供PDF格式的《国家珍贵古籍名录》原文。(4)《全国联合发布古籍数字资源》。中国国家图书馆自2017年开始先后联合首都图书馆、重庆市北碚图书馆、宁波天一阁博物馆等省市区县级公共图书馆、高等院校、科研机构、博物馆系统等30余家古籍收藏单位在线发布古籍数字资源,目前已发布古籍2万余部。该平台给出了这30余家古籍收藏单位的古籍发布平台的链接。访问网址为http://www.nlc.cn/pcab/。(开放获取资源)
《中华古籍善本国际联合书目系统》是由美国研究图书馆组织(Research Libraries Group, RLG)建立的《中文善本书国际联合目录》项目发展而来,于2010年5月上线,著录了30余家海内外图书馆所藏古籍善本,数据达2万多条,并配有1.4万余幅书影。参建馆包括中国科学院图书馆、北京大学图书馆、中国人民大学图书馆、复旦大学图书馆、天津市图书馆、辽宁省图书馆、湖北省图书馆,以及除了美国国会图书馆以外北美地区所有主要的有中文古籍善本收藏的图书馆。访问网址为http://read.nlc.cn/allSearch/searchList?searchType=62&showType=1&pageNo=1。(开放获取资源)
《中国古典文献资源导航系统(奎章阁)》由安徽大学文学院唐宸等人建立和维护,于2019年10月上线。目前,该系统已收录资源数据约530条,并设置了13个专题,各专题收录数据分别为古籍检索39条、古籍影像75条、古籍目录69条、数字人文28条、期刊论著37条、文史诗词22条、收费平台21条、小学专题39条、释道专题19条、敦煌专题7条、微信公号103条、论坛社区6条、虚拟现实62条。系统提供资源浏览和搜索功能,浏览界面可在简繁体间进行切换,搜索只支持简体。访问网址为https://www.kuizhangge.cn/。(开放获取资源)
《数字敦煌》是敦煌石窟文物的数字化资源库,汇集了敦煌石窟文物的图像、视频、三维等多种数据和文献数据,通过互联网和移动互联网面向全球共享。可按遗址名称、洞窟形制、时代进行浏览,并可进行关键词检索。提供洞窟题录信息、详细介绍及全景漫游功能。访问网址为https://www.e-dunhuang.com。(开放获取资源)
《九歌》是清华大学自然语言处理与社会人文计算实验室(THUNLP,http://nlp.csai.tsinghua.edu.cn/)研发的中文诗歌自动生成系统,是目前最好的中文诗歌生成系统之一,两次荣获中国计算语言大会最佳系统展示奖(2017,2019)和最佳论文奖(2018)。自2017年底上线以来,已录入从魏晋南北朝到近现代所能找到的90万首中国诗歌,已累计为用户创作超过1,000万首诗词。目前,九歌创作系统包括以下3个:(1)《九歌中文诗歌自动生成系统》。该系统可生成的诗词类型包括绝句(五言、七言、风格)、藏头诗、律诗、集句诗和词(归字谣、如梦令等32个词牌),访问网址为http://jiuge.thunlp.org/。(开放获取资源)(2)《九歌对对子》。该系统于2021年2月上线,能针对用户所出的上联自动生成下联。但目前系统对对子的能力还有限,尚不能保证其生成的每个下联都是可用的,但可以让系统生成多个,从中挑选最满意的。访问网址为http://jiuge.thunlp.org/souqi/#/(开放获取资源);(3)《九歌中国古诗词类义句搜奇》。该系统于2021年5月上线,能够针对用户输入的古诗词句检索出语义相似的诗句,并按语义相似的程度将检索结果进行排序。访问网址为https://nlp.csai.tsinghua.edu.cn/jiuge/couplet。“九歌”团队开源了九歌中文诗歌自动生成模型及数据资源,访问地址为https://github.com/THUNLP-AIPoet/。
《全唐诗分析系统》与《全宋诗分析系统》由北京大学数据分析研究中心和北京欣诺格科技有限公司联合研制。《全唐诗分析系统》包含近6万首唐诗,《全宋诗分析系统》包含25万多首宋诗。这两个系统均可进行全文检索、重出诗检索、诗人小传检索和高级检索,支持严格数据检索和简繁体混合模式检索,具有重出诗提取、格律诗标注、字及词组的频率分布统计、用户自作诗的格律分析等智能化功能。访问网址为http://www.nlc.cn/dsb_zyyfw/gj/gjzyk/。(可通过中国国家图书馆读者卡号远程登录访问)
《革命文献与民国时期文献联合目录》是“革命文献与民国时期文献保护计划”普查数据发布展示及服务平台,分为“革命文献”“图书”“报刊”3个子库,实现革命历史文献、民国时期平装书、民国时期连续出版物等多种类型文献的检索查询和展示、全文挂接和阅览等功能。截至2021年7月,该联合目录系统已汇聚国家图书馆、上海图书馆、南京图书馆、重庆图书馆等约40家成员单位的民国时期图书书目数据38万余条,馆藏数据70万余条,民国期刊书目数据1.4万条,民国报纸书目数据4,000条。同时提供5万余种民国时期图书数字全文阅览服务。提供简单检索、高级检索和浏览界面,可检索字段有题名、著者、出版年、出版地、出版者、主题词、馆藏地等。访问网址为http://pcpt.nlc.cn。(开放获取资源)
《中国历史文献总库·民国图书数据库》全面反映了“民国时期文献保护计划”的普查成果。以国家图书馆的馆藏为主,以其他图书馆、档案馆、纪念馆的馆藏为补充,包含大量的名家著作初版本、官方文书、机构文件、内部资料等稀见文献,收录了民国时期国外机构出版的有关中国的外文图书。已完成20万种图书的建设,总计3,500万页,全部图书实现全文检索,可检索的字数超过100亿字。访问网址为http://mg.nlcpress.com。(订购单位:中国国家图书馆、北京大学图书馆)
《中国家谱知识服务平台》由上海图书馆建立,以《中国家谱总目》为基础,此目录从海内外众多收藏机构所藏的5.4万余种家谱中析出姓氏608个,先祖名人7万余个,谱籍地名1,600余个,堂号3万余个。该平台以知识组织的方法和关联数据技术,重构上海图书馆的家谱服务。用户可观看先祖名人和家谱文献,了解某一家谱在全球各个收藏机构的收藏情况。平台上提供简单检索、高级检索、地图检索以及姓氏浏览、时空浏览等功能。访问网址为http://jiapu.library.sh.cn。(开放获取资源)
《学术地图发布平台》由浙江大学社会科学研究院与哈佛大学地理分析中心(The Center for Geographic Analysis, Harvard University)共同建设,于2018年3月上线。该平台将海量的中国文史数据与地理信息相结合展开数据库的建设和空间分布的可视化分析,从空间维度展示中国的人文与历史。目前已发布学术地图1,300余幅、图层3,000余个,提供地图的发布、编辑、搜索、查看、定位和分享等功能。访问网址为http://amap.zju.edu.cn/(开放获取资源)。该发布平台是依托于《哈佛大学世界地图库》(Harvard WorldMap)建立起来的,《哈佛大学世界地图库》是哈佛大学地理分析中心于2008年创建的一个全球地理信息研究成果发布和共享平台,访问网址为https://worldmap.maps.arcgis.com。(开放获取资源)
Gale Scholar是全球领先的参考文献出版商盖尔(Gale)公司的大型数据库集成产品。通过该平台可以访问30余个数据库、1亿7千万页的珍稀原始资源,最早的历史资料可以追溯到15世纪。资料类型包括图书、地图、照片、报纸、手稿、期刊、视频和音频等。Gale数字学术实验室(Gale Digital Scholar Lab)于2018年9月上线,这是一个基于云的文本挖掘平台,由Gale与数字人文领域的资深学者密切合作而开发。用户通过注册个人账号可利用该平台对Gale数据库的检索结果或个人上传数据集进行数字化处理和分析,每个数据集可上传上万份档案。数字化处理工具包括内容集的创建(Build)、元数据标识(Apply Metadata)和清理(Clean);分析工具包括聚类(Document Clustering)、命 名 实 体 识 别(Named Entry Recognition)、N元 语 法(Ngram)、 词 性 标 注 (Parts of Speech Tagger)、情感分析(Sentiment Analysis)和主题建模(Topic Modeling)。Gale数字学术实验室的培训视频可在微信公众号“Gale数字学术”观看(https://mp.weixin.qq.com/s/S37BjWokLKdqE9wSEmsepg)。数据库访问网址为https://www.gale.com/。(订购单位:北京大学图书馆、清华大学图书馆)
Linguistic Data Consortium(LDC,语言数据联盟)是由大学、图书馆、公司和政府研究实验室组成的语言公开联盟。LDC隶属于宾夕法尼亚大学文理学院(School of Arts and Sciences),成立于1992年,主要负责科研语言资源的收集、保存与管理分发。LDC数据版权自1993年起,目前有语料库(corpora)900余个,涉及语言包括英语、汉语、阿拉伯语、波斯语、土耳其语、格鲁吉亚语、普什图语等。每年增加30至36个新资源。LDC实行会员制,用户可免费注册,注册后系统默认为访客(Guest),可免费浏览和检索数据题录信息,但不能下载语料包,用户只有订购升级为会员用户(Member)后方能下载数据。访问网址为https://catalog.ldc.upenn.edu。(订购单位:清华大学图书馆、浙江大学图书馆)
《数字人文门户网站》由清华大学数字人文项目团队创办,获清华大学文科处“双高”计划资助,中华书局、中国知网、国学网、中文在线等支持,于2021年4月上线。目前设置有资讯(综合资讯、会议、讲座、访谈、AI智能聚合资讯)、成果(著作、论文、《数字人文》专栏)、数据资源(数据库、教学资源)、技术平台(研究平台、技术工具)和机构社区(机构、期刊、学人)五个栏目。平台提供浏览和站内检索功能。访问网址为https://www.dhcn.cn/。(开放获取资源)
四、机构组织
国际数字人文组织联盟(ADHO,Alliance of Digital Humanities Organizations)于2002年在德国图宾根(Tuebingen)成立。目前已有成员10个,分别是计算机与人文协会(Association for Computers and the Humanities, ACH)、澳大利亚数字人文协会(Australasian Association for Digital Humanities, aaDH)、加拿大数字人文学会(Canadian Society for Digital Humanities/Société Canadienne des Humanités Numériques,CSDH/SCHN)、国际数字人文中心网络(CenterNet)、南非数字人文协会(Digital Humanities Association of Southern Africa, DHASA)、欧洲数字人文协会(European Association for Digital Humanities, EADH)、法国国家数字人文协会(L’association Francophone des Humanités Numériques/Digitales (Humanistica)、日本数字人文协会(Japanese Association for Digital Humanites, JADH)、红色数字人文(Red de Humanidades Digitales, RedHD)、中国台湾数字人文协会(Taiwanese Association for Digital Humanities, TADH)。在其网站免费提供部分数字人文电子图书的全文阅读。官方网址为http://adho.org/。
国际数字人文中心网络(CenterNet)于2007年4月由美国马里兰大学创建,是一个面向数字人文研究与协作的国际性科研组织,促进国际同行在项目共建、工具共用和知识共享等领域的合作。目前,其成员已有200余个,包括美国哈佛大学、英国剑桥大学等诸多一流高校的数字人文研究机构。中国有4家机构为该组织成员,分别是武汉大学数字人文研究中心(1999年成立)、北京邮电大学移动媒体与文化计算北京市重点实验室(2014年成立)、台湾大学数位人文研究中心和台湾法鼓文理学院图书馆与信息中心。从CenterNet网站可获得200余个成员的英文名称、官方网址、所在国家或地区等信息。官方网址为http://dhcenternet.org/。
编 辑 | 王波
原刊《数字人文》2021年第3期,转载请联系授权。