大学在“数字人文”中的角色和作用:重思理论与方法 – 中国数字人文

作者：朱青生；转自：公众号 DH数字人文

评论与批判

朱青生 / 北京大学历史学系

2020年1月12日，北京大学哲学系韩水法教授在德国中心做了关于人工智能时代的人文科学的报告。在这个报告中，他主张今天的人文科学要追问以下三个问题:1.人是什么;2.人的性质在人工智能时代的变化(人工智能时代可以直接对应“数字人文”中的“数字”所指);3.变化前后的关系。

这三个问题实际上也是大学在“数字人文”中所要遵循或必须重新思考的理论依据。只有在理论思考的基础上，才谈得上如何使用方法，当然，在方法中有很多具体的技术性问题。然而在“数字人文”这个问题上，是有了数字技术之后，即变化发生之后，才开始来思考人文的问题。但此时与人文精神似乎已经相当遥远，或者已经非常迫切，甚至“数字人文”这个概念本身就是“人文”的悖论。按照韩水法老师的总结，“如下一种消极情绪渐渐的弥漫于人文主义的各派中:人不仅受到制度的压迫和限制，还受到了自然科学和技术的压迫和威胁。与此相应，如下一类倾向和态度在今天依然有不小的影响:反对进步，保持传统的风俗习惯，甚至复辟古代社会的制度习俗以及迷信。”他还引用布洛克的说法:“20世纪上半叶起人文主义所经历的主要冲突，乃是体现了人文主义的情感或非理性的因素与理性的冲突。”发展科学到底是为了人的全面发展还是为了消灭全面的人，把人都塑造成一个单面的科学人?这本身就是进入人工智能时代之后人文的问题，而人文的问题就是人的问题。

数字人文的各项工作都可以由各个方面的人来参与，数字技术和条件的发展基地正在发生漂移，一个机构如Google或华为所能进行的实验和生产不仅是在应用层面，而且是在学科基础层面。但是在大学里面到底怎么样参与，大学应该在其中起什么样的作用，担任什么样的角色?在中世纪，大学并不是因为理性的需要，而是出于神性的传播而建立。但现代大学早已是理性的保障和创造与传播知识的堡垒，而创造知识的前提是对于这个课题有充分的反思。对于数字人文，我们是否应该考虑，既要从其发展的基本原理和根本要求出发，也要从实践的可能性上试验和谋求可行性方法?这里我想讲我的三个意见。

第一，筷子理论

大学应该创造性地制造和建立数字资源之间的“链接”——需要“筷子”，在人文的意义上让技术条件最大限度地方便和有效地解决人的问题。对于全文数据库的通用和稽查，大学承担的任务主要是在通用性上制造数字资源之间的结合、联合和通用索引，获得信息的最方便、最合适的办法。
北京大学曾经在1996年做过一个古文献全文数据库尝试。当时由海德堡大学汉学系的瓦格纳教授出资，由中文系古文献研究所的孙钦善教授和我合作来负责学术事宜。这个数据库建成之后，从研究古文献数据库的角度来讲，我们探索出了如何建造电子数据库的一些校对校刊、录入的规范和方法。然而从中我们也意识到，这个工作并不适合大学研究人员来承担和完成，而是应该由一些专门的学术机构、图书馆(含大学图书馆)或者是商业机构来进行操作。当时有不少学校想要在中国做一系列数据库，提出要做《史记》的就有六、七家，但实际上此时中国台湾的“中研院”已经做成了二十五史全文数据库，所用的底本是中华书局标点本。海德堡大学汉学系还给大陆学者专门资助，可以在海德堡使用他们购置版权的客户端。那时我们已经意识到世上将会有成千上万的数据库，正如现在，各个图书馆都有无数并不断增加的古文献数据库和研究文献全文数据库，甚至是古籍珍本开放数据库。当时我们的想法就是应该做一个可以用“一个方法，一条途径”进入所有数据库的工具法，使得使用者可以非常方便地，符合逻辑地，而且符合最新知识图谱作为背景地，去稽查所有的全文数据库，并对不断增长的数据库保持开放。我们曾向北京大学王义遒副校长提出申请，组织相当于今天的“数字人文”工作组来解决这个课题(详见附录1)。可惜当时北京大学还没有把注意力移到这个方面。

今天这个问题在世界范围内的数字人文研究中并没有得到全部解决，只是我们有了解决它的可能。如果北京大学图书馆能把已经买下版权的数据资源提供给数字人文研究所来进行这样的实验，未来就可能会把这个工具带向所有的数据库，在一个统一的稽查系统中来建造更高层次上的应用，尽管数据库之间多有重复，互有短长。

在欧洲膳食中，餐具多种多样，每吃一道菜就要用不同的刀叉，德国甚至发明了针对不同水果的不同刀具，吃猕猴桃和吃苹果的刀具各不一样。而中国人只用一双筷子就可以吃所有的食物，这就是我们说的“筷子理论”。

第二，马球理论。

大学应该关注知识的全体，建造连接，击破阻隔和区域保护——需要“马球”(即把司马迁的“究天人之际，通古今之变”理念全球化)，用新技术来覆盖和整合人类全部遗产，打破壁垒，完成联合。现在所谓的密钥技术、通讯保密主要来自军事发展和人类竞争的需要，这无疑是过去和今天数字技术发展的主要动力，但也是人类自我残杀和互相压迫的潜在根据，是人类文明保护与发展的巨大阻碍。人类的和平绝不会因为我们互相之间的保密而实现，而是因为我们之间的开放、人类所有成员之间的共享而逐步成为可能。

正是如此，我在国际艺术史学会推进了这样的一种工作，作为我在执掌学会阶段的四大任务之一，就是在区块链(block chain)、5G和量子计算所提供的各种可能性上，建造图像数据库相互之间的差异性联系，使得视觉与图像可以在所有人之间共享。(详见附录3)

当然，我们希望人类和平，国家之间放弃竞争，保持合作，寻求人类的共同发展。但事实上，随着人类科学和技术的高度发展，可以解决疾病的问题，也可能解决饥荒的问题，却绝不可能解决战争问题。人的荣誉总以超越平庸(常人)和折服他者(同行)作为存在的前提，人的尊严都是以抵抗超越和消灭优先宣示奋斗的目标，羡妒交缠，生死相以。科学和技术的发展只会使人与人间的矛盾日益激烈，文化的竞争更为惨烈，人对人的压迫和侮辱愈发深入骨髓和融入世代的血液之中。我们还没有天真到相信胜利者会消除傲慢和偏见，球队的竞争和情敌的仇视都会变成恨意，今天连小学生都要鼓励排名和竞争，制造和贩卖焦虑，怎么可能会因为技术的进步，财富的增长，内心的自信与尊严的膨胀而减少和消除人与人之间的差异呢?我们已经感觉到今天的国际形势向我们展现出不容乐观的现实和未来，但是我们还是要不遗余力地去追求人的平等和相互之间的沟通与共享。

第三，天下先理论。

大学要做原创性的基础工程，要在人类文明和最新技术的最前沿创造制度和方法，凡是别的机构、学校已经做过的，拿来使用即可，但是时刻不忘要做前瞻性、原创性的探索。

1990年代我们曾在北大进行过关于“网相语”的实验探索，即如何通过计算机把图像与语言结合成一体，在“视网膜和脑神经之间的段落付诸传播”。我们今天在利用超文本链接和各种新媒体时，实际上只是把数字技术发生之前的人的自然“语言”做成了“电子版”。其实在旧石器时代结束前的很长一段时间里，所有的人类交流主要是通过图像来进行。今天，图像是图像时代的基本数据和媒介，也是艺术史的前沿问题。图像除了我们熟悉的绘画和交通标志之外，除了大量的“新媒体”的模仿和叙事之外——此处的“新媒体”包括“旧新媒体”(照片)、“中新媒体”(电影)和“新新媒体”(计算机图像)，还包含着观看、摄制、描绘、图解、符码、文字和心像7种不同的图像，混在一起传播。那么我们是否可以不按照现成的图像和现成的语法来进行交流，而是在它们还没形成完整的图画(和文章)之前，就可以在网络上通过数字技术诉诸交流?这样的交流就是我们当时实验的“网相语”，也就是说，可以不用人脑的方式来规定机器，而是用机器的技术逻辑来重新定义人的交流和发展。这才是有了数字技术以后人与人之间的新的交流方法，也是数字人文的意义所在。(详见附录2)

当时我们把这个实验建议提交到了北大，也提交到了当时的中信部，但是那时的中国还没有今天这样的条件和气质，即超越发达国家，去探索直接针对和解决前沿问题的可能性。而之所以我们会想到做这样的事，是因为我们的专业是当代艺术。当代艺术有一种基本性格就是“原创”。“所有的作品都必须是前人没有做过的，也与同代的其他人不一样的”，作品才有意义，否则这件当代艺术作品不能成立。正是因为有了这样的基本法则，我们才会不间断地产生和追求各种实验的新思路。我们之所以推进“网相语”的探索，是因为中国的文字(汉字)具有图性，而中国的图画具有写(意)性，中国的艺术品具有文字和图像共同并存所形成的图与词之间的间性，我们可以用此在脑神经传输和图像意义识别的问题意识上来推进。对于图像识别问题，不是仅仅依赖深度学习的思路，而是使用对图像的结构和性质的分析。但是很遗憾，这一探索在当时被搁置了。

一晃20年过去了，被甩在世界后面的我们，又一次成了追赶者。但是追赶也不能一直跟随，如果能够突破，就要尽量往前，条件的艰难和基础的薄弱并不能减少一个大学学者对世界文明的义务和对学术的责任。目前，我利用自己作为国际艺术史学会主席的权力再次推动局部试验。在主持国际艺术史学会的学刊和官网时，我用了“E-journal——会生长的学刊”概念，就是说这个学刊的论文在发表的同时，经由全球联网和人工智能图像和文献的搜索系统，为之不间断地增加修订和补充的数据和结论。设想一下，当你在20分钟之后打开自己发表的文章时，你的文章已经被修订过了，这个修订的过程所有人都可以参与(这个在许多科学刊物已经做到)，更多的是“数字人文”自动进行，每一点修改都有电子痕迹标明个人的贡献。去年9月在佛罗伦萨举行的国际艺术史学会的理事会上，我的这个提议被我们本行的同事否定了，他们认为这只能在年轻的学者中先行实验。当然这个项目的意义与“网相语”不可比，但是可以在北大实验吗?这似乎是对大学在“数字人文”中所扮演的角色和作用的不可替代之处的又一次呼吁。

当然，我们要不停地反思和建造人文。今天在大学里还在追问人为什么需要人文，而所有的事情只要发生问题，终究还是为了人本身。我们今天受到了后人类理论的压迫，不少思想者也把人文主义和人类中心主义放在一个可以批判的立场上，但是当批判者已经不存在的时候，所谓的人文主义和批判的可能性就等于没有。如果今天要问一个人文的根本问题，“人抛弃了所有，到底还剩什么?”，这个问题本身就是一个悖论，在数字技术出现(1994年10月麻省理工学院计算机科学实验室成立，建立者是蒂姆·伯纳斯·李)之前，在万维网通用之前，这就是一个人文的悖论，如果我们抛弃了一切，谁来抛?

如果我可以抛弃一切，那么还有一个“我”在，这个“我”就是人，就是人本身。

附录1:1999年的全文数据库通讯摘抄

古文献数据库必须齐全。

全，是指所有古文献都包含在内，并可以用一种简便方法稽查。如果有部分古文文献不包括在内，那么就会在“数据统计”中丧失其最根本的原则——全面考查。如果各种古文献分属于各个系统，不能方便地统一检索，全面考查就不可能进行。不能让每一个研究者操作使用，空有文献库而不能全面发挥作用，虽可让少数人解决局部问题，但不会使之成为中国人文科学的一个新台级的基础。况且，大家不能用，就不会有足够理由和投入把古文献全部做成数据库。齐，是指古文献全文数据库的质量要整齐。质量首先是原本的质量，要选择相对来说校勘得较好的本子作为底本，其他较好的诸种本子作为附录本。数据库相当于资料库的原始材料根据。制作数据库不是进行版本校勘，只要版本出处明确，就可使用。不必纠缠于版本间的正误，留给专家在数据库基础上去处理版本的问题。所以，数据库的质量主要是电子版本要与所录版本完全一致。

朱青生：《十九札》其实齐全是不可能的，因为古文献留存至今的就是“烽火之遗叶”，损失不可计数。即使留存在世，也因人为原因，不可能一时尽收于库。而且古文献不断被发现，对已有古文献的整理工作不断贡献着新的成果。但是要求齐全是一种观念、一种信念，追求齐全，尽其力而不可得是一种天理，而不肯尽力，浅为辄止，投机取巧则是一种人欲。数据库建设必“存天理、灭人欲”而后可。

至于不断发现和出现的新的文献和新的整理，只要了解数据库的根本性质就是开放的，可以增补修改的，就不会成为问题。一旦数据库统一公布，必须配备专门机构管理。过去太学的祭酒管理石经，大概派个监生洗洗石碑，用墨拓一拓碑面，使人站在地上可以瞧见上半部分的字迹就够了。今天主要工作是增补修正。

数据库是国家大事，是中国国家形象的标志，应该由国家统一组织。古有熹平、正始石经公诸天下，其现代形态正是今天的古文献全文数据库!不可能依靠民间或大学零打碎敲。中国大概有几百个地方做数据库，低水平重复，浪费大，又增加了使用方式的繁杂和混乱，用的也多是国家的钱。即使是个人的精力和财富，也是天地之珍、人文之托、家国之有，容不得闲抛闲掷。有些商业机构也想“以经济工作为中心”做数据库，结果是炒起来市场，封杀了用户。我作为北大的教授，每年的教学科研经费平均几百元，学生又如何“买得起”数据库。所以古文献全文数据库的商业化，正好是对中国人文科学研究的阻碍，少数占有原本和资金支配权的个人，可能会为了私利而延误了中国国学的飞跃。

古文献全文数据库虽是中国国事，也是天下公事。境外除了台、港之外，日本、韩国、美国、欧洲都有中国文化的研究，并动用他们国家和基金会的经费制作中文古文献全文数据库，其量和质不在国内水平之下。作为一个中国的学者，一方面欣慰，一方面惭愧:中国并非无人力财力，缺乏统一管理，但此而已。做数据库已是国内“流行事件”，可能统一管理指日可待。

近五六年以来具体地想方设法动手做数据库，体会到目前关键在以下两点:

1.用“机械校对法”保证录入文本质量。

2.设计套用全世界所有全文数据库的检索软件。

前年(1997年)学校召开数据库讨论会，楼宇烈老师说“又想用，又不敢用数据库”，所担心的就是校对质量。我们在做《全汉文》录入工作时，曾探索组织各种校对方式，收效很值得怀疑。我自己的专著，前后校对六七次还是有错。个人专著只不过涉及个人见解的表达，而数据库原则上不可有一点错误，那是不是要校对100次呢?录校数据以我们现行的方法，遗错不断。经过仔细考虑，应该实验“机械法”。不用阅读校对，而要改造一个软件，将所录之文按被录之文的文本格式、字体(大于90%相像)排印出，然后在透光的桌子上(相当于照相馆看底片者)机械核对，错一个字，上下就对不上，马上就能发现。这种核对无须文字、学术水平，只要系统精密，(理论上)最普通的打字员都可以录100%准确的数据库。而遇有改字、断句之类，则又有最高水平如孙钦善、裘锡圭这样的老师来定夺，可一举全改数据库录入的工作质量。

在北大的讨论会上，有一位计算机系的老师提出要做一个比台湾《二十五史》更好的数据库。我认为数据库既是天下公事，比如体育比赛，如果想做一个好的，首先要使用已有的，看它差在哪里。台湾《二十五史》使用的是目前最佳的中华书局原本，并投资几亿元，好几个专家献身于此十几年如一日;而且全世界的使用者不断为它反馈使用改进意见，他们定期增补修改，再为所有用户更新。我一直在会上会下问:我们北大为什么不用?(现在中文系有一套可供内部使用。)如果北大有心，可以通过购买、交换、合作、索求，使用天下所有数据库，并大量补充天下所无文献!针对各个数据库检索方法互异而且繁复的缺点，设计套用软件，使天下所有数据库在北大可以统一使用，成为一个完整的数据库。如果发现的确其中有有待重做者，请专家选择善本，以机械校对法增补之。为国家数据库的开拓“兼并天下”，才不枉为中国第一大学。

但是，如果以为有了中文古文献全文数据库，就一定能提高研究的质量，那就大错而特错。有时我特别注意有些西方汉学家用数据库，找一些字义和词式加以排列对比，统计核实，经常把一个字的不同的意义强联在一起，又把同义而假借，讹变为不同的字遗漏不计，并持统计结果为确证，真不如不曾给他数据库!否则他还可以反复玩味文意，不致简诞如此。数据库对中国人文科学的最根本的质量改变在于解脱了呆板记问之学，凸显出对于分析、求证和解释的追求，使中国国学重在实验、验证、设计和研究，而不是老在数据记忆比赛中掩盖对人性根本的追问。

有了数据库，学人不是不要读原文，而是更要通读原文。利用数据库，一边读，一边可以周密地反复温习。杨树达先生的以经训经，人皆可达，而且演化为读书常法。没有数据库时，常常记得少则无从复查，记得多则拖累创思。

有了数据库，文字学功夫就提到使用者面前，越能识得变体、异体、俗体、古今体，越能读破假借字，就越会使用数据。音韵学功夫也提前，识得古音，深知省音、转音、方音，就可以利用数据库充分稽查检阅文献。

既如此，请时刻准备着接受这个国学的飞跃!

(朱青生：《1999年的数字人文工作》节选，《十九札》，广西桂林：广西师范大学出版社，2001年)

附录2:2000年发表的“网相语”概念

我们依旧在追问书法的本质到底是什么。书法不就是用一种语言形象性地传达出人的信息吗?

于是新的探索被称作“网相语”，它是在计算机系统上寻找语言新的结构、新的语法、新的概念。它要恢复语言在形成书面文字和口头言说之前的原思维状态，即一种在感受和思维状态下的图像和概念的综合体。概念又同时呈现出不停分化、演进和持续计算、自动更新的过程。新的一代艺术家已经在计算机网络的新条件下开始了现代书法的新实验。它不仅在中国是一个新的创举，而且在世界的范围内可能改变网络时代传达的方法。它不再跟传统书法有什么表面的联系，而是要追问一个根本的问题:“书法如何成其为书法?”书法不再是一片纸片，也不再是一个人体、一个牌匾，当然也不再成其为一个行为或一个观念，而是一个项目、一个希望，因为它承载着书法的根本境界——人的交流和传播。

(朱青生:《从无锡到北大——我所经历的现代书法试验》节选，《现代书法》2000年第3-4期)

附录3:国际艺术史学会的全球数据库计划

在历史上，我们把与自我形象和现象的不同视为珍稀的宝贝，把他人的宝藏当成艺术的美感来欣赏，差异使我们互相观照和倾慕。而现在，随着图像时代的到来，图像这个既与语言文字相异，又与考古的事物和遗迹并存的专门的行业，突然在我们眼前平铺出一道交流的坦途和奇景。也许我们还一直被另外一个希望鼓舞:在若干年前，国际艺术史学会理事会再度提出来，希望用新技术来推进一个全世界共建、共享的图像数据库。过去这对我们的前辈来说是一个幻想抑或是妄想，但是现在区块链的技术，5G、6G的传播能力和量子计算的新的通讯方法能让图像数据库不再是一处的人做完以后再去互相分享，而是一处的人做而所有的相关者都能同时得到和拥有，这样的新技术将会减少图像因储存和传输而产生的许多障碍，只要我们愿意，就能共有。在艺术史研究中，如果我们没有对所有的图像的充分全部的获得与把握，可能我们所做的研究永远只是一个“个案”，而对于重要的问题，如果没有所有图像间相互的关联，就无法进行全面的判断。每次读到前辈和同事们写的书，我都敬佩他们为了一些材料和信息而攀爬于大漠江河之间，沉浸在古籍之中、孤灯之下，但总还感觉到他们的忐忑。由于地理、政治和意识形态的原因，还是有许多相关的图像材料没有被看到，还是有一些知识和常识没有能够被掌握。但是如果我们有了共同的联系，有了一人做成同时就能让所有的人分有的图像数据库，合在一起，不久或者终有一天，就能在全部图像数据的基础上对某一个问题进行讨论，解决一些重大的问题才成为可能。

(朱青生:《国际艺术史学会2020新年贺词》节选)

编辑 | 肖爽

注释：

本文系2020年1月16日在北大“数字人文”建设研讨会上的发言，稍有改动。

原刊《数字人文》2020年第2期，转载请联系授权。