何捷教授访谈录 | 中国数字人文

作者：何捷韩玉凤；转自：公号 DH数字人文

DHer 访谈

何捷韩玉凤

——————————

受访人简介：

何捷，天津大学建筑学院风景园林系副教授、空间人文与场所计算实验室主任、天津大学数字化设计研究所副所长、天津大学建筑学院实验教学中心副主任，研究兴趣及专长以地理信息系统（GIS）等空间信息技术的社科人文应用为核心，包括“空间历史大数据”“景观考古学与文化景观遗产”“大数据与空间行为”“地理设计与户外游憩”等。当前正在进行的具体研究工作包括非结构化历史信息挖掘、历史与近代城市及景观的功能与行为网络、景观考古与遥感考古、空间行为大数据与健康等。作为“数字人文”与“空间人文”研究的积极参与者，他也是多个学科中数字化方法应用（包括景观、城市、建筑、历史、考古、地理等）领域的国内外学术社团积极分子。

采访人简介：

韩玉凤，清华大学人文学院博士研究生

访谈地点：清华大学拾年咖啡厅

访谈时间：2021年7月5日

问：您本硕博均主修建筑学专业，是因何契机开始空间人文研究的？

答：我觉得在我所了解或接触的专业里，我们专业的计算性范式转化是最彻底的，我们这代人经历了从手工到全计算的转化过程。我自己是建筑大类（建筑学、城乡规划、风景园林）出身的，感受很深，上学的时候学的还非常传统，到硕士阶段开始用计算机画图，学习CAD软件，当然这些都是工具层面的东西，但在某些程度上与数字人文非常相像。我从事城市规划和城市史相关的工作应用GIS，博士和毕业后所在的香港中文大学太空与地球信息科学研究所主要就做GIS和遥感，得益于这样的环境，我接触这方面较多。当然真正接触数字人文应当说较晚，但如果非要归类的话，我觉得前面这些工作也可算作数字人文。作为建筑大类的从业者，我们这代人在跟着行业数字化的进程走，一直必须要掌握最先进的软件操作技术。

真正开始接触数字人文是2014年底参加台湾地区的“数位典藏与数位人文”会议。当时很偶然，因为我们系跟台湾业界接触较多。我那天去台湾大学，在校园书店门口看到一个会议海报，主题包括GIS相关的内容，正好与我当时在做的工作很像，我回去就写了一个摘要，然后就被收录了。实际上那次参会之后我才真正知道数字人文是怎么一回事，当时同一个会期报告的还有马克斯-普朗克研究所的薛凤老师，那也是我第一次听到他们的数字方志的架构。在会上我第一次看到像文本分析、网络分析这样全套的数字人文工作，当时陈静、王涛、邱伟云他们应该也在，我那次跟陈静聊得比较多，她也算我的启蒙人之一。从那之后，虽然我也还在做GIS，但会一点点往数字人文上去靠，参与一些相关活动，慢慢就有了一些想法和方案。假如正经来算，数字人文的工作应该是从《李娃传》的研究开始的。我和两个硕士生从2017年底开始做，一开始也并不知道能做出什么东西，也没有可以参考的案例，整个过程更像实验，从自然语言处理开始，把故事线跟空间结合，做到第二年年中才算有个眉目。慢慢地知道文学制图大概怎么做，现在文本和网络这块基本比较熟悉了，然后这两年又开始扩展做图像的工作。

相对来讲，我们专业大数据领域里的一些工作假如打上数字人文标签也可以，实际工作是做行为和空间分析，当然也有时间的维度。我们自己实验室研究的核心是人在空间里的问题，讨论的都是人，把人作为核心，研究人的时间、空间变化，不管是在城市还是在景观中，甚至这半年又在设想研究更大的、全球化尺度上人的一些活动。其实核心还是行为问题——这个行为的涵盖面更大一些，其中的时间、空间尺度，还有行为里的内容，实际上并没有超出我自己专业的东西。现在有很多新的问题或领域可以跟其他专业对话，如文学、史学、考古学等。但我们自己还是比较强调空间问题，基本上企图回答自己学科中人的活动对空间的创造等实际问题，而非文学问题。我们重视自己的学科范围——当然这点也很难标定，有时甚至也会按照发表刊物的归属去包装学科问题。但学生毕业的终极成果回答的还是本专业问题，这些问题是我们最有把握的，近些年也慢慢积累了很多个案、技术和途径。

问：您和您的团队在空间人文方面有着丰富的研究经验，对《李娃传》《红楼梦》《清实录》等文本都进行过深入统计分析和时空叙事再现，能否谈谈您在这些研究工作中的经验？

答：实际上我们也没有特别的所谓标准性的东西，很多经验是否能够复制不太好讲。你说的这些文学制图工作是学生们做的，要分几个层次来讲：一是我们自己实验室团队这些人，这些学生会比较熟悉我的工作。先给招收的研究生们一个概念，再经过一些培训，他们就会觉得比较有意思，愿意去做。我们硕士生招收的选择面广，素质会有保证；同时通过入学前后比较标准和全面的训练，内部会有一个流程。硕士生比较辛苦，近两年从入学前的暑假就需要学一些基本的东西，然后跟着上一届同学做项目，之后自己再做一个小题目，可能再发展成论文课题之类的，这是他们绝大部分人的成长线索。他们的题目整体会在数字人文的大概念下，通过数据驱动的方式研究人的活动。二是我们的学生还会帮别的老师及其团队工作。像《清实录》研究，其实是我们合作老师的工作——有一个大项目，几个老师分别负责一部分工作，在相关的内容下我们会带着学生一起工作。三是修我们课程的学生。例如《红楼梦》项目是今年的一个课程作业，修课学生经过相对标准的训练——像邓柯老师所说，先教一个底层的逻辑，这个逻辑并非完全通过讲课中的概念和案例传达，而是通过作业的实践体会去完成。这个作业计划的过程需要我们介入，然后再在这个计划的基础上一点点往外推，学生届时都能做点东西出来。我们觉得做得不错的例子，会期待学生再往上提升——例如变成竞赛或者论文发表等等。

目前我们实验室学生做的项目比较独立，有的是真的研究项目，有的是自己的学位项目。我们评判的标准是真正的学术工作标准，并不是课程作业标准，所以今天谈的也并不具备普适性，因为我觉得不能对修课的学生广泛提这种要求。但从数字人文本身的发展来说，我的确觉得年轻人从开始就要建立高标准，这对未来整个行业的发展很重要。这点我去年在南京大学讨论评价标准的时候也说过，因为我们的专业其实很有趣，确实跟很多行业和专业都有交叉，往往会追求外围专业的工具和方法作为创新。但反过来讲，如果从要求精细或准确的标准来说，最近我看了好多我们专业使用数字人文方法的论文和审稿稿件，可能因为毕竟很多人训练少且不够正规，会带来好多问题。我觉得做数字人文工作越多，敬畏之心越重，会真心感觉并不简单。所以我在开始时不会给学生太多条条框框，但在评价的时候会重点说一些问题来规范。数字人文作为新事物对青年人的吸引力大，他们有热情的态度，这些肯定非常必要。但标准和严谨度也非常重要，最起码让他们能够在原有的传统学科里不至于被人挑出毛病来。

问：您在去年申请到国家自然科学基金项目“《全唐诗》边塞诗中景观认知的数字化信息挖掘和平台研究”，能简要介绍下这个项目的主要工作吗？

答：这个项目其实也是摸索性的工作。这个题目的想法基本上是跟随我自己对数字人文的理解和追求发展起来的，很早就具备了雏形，大概2015、2016年我就在想这个事情并写了一些计划书。中间经过一些波折，最后中了自科基金，这个项目在本行业里使用数字人文方法还算早的，我们的思路也还一直在发展——现在具体做下来，跟当初写计划时的很多概念已经不一样了。

之所以选择边塞诗，因为边塞在景观专业角度来讲具有特征性。另外，从文本本身的归类来看，相对在原来的框架里做解读较为容易。

在这个项目里我们现在主要关注三个层面的问题：第一个是边塞诗里写了什么，就是边塞的理念是什么样的？究竟什么是边塞？第二个是诗里写的东西跟实际的有什么关系？这个关系是怎么去建构的？包括空间、时间、人物的建构。最后就是文本与空间的相互投射问题——这非常复杂，无论是在理论还是实践层面。我以前觉得它是一个从真实空间到文本空间的概念，后来发现根本不是这样的情况。具体来说，纯粹从文本和文学书写上来讲，对实际地点和实际物理环境的映射可能并不是规律性的，影响因素包括时间的变化、书写者的差异、甚至诗歌里所谓修辞等各方面的技巧性问题。一般文学地理中制图的观念基本还是更偏实写，像诗歌这种既有修辞又有格律的文体，处理起来更加复杂，这个理论体系需要重新去建构以解决问题，目前我们还没有想得特别清楚。然后就是解决映射的内容之后，进一步考虑诗的文本是怎么写出来的，怎么把它放回到整个历史长河里再去看。最后希望能够把文本和相关的人、事、时、地、物这五个语境放在一起看，目前来看还比较困难。虽然按照原来提的简单观念可能做出来的成果也还好，但达不到我自己的满意度，没有特别有意思的东西。今天其实也谈到了所谓数据驱动的研究，我们在研究过程中一直在发现新的问题，针对这些问题还没有一个适当的范式，需要重新去思考。

问：您这个边塞诗的项目在文学上很有价值，因为传统异文争议，如“黄河远上白云间”与“黄沙直上白云间”，如果您可以把全部边塞文本与历史景观、当时的空间映射等结合起来，或许可以更直观地解决类似问题？

答：我觉得文本的研究或者是以一个文本为出发点的研究，在数字人文的视角上，可能其意义不在于使用数字人文理念或途径，更大的意义是把它放在一个整体的context下去远读。对于边塞诗乃至全唐诗，其实可能也没人见过整个文本语境的context是什么样的，实际上也很难去把握、挖掘、抽取这些东西，没有固定标准和方式。你想在一个大的context里去mining所研究问题的相关信息，目前只能依靠数字人文这个途径，换人工去读或其他方式可能都无法做到，只有这个途径才有可能往前推进（研究进程）。但是这个途径究竟会带来什么，或者真的能回答什么，也很难预知。

问：说到途径，数字人文与文学结合可能有两种途径：一是以前置文学问题引入数字人文工具，驱动最后的结果呈现；二是以纯理工科的思维做实验，提出假设，通过大数据的结果去发现问题，再去解决问题。您觉得呢？

答：很大程度上相对于传统而言，因为学科理念会有差异——像最近赵薇老师、陈松老师以人文学科学者的视角对我们的论文纯粹用理工科的写法有很多讨论。因为理工科传统的书写方式是：现象、结果、讨论、结论，他们就觉得好像这样一来直到看到讨论的部分才知道你说的是什么，不是一个讲故事的方法。但是我们一开始也并不知道最后的结果是什么样子，这种数据驱动的研究的确更理工科化。我们现在已经比较接受这样一个没有前置的情况，理工科也可以有很清楚的假设、验证的方法，但我们现在很多假设就隐含在数据现象里，很难一开始就剥离出来。而且，当然你可以提假设，但很多假设可能将来验证起来是错的——我们也都碰到过各种各样的情况，很多现在和以前做的一些文本相关的项目，其实原来也有很多内容没有想得那样清楚，或者最后发现我们原来想的东西并非如此，这些情况也很正常。所以范式的建立，我确实觉得也是需要放在专业里看的一个过程。

问：回到边塞诗项目，您提到有一位同学是做界定边塞诗工作的，具体是怎么去界定的？

答：从两个途径：一个还是传统的，因为有一些以前的研究结论，选出哪些诗是边塞诗；另一个是从已有的一些文本原则出发去看，看诗里面写了什么或诗人是什么样的。第一个途径是去研究大家公认的边塞诗写的是什么，然后进一步界定没那么典型的、边缘的诗究竟是不是（边塞诗），我们第一轮基本这么做。近半年他们做作业的项目，没有先验的东西，就直接用数据聚类的方法去看文本——我们基本不太管诗人是谁了，还是从写了什么、词语分布、上下文关联去分析。实际上到解释层次，这两个意思差不多，第二个做法更具计算性。最后的标准比较人文化，在数据精度上会更细腻一些，包括文本在时间上的差别——初唐、盛唐、中唐、晚唐这四个时段的边塞诗差别较大，一些边缘的内容——像闺怨、征妇这类主题从初唐到晚唐有很明显的情绪向消极转变的过程。因为有整体的context、有具体文本实例，就可以根据上下文词语，从一个小尺度——例如说一首诗或一组诗、一个诗人——去理解这种关联性的现象，再用算法提取以便看得更清楚一点。我们现在主要就用这样的方法，项目的第一个大问题基本可以解决，数据的稳定性也比较好。

不管是建筑学还是文学，其实都有这个现象，虽然近来很多数字化过程，但实际上这个专业本身也有一个很长的发展时间，也有很多结论性、或者说常识性的东西作为基本的规律。其实所谓数字人文新方法，大体上很难跳出以往结论，只不过可能在一些更细节的地方会有新的发现，也不一定是颠覆性的，而是更细化地去提供信息解释。

问：基于您目前的工作和经验，您觉得空间人文，例如在与古典文学的结合方面，未来还有哪些可以突破的点或创新之处？或者您有什么建议？

答：从空间角度上来看古典文学，王兆鹏老师曾经提过七个要点，比较全面，像从文本内容本身、书写背景、作者背景、大的社会背景等方面都可以通过数字人文方法讨论。从我的角度来讲，文学文本的创作过程或者生成是非单向的，包括读者去看文本又是重新建构的过程，当然在空间上可能就更复杂——作者怎么写、作者写的这些东西从哪来、怎么写出来、读者在读的过程中如何理解和重建？这是一个整体系统化的过程，过程中传达了人对外围物理世界的感受和认知，其实是我们专业希望了解的。从我们专业来讲，可能还包括另一个了解之后如何再把这种了解表达出来的问题。我觉得这是一个非常复杂的过程，因此我们现在研究文本和图像如何去感知和表达，更纯粹地从材料出发来讨论这个所谓主观建构的过程，也更像我们专业中应用大数据的概念。

例如，我们现在在做一个历史建筑的图像表达项目，解读原来怎么把真的建筑或者设计的内容变成图片里的东西，这个概念其实跟文学写作差不多。总体来讲，不管是以文本还是以图像来表现，可能作者处理信息的方式就是更适合社会化、更时代化的，我们希望能从这个过程里看到更细微和更宏观的东西。

另外，我们现在也在分析社交媒体上的山岳图像：一是西藏的冈仁波齐，它作为神圣景观的建构，实际上很近代化。二是我们关注了几十个中国名山风景区，通过人工智能图像分析，判别它们是以纯粹的山水风景闻名，还是因为其他特别的因素，例如宗教文化、建筑名胜等。通过机器学习分了四大类型，完全是大数据的概念。

起码从现在来讲，每个具体的工作都有具体的问题，没有标准化或普适性的途径。你可能从诗歌、档案等文献中知道很多不同内容，但是我觉得每个话题，想更加深入地研究或更有发现，可能还是需要精细化或问题导向。回归到古典文学或史学专业本身角度，其实相对传统的是，你想研究的问题还是那些事情，只不过在手段上你以前可能通过查目录、读书、做笔记去推演，现在这些事情可以交给机器，这都是为了去发现一些现象，机器帮你发现之后，解释这个事还是要去做。哪怕你建立了大数据概念，像谷歌N-Gram这些东西，你还是要在传统的文理概念里把以前看不到的现象看出来，再去解读。我觉得传统文史哲领域里，数字人文更多的是提供现象供专业学者进一步去认知。另外一点优势就是在传统的方法上，我看到的东西你可能也看到了，但看完了彼此都不交流、各自干活。有了数字人文的平台化工作可以把数据和经验进行交互、积累和传承，这一点倒可能是对传统文学学科方式的冲击乃至颠覆。

问：您在空间人文的教学工作中，是否有自己的教学理念？基于该理念，是否形成了一套具体的教学方法？

答：我们的课程有一个发展过程：在我们专业陆续开过三门课，从较早的博士生课涉及较多大数据、社会计算、行为计算等内容，然后慢慢变成面向硕士生的专门的数字人文课程。本科生课程中只是介绍了一些数字方法，在某些作业题目中有些尝试。我倒没太想过在本科阶段给学生建立什么体系，毕竟本科教育更面向通识性，而对研究生来说，问题的面向对象更精确、需要更有针对性，因此数字人文作为工具更有发挥的空间。因为我们专业会涉及一部分史学、考古学的东西，数字人文更有针对性，可以提供新的途径和方法。课程的理念其实也更有针对性，教学中不太涉及数字人文自身的大概念，因为我们专业本身就存在对文史信息处理的需求，对学生来说基本不存在学科壁垒和所谓的超越。我们本身也需要处理空间问题，在空间人文上也是一个很顺畅的过渡。

我觉得在教学上，一方面是提供更普适性的内容，学生先体会在各个方向上有什么，然后再想作业上要做什么，回到另一头去选择方法解决。当然课程学习只是一个开端，学生继续精进的过程也很难，这也看受众的情况——是不是有需要再继续深入。我们实验室小团队的学生的研究方向就基本比较固定，未来怎么做的一些手段基本都有稳定的途径去学。

编辑 | 王波

原刊《数字人文》2021年第3期，转载请联系授权。