接受·整理·生成 ——“数字人文”视域下文学研究方法转型的初步探讨

作者:尹倩;转自:公众号 DH数字人文

学术趋势研究

尹倩 / 上海大学中文系

————————————

摘要:随着数字技术和媒介的普及,人文学领域对“知识”的传统理解得以突破,传统文学研究范式将可能在“数字人文”浪潮中实现其转型与革新。关于数字化文学研究范式为文学研究的发展带来的可能性,可从以下三个维度作初步探讨:一是从计算机处理与识别机制和读者接受两个维度进行阐释,聚焦计算机对文学文本的识别、处理与分析以及读者对文学文本的接受间的差异;二是描述“时空物”(SPIMES)的存在状态,借以阐释大数据时代下“整理”的崛起,并通过实现不同文本间的联结,从而对文本意义进行改造与重写;三是通过梳理用于文本分析的主要数字技术,探究文本中的情感主题、叙事话语、人物形象等的可视化(数字化)生成。

关键词:数字人文 方法论 接受 整理 生成

————————————

1980年代以来,伴随西方理论的大规模引入,给当代中国文论带来了新思想、新理念和新方法。其中,“老三论”(系统论、控制论和信息论)和“新三论”(耗散结构论、协同论和突变论)“极大地促进了世界科学图景的改观、人类思维的变革和当代哲学观念的深化”[1]。随着数字技术的不断普及与发展,数字工具、技术和媒介的出现极大拓展了人文学领域对“知识”的传统理解。2009年以来,“‘数字人文’作为一个舶来概念进入中国学界”[2],并受到广泛关注,在人文、艺术领域产生巨大影响。从“老三论”、“新三论”到西方人文社会科学方法,再到“数字人文”跨学科研究范式的探索,文艺学领域的方法借鉴路径始终带有明显的科学性、人文性及创新性。

1959年,英国科学家兼作家C·P·斯诺作了《两种文化和科学革命》的演讲,关于科学文化与人文文化之间出现断裂的讨论立刻得到世界范围内的广泛响应。20世纪末至21世纪初发生的“索卡尔事件”和“科学大战”,则是在美国和欧洲的知识分子之间展开的一场激烈的论战;事因直接源自后现代主义中的反科学思潮的泛滥[3]。科学与人文总是相互区别又相互渗透,共同构成了人类文化的统一体。在科学与人文的融合与冲突中,无论是片面的科学化还是单一的人文化,都与人类文明发展的基本方向背道而驰,科学与人文之间只能是双赢而非零和的关系。在大数据时代与数据密集型研究范式的背景下,数字技术何以介入人文研究领域?“数字人文”作为一种新的科研方向,对数据的处理不再局限于传统理工类学科的研究过程,也逐渐渗透到人文研究中,并为人文学科的研究打开新思路。数字文本的大量产生和纸质文本的数字化趋势为计算机文本处理提供了基础性材料支撑。在以传统感性为主的人文学科研究基础上引入理性技术手段,将定量分析与定性分析融为一体。狭义来讲,“数字人文”[4]指的是将数字时代的研究方式(比如云计算,大数据等)应用于人文学科。因而,“数字人文”作为一种新的涵括量化处理与定性研究的文学研究范式,与信息论、控制论、系统论在属性上具有某一相似性,与耗散结构论、协同论和突变论在结构上具有某种同质性。可以说,“数字人文”既与“老三论”、“新三论”一脉相承,也是科学与人文相论争的产物。

本文将从以下三个维度探讨“数字人文”视域下文学研究方法转型的可能。一是数字化文本的“接受”。美国学者M.H.艾布拉姆斯曾在《镜与灯——浪漫主义文论及批判传统》[5]一书中提及文学活动系统是由世界、作者、作品、读者构成的一个交往结构。因而,或可从三个层面聚焦数字化文本的“接受”。首先从作品角度而言,数字技术(计算机技术)对文本(作品)数据集的“接受”、理解及处理;其次从读者(研究者)角度而言,基于文本接受理论,人文研究者在数字技术量化处理文本的前提下,何以对文学文本进行质性分析?最后从世界视角而言,伴随数字化媒介时代的到来,致使人们写作、阅读和批评方式的转变。例如网络文学的创作、读屏时代的到来、读者-作者交流媒介的更迭等。二是数字时代“整理”的崛起。透过结构主义向后结构主义的演变,聚焦“整理”特质。随着大数据时代的发展,在“时空物”[6](Spimes)无处不在的情况下,信息的冗杂性及信息需求间的不对称性促成了“整理”的崛起,使得每一文本都和其他文本产生联结,从而对文本意义进行改造与重写。三是文本意义的可视化生成。通过梳理德勒兹的后结构主义生成论及其“情感转向”、苏珊·卡纳斯·朗格的符号论美学相关理论,从文本情感、叙事话语(情节)及人物形象三个维度进行具体阐释。数字技术何以可视化生成文学文本的内在情感、主题、情节及人物形象?其生成的可视化符号是否具有文学意义?从“数字人文”广义上[7]来讲,计算机又是否能无限接近甚至获得人的思维?

一、数字化文学文本的“接受”

20世纪著名哲学家、现象学创始人胡塞尔认为“现象”不是指同实在或本质严格区分的,仅仅通过感官才能获得经验,而是指包括感觉、回忆、想象和判断等一切认知活动的意识形式[8]。胡塞尔在其“现象学”理论中,首先聚焦对“逻辑”、“认识论”和“意向性”等概念的分析。而依据当前数字技术的发展水平,计算机算法系统主要分为两类:一是由图灵和冯·诺伊曼制定的以符号逻辑为基础的算法系统;二是建立在统计分布规律之上的并行分布式系统,包括对大脑神经网络的模拟[9]。目前“数字人文”范式引入文学研究领域主要聚焦以符号逻辑为基础的算法系统。那么,以符号逻辑为基础的算法系统何以分析文学作品?

约翰·塞尔(J.R.Searle)

另外,此处的“接受”并不完全指代姚斯所阐释的“接受理论”。一般而言,科学研究者普遍认为数字化文学文本应该为计算机算法系统所“理解”和“处理”,而不是“接受”。约翰·塞尔(J.R.Searle)在《心灵、大脑与程序》一文中曾谈及,“我首先要阻挡一些对‘理解’的普遍误解,因为在许多这种普遍讨论中,人们看到的是关于‘理解’一词的一大套高超的手腕”[10]。塞尔认为计算机进行信息处理并不是计算机能“理解”文学文本的问题,而是一个需要判断的问题,“‘理解,不是一个简单的二元谓词;甚至存在着许多不相同的理解类型和层次,即使排中律也往往不能直接应用于‘X理解Y’这种形式的陈述;在很多情况下,究竟X是否理解Y,是一个需要判断的问题。”因此,此节主要聚焦数字化文本为计算机算法系统所“接受”的问题,分析读者如何“接受”量化后的文本问题以及探究数字媒介对读者、作者阅读创作习惯的改变问题。

而在进一步探究“数字人文”视域下数字化文学文本的“接受”这一主题前,有必要廓清“文学研究何以需要量化处理”这一问题。第一,人文数据库或数据集的建设,使文学研究量化分析成为可能。一方面,对非数字化的人文材料进行加工,进而转化为数字内容;另一方面,对非结构化的数字化文本内容根据某种使用需求进行系统化标注的数据集(Dataset)建设。第二,人文数字工具的开发与使用大大减轻了人文学者的研究压力。主要体现在以下两个维度:其一是通过设计数字工具和使用相关数字化平台解决传统人文问题。其中,数字工具及平台的普及应用旨在处理低水平、多次反复的工作,例如资料的搜集和整合、文本标记、文本比对等,将传统人文学者从繁重的“体力活”中解放出来,使其精力聚焦于经典人文问题研究上。其二是通过设计或使用相关非人文领域研究范式的数字工具对数据库进行理解、分析及生成。例如用可视化分析工具Gephi来处理人物之间社会网络关系,包括社会关系和亲属关系。第三,通过“使数字技术切入人文领域,对人类文化遗产的传承、传播、全球化和创新提供新的方法”[11],是人文领域与数字技术在文学研究更广阔领域的应用。

(一)以符号逻辑为基础的算法系统的构建

数字化文本为计算机算法系统所“接受”,是“数字人文”方法介入文学研究领域的关键。数字技术对文学文本的影响,不仅是工具论的辅助作用,更是学科分析思维上的革新。随着数字技术和互联网技术的不断发展,以技术为载体的网络文学以其创作载体及生产机制显示出强大的生命力。当数字技术介入到文学内部,或可从以下三个维度加以阐释:一是文本挖掘(Text Mining)维度,即运用数字技术分析创作者如何处理故事文本内容;二是意义挖掘(Meaning Digging)维度,通过感知数字技术对信息世界的还原,阐释这种对世界意义的还原价值究竟在何处;三是文学批评(Literary Criticism)维度,即介入文学批评范畴,文学的意义和价值如何被数字技术表征出来,进而预设论证在21世纪,是否存在新一轮语言维度的科学化和国际化变革,文化维度的社会科学化发展。

一方面,“文学文本语言的数字化”和“算法逻辑的设定”是以符号逻辑为基础的算法系统的构建的重要前提,也是数字化文本为计算机算法系统所“接受”的核心。戈特洛布·弗雷格(Gottlob Frege)在其“逻辑实在论”中谈及,“逻辑对象以及一切可被归结为逻辑的对象(如数学对象)不依赖于人的心理活动而独立存在,这是逻辑符号和规则普遍性及必然性的客观依据”[12],弗雷格不仅强调逻辑对象的客观性和独立性,还表示“一切存在的东西被分成三个领域:物理领域、心理领域和思想领域”[13]。因此,当文学文本进行数字化处理后,关键之处仍在于“算法逻辑的设定”,至于“心理领域”和“思想领域”的研究则涉及创作者、读者以及媒介环境等多重因素。比如,网络文学自身本具有超媒体性质,因此,用数字技术对网络文学文本进行大数据处理时,文学文本语言自身即已数字化,网络文学研究者只需要根据自身的需求,设定正确的算法逻辑,即可获得相对较理想的结果。按照弗雷格的“逻辑实在论”,用数字技术处理后的文学文本在客观上只涉及文学文本中的物理领域,但从主观上来看,“算法逻辑的设定”和“具体操作标准”仍渗透于文学文本的心理领域和思想领域。而这种渗透是否会影响最后文本情感、文本主题、人物形象等意义的生成?换言之,即进一步感知数字技术是否能对信息世界实现真实客观的还原?

另一方面,数字技术在“计算机自然语言处理”和“人文研究者文本分析”中所获得的关系的平衡,是处理故事文本内容和表征文学的价值与意义的先验条件。文本挖掘的准备工作由文本收集、文本分析和特征修剪三个步骤组成。其中,结构主义研究者霍克斯认为“事物的真正本质并不在于事物本身,而在于我们在各种事物之间的构造,然后又在它们之间感觉到的那种关系”[14]。如果我们把文学文本语料库看成一座房子,那么这些用“分词工具”[15]处理后的“语词”就是一块块砖。只有当砖块的大小、质料相同时,房子才会漂亮、牢固。其中“切词”或“分词”是计算机自然语言处理的第一环,同时也是计算机自然语言处理的基础以及人文研究者借助数字技术进行文本分析极为重要的一环。因此,我们或可把切分出来的最小单位的“词”作为人与计算机获得关系平衡的“原点”(符号)。一般而言,用数字技术来进行文本分析(Text Analysis)主要包括“切词”、“文本标记”、“文本对比”、“主题建模”、“可视化呈现”等方法,均不可避免带来人的主观态度、情感、观点。所以,现阶段人文研究者判断文学的意义和价值何以被数字技术所表征,关键仍在于判断算法逻辑与人文研究者的需求是否无限趋近。换言之,即计算机算法逻辑是否无限接近于人的意识及思维逻辑。

(二)以量化处理为基础的质性分析的“读者接受”

如果说计算机算法逻辑的构建是“数字人文”方法得以介入文学研究领域的基础,那么基于量化处理的“定性”分析,则是数字人文方法论得以建构的关键。而文学研究者采用量化处理和定性研究相结合的方式,对文学作品进行分析,在某种程度上是对传统“读者接受”理论的解构。

1967年,德国学者汉斯·姚斯在《文学史对文学理论的挑战》[16]一文中曾提出一种关于文学作品与读者关系的文学接受理论。主要包括三个方面:一是把文学作品当作一种人工的艺术制品(第一文本),只有读者大脑意识介入,经过领悟、阐释、融化后才能再生为一种文学形象,即审美对象(第二文本);二是将完全符合读者期望阈的作品,视为没有创新的劣作;三是其认为作品中一般存在适当的“空白”,给读者以空间来完成“未尽之意”。诚然,以姚斯为代表的读者接受理论,丰富了读者在文学作品中的价值和功用,但随着新媒介时代的到来,文学创造模式的变化,“读者接受”理论受到了数字技术前所未有的冲击与挑战。一方面,数字分析技术的介入,消解了读者对文学文本的完全“沉浸”,打破了读者对文学作品“留白”空间的完成;另一方面,大量数字文学、新媒体文学的兴起,以及数字时代整理者的崛起,在一定程度上促成了套路、模板式创作的泛滥。从中或可窥见数字技术和新媒体技术对文学研究领域的渗透与不良影响,但是,我们更应看到的是数字时代浪潮到来的不可抵挡性、数字分析技术对文学研究领域的渗透性、启发性和可实践性。那么基于此,是否可从以下两个视角来看待“数字技术”对文学文本研究的影响。

Susan Schreibman, Ray Siemens and John Unsworth
 A New Companion to Digital Humanities

一方面,在充分肯定“读者”在文本意义的理解和阐释的基础上,实现量化分析和定性研究的结合。换言之,即由预先设定的算法逻辑实现对文本的数字化处理,之后,人文研究者结合整理后的数据以及相关主题模型对文学文本进行定性分析。数字技术作为一套研究方法和思维模式,在为文学领域研究带来时间(高效、省时)或空间(数据库或数据集的构建)上便利的同时,也为文学文本研究提供了一套全新的分析范式。例如,伴随数字时代的发展以及媒介革命的到来,以图书情报与档案管理为主的专业开启各大数字化研究项目,依托海量的电子图书资源,聚焦某一文学现象或文学问题进行数字化、规范化、系统化的文学研究。另一方面,面对不可抵挡的数字化浪潮的影响,在享受数字技术带来研究便利的同时,也应不断思考“数字人文”技术何以更好地为文学研究服务。笔者以为或可从以下几个维度进行思考:一是“数字人文”方法论在分析文学文本的过程中,如何实现计算机算法逻辑和人的思维逻辑无限接近的问题;二是面对数字技术对传统人文研究方法的解构,如何实现两者的协调互补,并致力于更好的文学研究范式的问题;三是当数字技术不断渗透到文学研究领域时,随之带来的文学创作环境、读者接受、情感机制等的变化问题,又如何进行文学批评?

(三)以媒介革命为基础的数字化文学的“接受”

通过计算机自然语言处理基础,算法逻辑的设定以及主题建模等文本挖掘技术的尝试之后,读者如何“接受”量化后的文本成为越来越重要的问题。而在此基础上,进一步厘清数字媒介机制对作者创作方式的影响、对读者阅读习惯的改变、对文本多元意义的构建等十分必要。一方面,回应量化处理后的文本是否能表征文本意义、情感和主题等;另一方面,在全球媒介革命背景下,探究数字化媒介技术对读者阅读习惯以及作者创作习惯改变的相关问题。

创新人文研究方法和研究范式,发挥量化研究和质化研究的合力作用。结构主义文论一方面强调事物之间的关系和整体性,但另一方面,我们也应看到“结构主义文论对文学自主性、整体性等的过分强调,有意无意地切断了文学与社会、与作者的联系”[17]。而当文学文本被计算机进行数字化处理后,数字技术从文学外围渗透到文学内部进行定性研究时,“数字人文”不再作为一种单一的量化研究工具,其旨在“为人文研究提供新的数字研究路径与方法”[18],实现文学研究方法的转变,并开辟新的学术研究方向。至此,符合结构主义文论建构逻辑的数字化文本,在媒介话语场域中,实现了其自身的解构,从极具整体性与独立性的语料库(Corpus)单元中抽离出来,完成算法的逻辑演绎;同时也完成了从结构主义到解构主义的演进。另外,符号在转喻的过程中,获得了新的意义。因此,量化处理后的文本能表征文本意义、情感以及主题,前提是算法逻辑的准确以及定量处理与定性分析的结合。

全球媒介革命下读者“接受”方式的多元。由于多媒体技术和信息技术的不断发展,一方面读屏时代的到来,使得读者的阅读习惯发生改变;另一方面,叙事方式的转变,电子语言的形态学,促进了作者创作方式的革新。从物理世界的原子到信息时代的比特,创作载体不再是原始的笔墨纸砚,而是键盘输入。美国叙事学家戴卫·赫尔曼(David Herman)在《新叙事学》中曾提出:“叙事学已经从经典的结构主义阶段——相对远离当代文学和语言理论的蓬勃发展的索绪尔阶段——走向后经典的阶段。”[19]网络文学研究学者单小曦正是根据网络文学的媒介属性,建立了一套网络文学评价标准及思考体系,它由一个媒介存在论的哲学基础、“世界、作者、媒介、作品及读者”五个要素构成的文学活动观和四层介质“语言符号媒介、载体媒介、制品媒介及传播媒介”的媒介系统论构成[20]。此网络文学评价体系的建立是以新媒体机制的发展为基础,同时也是如何实现“媒介技术和文学评价活动”达成平衡的范式。此外,单小曦提出的“网络生成文学”,对于网络文学“虚拟”的重新理解也更新了文学研究者对网络文学的一般认识。因而,以媒介革命为基础的数字化文学的“接受”不再拘泥于对数字化文本的“接受”,也包括媒介技术下读屏方式的“接受”和“键盘输入”创作方式的“接受”,同时也是对整个数字化文学、新媒体文学创作机制的接受。

二、数字时代“整理”的崛起

随着数字技术和媒介技术的不断发展,通过计算机自然语言处理技术对文学文本进行“数字化处理”和“接受”十分重要。然而,当读者和作者完成了对数字化文学文本整体数字化语境的“接受”之后,我们是否可认为这将是人文研究工作者“整理”工作崛起的关键性阶段?一方面,基于数字化文本而言,需要构建专门的数据库或数据集对海量的文学文本进行分类存储,利于长期保存、提取、分析及研究;另一方面,随着新媒介革命的发展以及数据时代的到来,“时空物”(SPIMES)作为信息被储存在纷繁复杂的网络单元格里,如何在冗余的信息网络中对信息进行有效的整合至关重要。

(一)“时空物”概念再界定

挪威斯塔万格大学数字人文研究学者芬恩·阿内特·约根森(Finn Arne Jørgensen)曾在《物联网》(The Internet of Things)一文中提及“时空物”(SPIMES)这一概念。约根森这样定义“物联网”,“简言之,在某种程度上,技术实现了时间(Time)和空间(Space)的合一,物联网即“时空物”(SPIMES),一种可以在其生命周期里被准确地在时间和空间两个维度上定位、追踪的物件。”[21]而伴随大数据时代的发展,数据库或数据集的构建,以及存储在媒介环境里的数据信息,本质上都成为了利于“整理者”进行重新收集、整合、编辑资源的符码。换言之,“时空物”无时不刻不存在于我们所生活的数字环境中,从手机短信、微信、微博,到互联网、广播、电视,再到整个物联网体系。甚至,我们每一个人都成为携带“数据信息”的“时空物”,在数字网络中实现信息的交换及时空的“移动”。

芬恩·阿内特·约根森(Finn Arne Jørgensen)

一方面,胡塞尔现象学所涉及的“形式化”和“意向性”是对数字化文学文本“接受”的完美注脚,同时也是对“时空物”(SPIMES)这一概念进行再界定的关键。一般而言,“形式化”有狭义和广义两层意思。从广义上来讲,一切能被感知到的事物,并由它们构成的庞杂事物,以及能被意识到的精神活动,都能以标记、符号或者其他任一形式在意识中形成相对应的事物,比如图形、声音、字符等代号形式。换言之,亦即组成意识的基本材料,而这些事物总是通过一定形式呈现出来。而狭义的“形式化”则是“由逻辑学规定的,即指一种事先规定好的运行方式”[22]。文学文本数字化的处理方式即是狭义的形式化,即将某一过程形式化,也即建立一套算法,并将这一过程描述出来。从中或可窥出,只要是能被形式化的事物,就可以由计算机算法系统进行运算处理;其逆反推论也成立,即任何不能形式化的事物,计算机都不能进行处理。另外,意向性即是意识的指向性,其被视为区分机器和个体的人的根本特征之一:机器和人可以做同样的事情,人有意向性,但机器没有。可以说,“形式化”和“意象性”是判断数字时代事物能否被数据化的重要标准。

另一方面,基于四维坐标的“时空物”概念的再界定,即是对数字时代事物特征的本质概括。随着“数字人文”在人文学科的不断发展,众多人文研究者开始尝试不同的文本挖掘技术:例如文档聚类、文档分类以及摘要抽取等。在物理世界,以三维坐标(X轴、Y轴、Z轴)分别指代事物(Things)的位置;而在数字虚拟世界,或可尝试以四维坐标(X轴、Y轴、Z轴、ICT轴[23])来定位符码。这样每一个字符(字母、汉字、其他符号)不仅能被计算机输入、编码、存储、输出,而且自身带有时间信息,可以迅速定位某一客体。一方面,“时空物”利于文学批评者从时间维度展开讨论,并深入分析;另一方面,因其能聚焦某一“比特(bit)”的时空位置,也为数字时代“整理”的崛起提供了便利。诚如欧阳友权在《网络文学论纲》中所谈及:“现如今,从有形的物质世界到无形的精神世界的所有创造和成果,正越来越广泛地被压缩成0和1这两个数字让电脑以‘比特’形式作为数码信息化处理。”[24]可以说,计算机算法系统和互联网环境的不断发展逐渐改变了人们的生活方式,从物理世界的“原子”到数字世界的“比特”的跨越更改变了人们的认知方式,而“人类的理性‘逻各斯’必将在这种数字化时代异变中出现种种形而上的变迁”[25]。换言之,“比特”世界在给人文研究者带来量化研究、存储比对、文本探勘、数位制图等文本挖掘技术便利的同时,但其从本质上仍存在“形式化”和“意象化”的区分,因而这一符码化的“时空物”也彻底地与人阻隔开来。至此,如何于纷繁复杂的“时空物”中挑选、整理、编辑、合成有意义的事物(Things)十分重要。

(二)文本信息再“编码”

“一种形式的充裕必然带来另一种形式的稀缺”[26]。一方面基于数字时代“时空物”的普及,互联网空间缝隙里潜藏着海量的信息;另一方面,信息冗余和信息需求间的不对称性成为催生“整理者”崛起的主要原因。而“整理”的崛起恰恰“呈现出网络用户与信息之间的重大关联,意味着信息组织的权利被重新移交给了用户。”[27]因而,在信息泛滥的数字时代,“整理”崛起大势所趋,“整理者”工作任重道远。其一,需注重对人文数据库或数据集的建设;其二,擅长运用爬虫技术、云盘技术、Python等工具对信息进行有序化、规范化的梳理。

一方面,人文数据库或数据集的建设是“数字人文”方法论得以应用的基础,也是整理数据、存储数据、分析数据的重要数字平台。结合文学研究范式转型的背景,在具体分析了以符号逻辑为基础的算法系统的建构以及媒介革命下数字化文学的“接受”之后,结合“时空物”(SPIMES)的具体特质,“整理”的崛起的关键在于对信息的输入、存储、转码及输出,同时包括“有序性”和“规范性”两大特质。从“数字人文”研究背景来看,数据库或数据集的构建主要表现为两层含义:一方面,将非数字的人文材料加工转码为数字内容进行分类存储,例如由百度发布供网友在线共享文档的百度文库、中国学术期刊CNKI项目等。另一方面,对非结构化的数字人文材料,基于研究者的需求,对其进行规范化、规模化、板块化标注著录的数据集建设,如由“国立台湾大学”数位人文研究中心研发的Docusky数位人文学术研究平台、以及用于历史文献研究的数位人文工具Markus等。基于这两种不同的数据集建设模式,2017年,比利时汉学家魏希德(Hilde De Weerdt)在接受采访时谈及“数字人文”方法在历史研究领域的应用。他谈道,“研究者能借助数位人文进行更加多元化的分析”[28],数字人文研究者可以借助数据库对文学文本进行标注、注释及文本比对等。

另一方面,“数字人文”分析范式的探索与数据库或数据集的搭建同等重要。当数字人文技术转向文学理论研究时,其主要涉及历史学、语言学、图书馆学、艺术、文献学等学科领域。国内聚焦研究数字人文方法论的学者不多,结合主要学者的研究思路以及个案分析,用数字技术分析人文理论,目前主要有三种方式:一是文献计量法。如柯平、宫平[29]在《数字人文研究演化路径与热点领域分析》(2016)中运用文献计量方法,结合可视化工具,对数字人文研究文献进行统计分析和内容挖掘,并通过SATI3.2、Cite Space III[30]工具进行具体数据分析。何晓萍、黄龙在《大数据领域演进路径、研究热点与前沿的可视化分析》[31]一文中同样以Web of Science为数据源,以可视化软件Cite Space III为工具,分析大数据的重点聚焦领域。二是人文计算法。李启虎、尹力、张全在《信息时代的人文计算》[32]一文中,介绍了人文计算的基本模型,主要运用到数据挖掘、文本挖掘、词频分析三种方式。三是文本分析和主题建模的结合;例如范桢在《机读〈白石老人自传〉——艺术史数字人文研究方法初探》[33]一文通过具体的文本挖掘和主题模型对齐白石的特定作品重新解读,同时,苏文成在《数字人文研究方法争议浅析——以宋词流派特征距离阅读项目为例》[34]一文中,采取文本分析、主题建模、数据挖掘、可视化等手段,通过运用NVivo11软件的文本词频分析功能,对获取的876首宋词数字文本进行关键词词云分析与关键词聚类分析,以期达到挖掘、呈现宋词文学流派特征形态、规律之目的。文本信息何以通过计算机实现再“编码”,并被有序存储起来,这既离不开人文数据库的构建,同时也是文学研究范式得以不断突破的关键。

(三)文本意义再“阐释”

文学文本再“编码”的过程,实则是文本意义再“理解”、再“阐释”的过程。首先,从结构主义到解构主义的演变过程中,何以从凌乱化、碎片化的信息中整合出具有美感的艺术作品;其次,借助数字人文工具,可以在多大程度上“放大”或“缩小”研究的范围,实现对文学作品的多维研究;最后,在“整理者”崛起的环境机制中,整理者何以实现文本意义的改造与重写。

首先,从杂乱、碎片化的信息中整合出具有美感的艺术作品,一定是在整合信息后,赋予信息以特殊的含义。例如,清华大学向帆的作品《Award Puzzle》,主要通过对历届全国美术作品展览获奖的共计2,276张油画作品进行大数据分析,在进行量化处理之后,分别按照主题、大小、颜色以及获奖作者等不同维度用可视化方式加以呈现;其作品完美阐释了数字人文技术何以使数据转换成诗意与惊奇[35]。其次,数据库以及数字技术分析范式在一定程度上能根据研究者的研究视角,“放大”或者“缩小”研究范围。换言之,基于文本数据库信息,数字人文研究者可以在成千上万条检索结果中对某一条检索结果比较满意,或是对某一文本特别感兴趣;同时我们也可以通过相关数据库整理出与该条检索结果或者文本中的某些内容相关联的其它文献的记载情况,这样便将该文本置于更大的背景之下进行研究分析。因此,数字人文研究者可以充分利用信息之间的关联性来实现不同文本之间的对比研究,充分获取有效信息,赋予文本以独特的意义。

另外,融信息的接受、发布和传播为一体的整理,包括人工整理和机器整理。新技术的诞生,孵化孕育了新的传播手段,也加速了媒体形态的更迭,但毋庸置疑,不管哪种传播方式都无法改变其作为内容产业的生存发展规律。在“数字人文”背景下,“整理者”的崛起在一定程度上意味着信息组织的权利被重新移交给了用户。因而,在人人自媒的时代,大众可借助各种各样的数字技术工具以及不同类型的数字人文方法去处理海量的信息。在海量数据库中,每一文本都可以与另一文本相互联结,这也意味着人文研究者,也即整理者可以对文本意义进行改造和重写,从而实现文本意义的“再生成”。如果说“人工整理”只是基于互联网媒介环境、各大平台网站的数据库资源进行人工整理,以期为研究者提供有价值的信息,那么,“机器整理”则主要通过数据流量、个人兴趣爱好、浏览记录等相关信息,由计算机系统自动生成。而“人工整理”和“机器整理”的结合,被广泛运用于文学研究中,如爬虫技术对社会热点问题的介入等。

随着数字时代和新媒体技术的不断发展,聚焦“时空物”(SPIMES)的存在状态,借以阐释大数据时代下人文研究者作为“整理”崛起的关键时期,通过实现不同文本间的联结,从而对文本意义进行改造与重写。而当数字化文学文本实现了“接受”到“整理”的过渡,最后则是何以通过数字化技术“生成”文学文本的多源意义。

三、文本意义的多源“生成”

从结构主义到解构主义的演变,或可窥见解构主义并不是“否定”某一个事实,而是一种肯定、一种投入。解构主义一方面打破了长期禁锢人们的传统一元推理方式,一方面也是多元意义生成的关键。与德里达的解构主义哲学相比,德勒兹思想同时也呈现出一种鲜明的“建构性”。从德勒兹的后结构主义生成论文论出发,分析计算机自然语言处理、主题建模、可视化呈现后,字符如何通过转码赋予文学文本以意义。在数字化媒介时代,这一“生成”的过程,主要可从文学文本的主题情感、叙事话语以及人物形象三个维度进行阐释。

德勒兹(Gilles Louis Rene Deleuze)

(一)数字媒介机制下文本的情感生成

依托数字媒介环境而生成的网络文学,其文本特点和生产机制决定了人文研究者在进行文本研究过程中对情感场域的把握。其中,数字媒介机制下文本的情感生成,或可从以下三个维度加以理解:一是读者参与文学文本地有意识阅读(Close Reading);二是数字媒介机制下计算机何以判断数字文本所透露的情感(Distant Reading);三是依托媒介大环境的数字化文本,因处于复杂关系场域和多重节点、联系文学活动五要素“作者—读者—作品—社会环境—媒介”所产生的复杂情感。

文学自诞生起就负载着传播人类情感,反映时代生活,昭示历史未来的使命。当下的社会正处于由信息技术革命所导致的全球化时代,且互联网的兴起大大改变了信息传播的时间和空间观念,网络技术的革命带给人们崭新的生活方式和思维方式。依托数字化媒介技术产生的网络文学,有其内在的组装、运行和功能。“网络”不仅仅是实在的作为电子媒介的互联网,还是无形的关系网,“情感”不再是读者直接从网络文学文本之间直接推理出来的,其还存在于网络文学自身的整个“生产—运行”机制中;同时也是文本与更大的文本间性与语境中的诸种接合所组成的复杂关系。对于文本间性,朱莉娅·克里斯蒂娃曾说:“每一个文本把它自己建构为一种引用语的马赛克;每一个文本都是对另一个文本的吸收和改造。”[36]换言之,“文本间性”的存在,使得媒介环境中网络文学的情感生成更为复杂。其不仅涵括读者对网络文学自身的理解、伴随网络文学生产机制致使的情感场域以及文本与文本间性以及更大的社会语境中产生的复杂情感。曾军在《文本意义的“多源共生”》一文中谈及:“另一方面,文本意义的生成还受到其他因素的干扰和影响,比如说意识形态的影响、伦理道德的制约、理想读者的期待以及文本创造时各种非智力因素的干扰,等等。”[37]因此,当我们面对依托网络媒介环境生成的网络文学时,也应看到文本创作时其他因素的影响。

一方面,探索“符号逻辑为基础的算法系统”和“符号论美学”相呼应的情感符号学意义。依托符号媒介,美国著名符号论美学家苏珊·卡纳斯·朗格在其著作《情感与形式》一书中,从艺术符号、符号的创造、符号的力量这三个部分来详细阐述符号论的美学思想,进而形成一个完整的理论体系。同时,苏珊·朗格认为:“艺术,是人类情感的符号形式的创造”[38]。因而,从某种意义上说文学的本质就是情感。网络的诞生恰恰为人们提供了一个最自由、最民主、最开放的不必附加任何意义成分的情感宣泄场所。网络文学的多媒体性弥补了某些形象塑造有困难,而情感饱满、需要倾诉的需求。另一方面,依托德勒兹的“情感转向”理论,对网络媒介生产机制下创作的文本作品进行情感的“生成”分析,这里的“生成”是行动力量的流变,是强度的集合,它消弭了作者、读者、社会、作品之间的界限,情感在这一生产的过程中进行操作。我们知道德勒兹的“情感”理论是其哲学思想的核心概念,它对当下文化研究领域的“情感转向”思潮起到了重要作用。德勒兹主要从两个维度对“情感”进行阐释:一方面,以情感为对象,对前人的情感理论进行了创造性重释;另一方面,以情感为方法,通过情感对文学、艺术等领域进行重新思考。但在这里,我们侧重后者,即把情感作为方法,来对数字化文学作品进行抽象式概括分析。

(二)数字化文本中叙事话语的生成

在以符号逻辑为基础的算法系统的构建、数据库或数据集的建设、数字人文分析模型的搭建以及数字化文本的简单处理(切词/分词)过程之后,是否可回归到数字化文学文本自身。当“语词”转码为计算机可识别的逻辑“符号”后,是否也预示着人文研究者对叙事话语的分析经历了从“自然语言的提炼”到“赋予符号以叙事意义”的转变的过程?在这一背景下,叙事话语的生成主要包括情节生成、事件生成以及内容生成等。

一方面,随着计算机技术的不断发展,文学和人工智能(AI)的结合更为紧密,AI机器人写诗作文、制作音乐、编辑新闻稿等逐渐出现在大众视野中。目前,上海玻森数据公司“编诗姬”、微软小冰、清华薇薇以及清华大学智能技术与系统推行的“九歌”等在市场上的推广,都意味着计算机数据库对人类叙事话语的“接受”与“生成”。其中,“生成”的概念在这里除了德勒兹所强调的,“真正的小说家或文学家总是那些能为我们提供新的感受或创新的生成的人,他们总是能够为我们提供新的可能性、新的生命气息”,换言之,即“生成”是一种极具创新力、生命力,充满无限可能性的文学创作形式。但与此同时,“生成”作为一个计算机指令的专业术语,也具有重要意义。其中,机器人写作的核心技术主要包括自然语言处理,同时涉及数据挖掘、机器学习、搜索技术、知识图谱等。现有的写稿机器人,我们从广义上来看,就是一个自然语言生成系统,主要有模板式、抽取式、生成式。现阶段,模板式和抽取式是比较常用的技术处理方法,以模板式为例,用腾讯Dreamwriter进行一篇新闻稿件的创作,其创作过程主要包括建设内容数据库、基于数据库的机器学习、基于主题进行写作、内容审核以及渠道分发。

另一方面,在数字化文学文本分析过程中,情节和事件的生成离不开对记叙文六要素的提取与赋值。一般而言,记叙文的要素包括时间、地点、人物、起因、经过和结果。而叙事话语中的情节和事件正是对这六要素的排序整合。计算机通过在文学文本中标记出时间、地点、人物等信息,并通过“有效”的动词和名词来标记事件的起因、经过和结果。这里的“有效”的含义即指,人类思维与计算机的算法无限接近状态下被标记的动词和名词。换言之,计算机能“抽取”和“识别”的语词,最接近人的叙事方式和表达习惯。计算机是通过概念对客观世界进行表述的,“概念”即是物理世界事物与事物之间的联系,和人的思维类似,计算机也是通过识别一个“概念”,与之相关的其他“概念”即都可被识别出来。例如,与“学生”相关的“课程”、“学校”、“老师”等概念,也会一并被计算机识别和输出。因此,利用事件和情节来描述客观世界,比用单一的叙事要素来描述对象更为准确。用计算机语言处理文学文本数据库,其本质就是计算机算法逻辑和人的叙事表达逻辑之间的权衡与博弈。但最终,通过反复演练模拟、计算机的算法逻辑或可在一定程度上无限接近人的思维。

(三)语词库构建下的人物形象生成

“人物形象的生成”是叙事话语生成较为重要的部分,同时,人物画像标签语词库的建立也是计算机分析文学作品中人物形象的关键。因而,回应该问题的关键在于把计算机算法逻辑中的设定问题转换为文学研究的相关问题。例如,在进行小说人物画像标签语词库的建设时,传统算法逻辑一般是聚焦描述人物形象的形容词。但文学作品中的人物形象一般都比较复杂,并不是扁平化的人物,能直接用一到两个词精准概括表达。

因此,我们是否能尝试从人物的外貌、气质、性格、能力、价值倾向、基本信息六个维度来进行人物形象语词库的建立?人物外貌主要包括身形、服饰、神态、容貌、嗓音和气味;能力包括智力、情商、天赋和技能;而技能下面又包括文才和武艺(仙术、魔法和武器)等。这样从大到小、由抽象到具体的进行语词的梳理,以致计算机能“一键输出”式精准提炼出文学文本故事中的人物形象。诚然,这种量化处理和智化分析相结合的研究范式,能弥补纯粹人工研究的局限性。但我们也应看到目前数字技术的不成熟性,对“数字人文”方法的探究与学习仍处于初级阶段,因而,在今后的学习阶段,也应大胆试错,不断优化“数字人文”研究模型与方法,才能为人文研究者带来更多的研究可能性、实现文学研究范式的转型、开辟新的学术研究方向,从而构建新的学术话语体系。

最后,德勒兹认为,“在各种具体生成间存在着某种独特的关联,在他看来,一种生成能够通向另一种生成,各种生成之间也能够进行转化”[39]。无论是情感的生成、主题的生成、叙事话语的生成、人物形象的生成等,并不是孤立存在的,而是可以相互转化、相互影响、共同生成文学文本叙事话语。对于“数字化文学研究方法又能为文学研究的发展带来哪些新的可能性”的问题,或者“数字化文学研究方法解决了传统文学哪些无法解决的难题”,在此主要做两点回应:一是,数字化技术处理文本,构建数据库,省时省力;二是,对于文本间性、文本比对等文学问题的研究,用计算机技术处理会在媒介环境机制中生成更为深邃、复杂的场域,更具生成的魅力、文学的生命力。

苏珊·朗格:《情感与形式》

结 论

从数字化文本的“接受”到“时空物”(SPIMES)的思维坐标定位,再到“整理”角色的崛起,最后再联合德勒兹“生成论”的核心观点与计算机指令“生成”的算法意义,在文学场域回应算法逻辑(计算机科学领域)所涉及的重要数字人文问题。而后据德勒兹的生成理念,“生成—不可感知”使得创作者达到了某种非个人、非主体的生命力量,并将生命提升到非个人的状态,同时也是借助这种生命力量,创作者(包括作者、艺术家、文学研究者以及“计算机分析系统”)才能为我们创造、提供一个崭新的、充满生命活力的感知世界。而随着数字人文在文学研究领域的广泛应用,追根溯源即探究计算机的算法逻辑是否能无限接近人的思维逻辑。“中文屋”和“图灵测试”的论争,数字人文方法论下的数字化处理模式是否能无限接近人的需求或指令,对未来数字人文量化研究具有十分重要的理论指导意义。此外,数字人文之于文学研究方法可能性的推演论证和理论化构建也是非常重要的问题,但囿于篇幅以及回应该问题所牵涉学科领域(哲学、计算机科学、人类学等)的广度、理论化构建的复杂性,因而仅在此提出作为启发参考。

—————————————————————————————————————————————————————–

Acceptance, Arrangement and Generation:A Preliminary Discussion of the Transformation of Research Methods in the Context of Digital Humanities

Yin Qian

Abstract: With the popularization of digital technology and media, the traditional understanding of“knowledge”in the field of humanities has been broken through, and the traditional literature research paradigm will probably realize its transformation and innovation in the wave of“Digital Humanities”. The possibility that the research paradigm of digital literature brings to the development of literary research can be discussed from the following three dimensions: one is to explain the mechanism of computer processing and recognition and the reader’s acceptance, focusing on the differences between the recognition, processing and analysis of literary texts by computers and readers’ acceptance of literary texts; the second is to describe the existence state of“space-time objects”(SPIMES), in order to explain the rise of“collation”in the era of big data, and to transform and rewrite the meaning of the text by realizing the connection between different texts; thirdly, by combing the main digital technologies used in text analysis, it explores the visual (digital) generation of the emotional themes, narrative discourse and characters in the text.

Keywords: Digital Humanities; Methodology; Acceptance; Collation; Generation

—————————————————————————————————————————————————————–

编 辑  | 严程

注释:

[1]顾新华、顾朝林、陈岩:《简述“新三论”与“老三论”的关系》,《经济理论与经济管理》1987年第2期。

[2]陈静:《当下中国“数字人文”研究状况及意义》,《山东社会科学》2018年第7期。

[3]谢玉亮:《文化哲学视野下的科学与人文之争》,《福建论坛》(社科教育版)2010年第12期。

[4]数字人文从广义来讲,“数字人文”的定义变得更具兼容性,更多的是从数字时代出发考虑重构人文知识的脉络和内容,试图从新的技术角度去构建当代知识系统和认知方式。在这篇论文中所提到的“数字人文”均采用其狭义的概念,如有不同,会特别在文中注明。

[5]参考M.H.艾布拉姆斯:《镜与灯:浪漫主义文论及批评传统》,郦稚牛、张照进、童庆生译,北京:北京大学出版社,2015年。

[6]Susan Schreibman, Ray Siemens and John Unsworth, A New Companion to Digital Humanities, Wiley Blackwell, 2016, P. 43.技术实现了时间(Time)和空间(Space)的合一,“时空物”(Spimes),一种可以在其生命周期里被准确地在时间和空间两个维度上定位、追踪的物件。

[7]数字人文广义来讲,“数字人文”的定义变得更具兼容性,更多的是从数字时代出发考虑重构人文知识的脉络和内容,试图从新的技术角度去构建当代知识系统和认知方式。

[8]参考丹·扎哈维:《胡塞尔现象学》,李忠伟译,上海:上海译文出版社,2007年。

[9]强AI智能指出:AI不仅仅是实现人类智能的工具,事实上它就等同于人类智能;弱AI则认为:AI仅仅是实现人类智能的工具,对它的评价不应越出这一范围。此处对大脑神经网络的模拟接近强人工智能。

[10]参考玛格丽特·博登:《人工智能哲学》,刘西瑞、王汉琦译,上海:上海译文出版社,2011年。

[11]朱本军、聂华:《跨界与融合:全球视野下的数字人文——首届北京大学“数字人文论坛”会议综述》,《大学图书馆学报》2016年第9期。

[12]参考赵敦华:《现代西方哲学新编(第二版)》,北京:北京大学出版社,2014年。

[13]参考赵敦华:《现代西方哲学新编(第二版)》,北京:北京大学出版社,2014年。

[14]参考特伦斯·霍克斯:《结构主义和符号学》,上海:上海译文出版社,1987年。

[15]常见的汉语分词工具:StanfordNLP、哈工大语言云、庖丁解牛分词、盘古分词、ICTCLAS、IKAnalyzer、FudanNLP等。

[16]参考H.R.姚斯、R.C.霍拉勃:《接受美学与接受理论》,周宁、金元浦译,沈阳:辽宁人民出版社,1987年。

[17]参考朱立元主编:《当代西方文艺理论(第三版)》,上海:华东师范大学出版社,2016年。

[18]陈静:《当下中国“数字人文”研究状况及意义》,《山东社会科学》2018年第7期。

[19]参考戴卫·赫尔曼:《新叙事学》,马海良译,北京:北京大学出版社,2002年。

[20]单小曦:《网络文学评价标准问题反思及新探》,《文学评论》2017年第3期。

[21] Susan Schreibman, Ray Siemens and John Unsworth, A New Companion to Digital Humanities, Wiley Blackwell, 2016, P. 43

[22]参考玛格丽特·博登:《人工智能哲学》,刘西瑞、王汉琦译,上海:上海译文出版社,2011年。

[23]x、y、z代表长、宽、高这三维的坐标,ict是第四维坐标,其中,i是虚数=√-1,c为光速,t是时间(单位:秒)。

[24]参考欧阳友权:《网络文学论纲》,北京:人民文学出版社,2003年。

[25]参考欧阳友权:《网络文学论纲》,北京:人民文学出版社,2003年。

[26]阑夕:“整理者:明日互联网的枢纽角色”,2015年1月23日,https://www.huxiu.com/article/106975.html,2020年7月21日。

[27]阑夕:“整理者:明日互联网的枢纽角色”,2015年1月23日,https://www.huxiu.com/article/106975.html,2020年7月18日。

[28]刘家隆:“访谈魏希德:如何将数位人文工具Markus用于历史研究”,2017年2月10日,https://www.thepaper.cn/newsDetail_forward_1611410,2020年8月18日。

[29]柯平、宫平:《数字人文研究演化路径与热点领域分析》,《中国图书馆学报》2016年第11期。

[30]郭新敬、沈子炀:《基于cite space III对于大数据研究的可视化分析》,《现代经济信息》2017年第2期。

[31]何晓萍、黄龙:《大数据领域演进路径、研究热点与前沿的可视化分析》,《现代情报》2015年第4期。

[32]李启虎、尹力、张全:《信息时代的人文计算》,《科学》2015年第1期。

[33]范桢:《机读〈白石老人自传〉——艺术史数字人文研究方法初探》,《图书馆论坛》2017年第7期。

[34]苏文成:《数字人文研究方法争议浅析——以宋词流派特征距离阅读项目为例》,《图书馆论坛》2018年第2期。

[35]程竹:“清华美院向帆作品亮相法国数据设计展”,2018年5月14日,http://www.sohu.com/a/231566112_172495,2020年8月18日。

[36]参考茱莉亚·克里斯蒂娃:《符号学》,史忠义译,上海:复旦大学出版社,2015年。

[37]曾军:《文本意义的“多源共生”》,《社会科学战线》2017年第10期。

[38]参考苏珊·朗格:《情感与形式》,刘大基、傅志强、周发群译,北京:中国社会科学出版社,1986年。

[39]参考朱立元主编:《当代西方文艺理论(第三版)》,上海:华东师范大学,2016年。

原刊《数字人文》2020年第3期,转载请联系授权。

zh_CNChinese