诗歌声音的计量分析与历史秩序

李飞跃 / 清华大学人文学院

郝若辰 / 清华大学人文学院


《诗大序》以“情发于声,声成文谓之音”[1]描述原初诗歌的生成。由于音声材料不存,声为律所节构成音韵、音韵通过生理传导令人兴会感动的过程有赖今人设法还原。音韵学、诗律学乃至认知语言学的研究已经实现了极大的推进,然而我们仍不愿停止设想,借助当下的技术手段和全新视角,还原与阐释“声音—意义”“节律—情感”的组合链条,还有哪些踵事增华的可能?

卡尔维诺在论文集《文学机器》里假设了这样一种情形:

没有任何东西禁止我们想象出这样的一台文学机器:从某个时刻开始,它不再满足于自身的传统主义,于是提出对于写作的一些新的理解,并彻底打乱自身的所有规则。为了满足那些追求文学事实与历史、社会学、经济事实之间一致性的评论家,这台机器可以对自身的风格进行改变,并且与生产、收人、军费、决定性力量的分配等因素的各种特定统计指标的变化联系起来。那才是能够与假设的理论完全相符的文学,也就是终于成为文学。(《控制论与幽灵》)[2]

20世纪中叶以来,“文学机器”通常是基于结构主义理论的一种具象化比喻,即将文学作品看作系统,核心组成部分是思维代码,[3]因而其生成方式就像机器生产。随着技术与研究手段的发展,卡尔维诺的“机器”与Claudio Guillen的“代码”都有了具体所指。从较浅层次来讲,人们倚赖计算机进行文学创作与研究,获取素材与文献、进行写作与传播,如今已并不新鲜。在更深的层面上,机器学习已经几乎能够实现卡尔维诺的设想,例如本期提到的人工智能诗歌写作系统“九歌”,有时生成的诗作突破传统束缚,给人们以新奇和惊艳;再如机器学习能够完成诗歌文本分析(如主题模型识别)与量化研究(如声律统计)等。在数字人文时代,“文学机器”不仅是用于古典诗歌研究的辅助工具,更是一种新的视域,如同卡尔维诺所说,填补文学生成中因与果、灵感与作品之间的空虚,是使“文学终于成为文学”的所在。

托多罗夫在《诗学》的开篇提出“解释的”与“科学的”两种文学态度,前者是将研究对象作为主体的意图研究,例如针对中国古典诗歌的作者生平与心态研究、史诗互证的历史主义研究、作品鉴赏等;而第二种是要求每一个特殊文本都被看作是对于一种抽象结构的表现,“参照由分析者选定的一种总体观点:其目的不再是描述个别作品,不再是指明其意义,而是确立一些总的规律,而这一个别文本则是这些规律的产物”。[4]传统诗歌领域不乏以“科学的”态度进行的研究,如声律规则、句法规律与炼字法则等,兹举几例唐宋诗论:

诗上句第二字重中轻,不与下句第二字同声为一管。上去入声一管,上句平声,下句上去入。上句上去入,下句平声。以次平声,以次又上去入。以次上去入,以次又平声。如此轮回用之,宜至于尾,两头管。上去入相近,是诗律也。[5]
上二字为一句,下三字为一句(五言)。上四字为一句,下二字为一句(六言)。上四字为一句,下三字为一句(七言)。[6]
古人炼字,只于眼上炼,盖五言诗以第三字为眼,七言诗以第五字为眼也。[7]

科学的态度并不意味着绝对的科学方法,这并非出于对古人的苛求,而是着眼于方法技术全面革新的当下,如何使旧学细密而新知深沉。科学态度指导下的文学研究,首先是对语言学方法的借鉴。当20世纪西方的文学研究从外部转向文本内部时,便系统引入了以索绪尔为代表的语言学理论,进而发展为名动一时的结构主义流派。古典诗歌与语言学的结合则以王力《汉语诗律学》为代表,取径清人声调理论而上接唐代诗歌律法,对古典诗歌声律作了全景式和集成性总结。

诗歌语言不仅有别于普通语言,在文学语言中也独树一帜,全盘套用只会“让语言学科学像格兰代尔(Grendel)的母亲那样,嘴里滴着诗歌碎片把他们追到避难地……摆弄诗歌并强迫它交出秘密或强迫它假坦白”。[8]《汉语诗律学》之所以能在古典音韵学与现代语法学的基础上开诗律研究的风气之先,与作者的诗学素养以及对诗歌文本主体性的充分尊重密不可分。近来语言学领域的诗歌研究,也越发细致地关注到诗歌作为语料的独特性,提出韵律语言学的具体范畴。[9]在具体操作层面,体现为不仅采取全样本及量化研究方法、建立特定诗学语料库并着重关注诗学语言区别于普通语言的诸种要素,例如声律、句法、节奏、修辞等,还应将他们之间的关联看作一个动态有机的系统,如同生成诗律(Generative Approach)所倡导的那样。最重要的是,永远以诗歌的审美性与情感表达为终点。正如卡尔维诺所说,“我想到的是那个对于所有元素,那些我们通常十分珍惜,而且认为来自私密的内心世界、以往的经历、无法预料的情绪冲动、惊异、折磨和内心感悟的特性进行讨论的文学机器。这些难道不同样是我们完全能够为其建立起词汇、语言句法,还有可交换属性的语言领域吗?”[10]

回到托多罗夫的两种文学态度上,前文各表一枝的论述方式不免有将二者割裂之嫌。事实上“科学的”态度并非是对“解释的”态度的迭代,诗歌作为情感与信息的传达,阐释与理解不可或缺,而科学的态度恰能反哺于阐释与理解。

本期所载陈威教授(Jack W. Chen)《阅读〈全唐诗〉:文学史、主题模型、散度度量》是一项新的关于《全唐诗》文本挖掘的研究案例。此前已有一系列借助数字人文工具基于《全唐诗》《全宋词》的整体挖掘与探索,在感知到机器手段可以应用于古典诗歌之后,文学研究界内外早已涌动着“以整体的批评性表达撼动传统文学史叙事”的浪潮。近十年来,刘昭麟教授团队利用词频统计和信息检索等手段对唐宋诗歌进行了全景式扫描,如《〈全唐诗〉的分析、探勘与应用——风格、对仗、社会网络与对联》[11]、《唐宋格律诗分词标记的探索》[12]。2018年“Python中文社区”也呈现了一个以《全唐诗》为对象进行文本挖掘分析的案例,作者全面利用词频分析、语义网络分析、多维情绪分析、相似性检索、文本比对等手段,进行了远读《全唐诗》的实践。[13]王兆鹏教授则提供了一系列关于宋代的经典案例:围绕选本、评点、研究论文与唱和等几个衡量指标,以量化方式制作出一份宋词排行榜,[14]而后又运用GIS技术,从文学地理学角度出发绘制出唐宋文学地图。[15]近年来,依托地理信息技术的文学研究成果斐然,本期《古典诗词“参横”意象的时令规律与审美价值——基于数字人文天象模拟技术的探析》一文将视野扩展至天文模拟的领域,利用Stellarium软件,基于大数据对参横的时令规律进行了模拟计算。

传播接受、地域研究、自然现象模拟等皆是文学外部研究的重要维度,除非局限于个案,否则样本数据的数量是推进研究进程的关键因素。在掌握足够的数据并能够用技术手段进行分析处理的情况下,传播接受或地域研究成为观测《全唐诗》《全宋词》或任何作品总集的有效横切面,并能够以图表化的直观方式呈现大数据分析结果。微观的比较分析是远读的另一个层面,《汤显祖“临川四梦”的文本勘探与可视化分析》一文借助Python、CORPRO以及Gephi等现代技术手段,从词频、“LDA主题模型”、人物社会网络等方面分析四部作品的语言、结构和主题,进行了“临川四梦”的聚类与比较研究。

如果不局限于传统参数的设定,更加立体多维地观测某一时代的总体作品会得到怎样的结果?E.D.赫希在《解释的有效性》中说,“一个解释者对一个文本的类属所持的最初看法是他后来所理解的全部东西的一个组成部分,除非和直到那个类的概念发生变化。”[16]而数字化的研究手段和处理更大量级文本的能力正提供了使许多传统的类概念发生变化的契机。就像陈威教授在研究中提出的:

如果数据集合足够全面,或者至少更加坚实之后,唐诗的历史应该呈现出什么面貌呢?也就是说,阅读《全唐诗》会如何改变我们对唐诗的看法?可以确信的是,阅读《全唐诗》的行为以及任何基于《全唐诗》整体的批判性表达都自然会背离于传统文学史相关的通常叙述方式。

这一表述暗含着从Margaret Cohen到Franco Moretti再到如今的数字人文研究者对于“未被阅读的大多数”(Great Unread)的焦虑。[17]在一息尚存的古典主义世界里,布鲁姆等研究者用确立正典并把非传统、非经典的文类以及现世的娱乐、快感与环境适宜排除在外的方式对抗这种焦虑,然而数字人文喻示的是另一种人文主义(Humanism),更接近于萨义德而非布鲁姆的立场。

人文主义是努力运用一个人的语言才能,以便理解、重新解释、掌握我们历史上的语言文字成果,乃至其他语言和其他历史上的成果……是一种质问、颠覆和重新塑形的途径。[18]

除了陈威教授的文章,本期声律专题中的几篇文章,也从声律角度进行了全景式描绘《全唐诗》的尝试,例如《从永明到景龙:初盛唐近体诗声律规则的还原与重构》一篇,用历时性的眼光看待近体声律的产生与发展。作为诗国高潮的初盛唐,其实是永明声律与近体声律共存的过渡期而非近体诗成熟期,而所谓“唐诗声律规则”的定型因面临强者诗人的影响、地域与群体局限而经历波动。明清以来往往倾向于对唐代声律规则作出整体性描绘,然而声律作为一种语言要素,其发展也符合《普通语言学教程》中总结的规律:“在任何创新的历史上,我们都可以看到两个不同的时期:(1)出现于个人的时期;(2)外表虽然相同,但已为集体所采纳,变成了语言事实的时期。”[19]而传统的文学史叙述往往不善于或不乐于严格区分这两个时期。在确认永明律于唐代有显著遗存的基础上,数据统计能够帮助廓清一系列具体问题,例如杜甫等诗人律诗中四声递用是由于规避鹤膝声病导致,“平平仄平仄”句式在唐代的大量使用与蜂腰声病有关等。以上工作得以实现不仅在于全样本分析,而是四声八病自动分析系统重新确立了数据处理标准(如将体现合律度的参数一一量化),并且极大程度优化了数据处理效率的结果。在从永明体到近体的发展这一问题上,刘跃进[20]、何伟棠[21]、杜晓勤[22]等诸多前贤已完成了现有探索中的绝大部分,对于某些问题的全样本分析结果也只是对前人结论的佐证。然而智能分析工具的参与千百倍地提升了可处理样本的量级,并且可随时为有志于这一领域的后人所用。

基于数据处理的客观实践,声律研究首先表现出古典诗歌领域对数据处理与代码编写技术的需求,在过去的十余年间,这方面的研究尝试已取得了相当的成果。杜晓勤教授主持开发的“中国古典诗文声律分析系统”首次实现中国古典诗歌的大批量四声标引及永明八病的分析与统计功能,其理论独创还在于对“联间组合”的统计,这以“粘式律”的比率变化作为各时期作品律化程度的量化指标。[23]台湾大学蔡瑜教授团队开发的“汉诗格律分析”系统是目前对外开放的声律分析系统,[24]该系统汇通诗学文献与音韵学研究资源,结合“小学堂汉字古今音资料库”[25]中各类结构化韵书材料,可在选取韵书、设置特定声病判定标准的基础上,进行单篇诗文的声病标引分析及多音字手动校验,只是由于后台缺乏高精度诗歌文献数据因而尚不支持较大批量语料的分析及统计。北美学界的宋晨清与张洪明相对于传统的经验技术,选择了新一种定量的方法进行永明声律分析,特别关注音调的相对凸显。他们利用二项式检验、卡方检验和贝叶斯估计等方法,将永明的声调对比数据与永明之前的数据以及随机声调排列进行比较,得出不同于以往的结论,认为永明体诗中的成对调性对比只是有很多例外的强烈倾向。[26]

此外,还有本期介绍的“诗词资料库门户网站搜韵网”[27],利用计算机技术深度挖掘整合相关人文数据,开发出众多声律工具,如诗体判定、格律校验、特定格律句式反向检索等。北京师范大学团队基于计算机自动标注技术,分析《全唐诗》15,290首律诗中的拗句,并以此为参照重新审视、深入辨析王士禛、赵执信等人的“拗救”说,认为拗救更多是唐诗格律中的“常中之变”,而非清人及后来作者所认为的一定之规。[28]清华大学数字人文团队采用自动标引与人工校补结合的方式,实现了对诗歌声律的精确标引。在全部五言诗与七言诗之外,重点关注五言四句、五言八句、七言四句、七言八句四类最接近标准格律的诗作,统计每一类型下的首句、对句、联句、篇体和字节、句法、用韵的数量、排序及组合特征,极大程度校正了明清学者不断建构的“标准诗律”结果。[29]

由于音调在汉语韵律中占有重要地位,诗句中绝对或相对位置的声调选择是古典诗歌声律主要讨论的问题。另外还有一系列韵部与声纽相关规则的约束,如用韵及永明四声八病的后四病等。从普遍的语言学概念来看,韵律(Prosody)指诗篇或诗行中的节奏及音节长短、强弱相对凸显的总体规律。[30]运用技术手段进行古典诗歌声律研究,发现与问题并存甚至相生,例如诗行中的不同位置具有不同的声律权重,诗歌分词、节奏划分则是确认量化标准前的基础工作。在“基础设施”栏目中,“搜韵网”创建者陈逸云介绍了如何通过韵表的数字化与格律的程序化实现近体诗的辨音、校雠与创作辅助功能。王琳夫《词谱研究的数字化实践与反思》则指出数字化词律研究相较于诗律研究的复杂性,其中应用最为广泛的“互校法”更是要求程序化、规模化、精细化的字声统计方式。当从更高维度看待古典诗歌的声律概念,则不仅要求更复杂的技术手段,例如从标引统计到机器学习,并且需要理论体系上的更新来指导新技术的研发。

以语言学界最近提出的韵律语言学为代表,其注重诗歌语言独特性的同时,也将韵律的诸种相关要素,如音步律、轻重律、长短律、虚轻实重律、韵律冲突、韵律和谐等作为一个动态整体看待,毕竟“规则、规律和体系,加之原理与机制,方可构成今天所谓的‘理论’”。[31]前人关于声律的经典研究中,已不乏这种科学化、系统化的尝试。王力《汉语诗律学》在关注声律规则的同时,也基于现代语言体系对古典汉诗中所见各类句法进行了全面总结。蒋绍愚《唐诗语言研究》[32]、葛兆光《汉字的魔方》[33]等著作延续这一路径,着重对诗歌句法等相关问题进行了补充与深化。端木三[34]、冯胜利[35]等从韵律句法学角度考察了古典诗歌中的重音与节奏等问题,蔡宗齐、沈家煊也提出“题评句”[36]、“对言语法”[37]等符合古典汉诗语法特征的句式及语法现象,极大促进了传统诗律研究。

本期专刊也呈现一系列关于声律及相关概念的复合研究。追溯其学理渊源,不妨回到前文引用的《文镜秘府论·天·诗章中用声法式》一则:

上二字为一句,下三字为一句(五言)。上四字为一句,下二字为一句(六言)。上四字为一句,下三字为一句(七言)。

这则早期声律材料将句法与句中声调使用相结合,首先规定了不同言数句式的顿断划分,继而以平声数量为准,借由例诗详细罗列了三言到七言各类平仄句式,呈现出早期人们对于各言用声法式的系统认识。张培阳《〈诗章中用声法式〉合律情况试论——兼及小西甚一的若干误解》一文辨析了其中列举的三言到七言各种平仄句式的合律情况,并与同时期作品相参证,尝试构建早期近体诗的声律模型。根据《诗章中用声法式》总结,古典诗歌中最常见的五言与七言句都以三字节奏结尾,这在后世作为关于诗歌句式的基本论述被刘熙载、启功等学者接受,谢思炜教授进一步以“线性连接/两字组合+三字脚”为理论基础建立了诗歌句法分类体系。[38]五言诗的三字尾又可进一步分化出上二下一与上一下二两种,“四声八病”中“蜂腰”概念的流变便与之有关,陆泉宇《永明体到近体句内声调对立规则的嬗变——以“蜂腰”与“二四异声”为代表》即用数字化手段细致描绘了这一嬗变过程。曲一迪《唐宋诗歌三字尾考论》一文则是在承认五七言诗三字尾结构的基础上,借助大数据自动标注技术,将这一结构的用声情况置于唐宋流变、诗体互动及中日差异等维度中进行考察。

谢思炜教授的文章《白居易七言诗特殊句式探考》,相较此前提出的句法理论更进一步,关注到唐代诗歌中违反“线性连接/两字组合+三字脚”基本结构的特例,并以白居易七言诗为例作了全样本统计与分类。这项工作虽然以传统的人工统计方式进行,但在数字化声律研究中仍具有开创性意义。以中唐诗人白居易为范本的统计结果提醒我们,有相当比例的作品并不符合甚至有意突破五七言诗的通常节奏,并且这项趋势自中唐以来不断增强。因此,在诗歌分词这一基础环节就应适当减少对固有节奏的依赖,关注各类可能存在的特殊节奏。并且,该文对七言特殊句式的科学分类提供了模型训练与无监督学习的基础,待实现更为准确的诗歌分词之后,自动对仗、声律分析与生成诗作等功能的完成效果也能够得到提升。

中文学界前一份声律研究专刊可以上溯至2016年蔡宗齐教授主编的《岭南学报(复刊第五辑)·声音与意义:中国古典诗文新探》,七年以来,许多文章仍作为声律领域的研究指引。我们仍记得其开篇对蒲柏诗句的引用,“声音当是意义的回声”,接连不断的回声提示着历史的韵脚,引导我们不断循着声音的历史,找寻其间的秩序和意义。近年来,随着大数据技术和数字人文方法越来越多地介入这一领域,全样本、多维度的研究以及相关分析处理工具在此间纷纷涌现,纵横贯通,烛幽显微,声律研究的边界与深度不断拓展。我们认识到诗歌声律是规范性与灵活性的统一,全样本统计与整体分析有助于破除声律研究的观念窠臼,发现新特征与新规律,重新认识诗律的要素特征及其实践功能,促进古典诗歌体式及相关史论命题的实证研究。同时,对古代诗歌格律的量化分析整体上还处于初级阶段,数据清洗、文本标引及统计方法还制约着研究的深入,中国古典诗歌所蕴含的声律之美、体式之变,还有待从更多维度予以校验和抉发。随着中国古典诗歌文本的电子化与结构化,将可发掘更多依靠阅读经验难以发现的文本特征及知识关联,更好地通过定量统计、定性分析及归纳阐释等来研究那些单凭过往经验和方法难以解决的问题。数字人文在声律乃至古典诗歌领域应用的许多方面仍旧只算是初识门庭,其堂庑之深与宫室之美仍有待后续的营造。本期所刊发的稿件,多数为2022年11月举办的“声律·网络·未来:第三届清华大学数字人文国际论坛”的参会文章,这期专刊见证了会议前后以及组编过程中所有参与者的努力与探索,在此我们谨对诸同道致以谢忱和敬意,并对计量诗律学的未来心怀希冀。

(编辑:严程)

注释:

[1]阮元校刻:《十三经注疏》,北京:中华书局,2009年,第3311页。

[2](意)伊塔洛·卡尔维诺:《文学机器》,魏怡译,南京:译林出版社,2018年,第266—267页。

[3]Claudio Guillen, Literature as system: Essays Toward the Theory of Literary History, Princeton: Princeton University Press, 1971, p.390.

[4](法)茨维坦·托多罗夫:《诗学》,怀宇译,北京:商务印书馆,2016年,第4页。

[5](日)遍照金刚著,卢盛江校笺:《文境秘府论校笺》,北京:中华书局,2019年,第27页。

[6](日)遍照金刚著,卢盛江校笺:《文境秘府论校笺》,第46页。

[7]魏庆之著,王仲闻点校:《诗人玉屑》,北京:中华书局,2007年,第242页。

[8](美)罗伯特·休斯:《文学结构主义》,刘豫译,北京:生活·读书·新知三联书店,1988年,第34页。

[9]冯胜利:《汉语韵律文学史:理论构建与研究框架》,《中国社会科学》2022年第12期。

[10](意)伊塔洛·卡尔维诺:《文学机器》,第266页。

[11]Chao-Lin Liu et al., “Textual Analysis of Complete Tang Poems for Discoveries and Applications -Style, Antitheses, Social Networks, and Couplets,” [In Chinese] The 2015 Conference on Computational Linguistics and Speech Processing, ROCLING, Hsinchu, Taiwan, 2015, pp. 43-57.

[12]Chao-Lin Liu et al., “Introducing a Large Corpus of Tokenized Classical Chinese Poems of Tang and Song Dynasties,” The 2nd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 12th International Joint Conference on Natural Language Processing, Taipei, Taiwan, 2022, pp. 135-144.

[13]https://mp.weixin.qq.com/s/blp8MNxp1bNObfOJ9dUvlQ.

[14]王兆鹏、郁玉英:《宋词经典名篇的定量考察》,《文学评论》2008年第6期。

[15]王兆鹏、蒋晓晓:《时空一体化——唐宋文学编年地图平台的学术理念与学术价值》,《三峡论坛》2020年第5期。

[16]E.D. Hirsch, Validity in Interpretation, New Haven: Yale University Press, 1967, p. 74.

[17]Margaret Cohen, The Sentimental Education of the Novel, Princeton: Princeton University Press, 1999, p. 23; Franco Moretti, Conjecture on World Literature, in Distant Reading, London: Verso Books, 2013, pp. 48-49.

[18](美)爱德华·W.萨义德:《人文主义的范围》,《人文主义与民主批评》,朱生坚译,胡桑校,北京:中央编译出版社,2017年,第34页。

[19](瑞)费尔迪南·德·索绪尔:《普通语言学教程》,高铭凯译,北京:商务印书馆,1983年,第147页。

[20]刘跃进:《门阀士族与永明文学》,北京:生活·读书·新知三联书店,1996年。

[21]何伟棠:《永明体到近体》,广州:广东高等教育出版社,1994年。

[22]杜晓勤:《六朝声律与唐诗体格》,北京:北京大学出版社,2017年。

[23]杜晓勤:《“中国古典诗歌声律系统”的研发过程和学术价值》,《石河子大学学报》2016年第4期。

[24]台湾大学汉诗格律分析系统网址:http://ppas.cl.ntu.edu.tw/hanshi

[25]小学堂汉字古今音资料库网址:https://xiaoxue.iis.sinica.edu.tw/ccr/

[26]Song Chenqing, Zhang Hongming, “A New Approach to Chinese Poetic Prosody: The Case of Pair-wise Tonal Contrasts in Three Yongming Collections,” Chinese Literature: Essays, Articles, Reviews, vol. 37, 2015.

[27]搜韵网网址:https://sou-yun.cn

[28]诸雨辰、胡韧奋:《清人“拗救说”再审视——以〈全唐诗〉15290首律诗为样本》,《中国诗歌研究》2019年第1期。

[29]李飞跃:《唐诗格律的统计分析及问题》,《文学遗产》2022年第5期。

[30]M. Liberman, The Intonation System of English, Cambridge, Mass: MIT, Ph.D. Dissertation, 1975; M. Liberman, A. Prince, “On Stress and Linguistic Rhythm,” Linguistic Inquiry, vol. 8, no. 2, Spring 1977, pp.249-336.

[31]冯胜利:《汉语韵律文学史:理论构建与研究框架》,《中国社会科学》2022年第11期。

[32]蒋绍愚:《唐诗语言研究》,郑州:中州古籍出版社,1990年。

[33]葛兆光:《汉字的魔方:中国古典诗歌语言学札记》,上海:复旦大学出版社,2006年。

[34]San Duanmu, “A Corpus Study of Chinese Regulated Verse: Phrasal Stress and the Analysis of Variability,” Phonology, vol.21,no.1,2004.

[35]冯胜利:《汉语韵律诗体学论稿》,北京:商务印书馆,2015年。

[36]蔡宗齐:《七言律诗节奏、句法、结构新论》,《学术月刊》2017年第2期。

[37]沈家煊:《超越主谓结构:对言语法和对言格式》,北京:商务印书馆,2019年。

[38]参见谢思炜:《三字脚与五言诗的韵律——以〈文选〉诗歌卷为考察对象》,《北京社会科学》2019年第3期;《线性连接与诗歌构句——五七言诗二字节的考察》,《清华大学学报(哲学社会科学版)》2019年第2期。

en_GBEnglish