第一届古代汉语分词和词性标注国际评测成功举办 – 中国数字人文 | 数字人文门户网站 | DHCN

李斌/南京师范大学文学院

汉语和英语不同，没有词语边界的标记。古汉语的词语边界识别是一项很难的任务，又是古籍深加工、走向概念知识库的基础性工作。第一届国际古代汉语分词和词性标注评测EvaHan是国内外首次举办的古代汉语分词和词性标注评测。2022年6月25日晚8点至9点半，EvaHan评测会议成功举行。该会议为于法国马赛法罗宫举办的第十三届语言资源与评测国际会议（Language Resources and Evaluation Conference, LREC）的分会场，即第二届历史和古代语言技术研讨会（Workshop on Language Technologies for Historical and Ancient Languages,LT4HALA）的特别分会。

EvaHan的评测会议由南京师范大学文学院副教授李斌主持，特别邀请清华大学计算机科学与技术系教授、清华大学人工智能研究院常务副院长、欧洲科学院外籍院士孙茂松出席会议并为获奖团队颁奖。意大利帕尔玛大学（Universitàdi Parma）Rachele Sprugnoli教授、国家教育部语言文字应用研究所研究员冯志伟、清华大学教授黄昌宁出席此次会议。

EvaHan的古汉语评测竞赛由南京师范大学文学院计算语言学与数字人文研究组和南京农业大学联合组织，北京大学数字人文研究中心、中国人工智能学会语言智能专委会、中国中文信息学会青年工作委员会、江苏省人工智能学会自然语言处理专委会和江苏省语言学会协助组织。

孙茂松教授在开幕词中指出，现代汉语的自动分词已经走过了约四十年的历程，各项标准制定和评测工作也开展得比较早，但是古汉语的分词和词性标注技术起步较晚，也从未举办过评测工作，本次评测的成功举办大力推动了古汉语信息处理和古籍数字人文研究。

评测竞赛于2021年12月20日正式启动并公布训练集，2022年3月31日公布测试集，4月7日参赛队提交待评测结果并由组织者完成评测。共有来自13所高校或公司的14支队伍参赛，提交了55份待评测结果。本次评测设置了两个测试集与两种评测模态，较全面地考察了各参赛队古汉语分词和词性标注系统的性能。数据均由南京师范大学计算语言学团队加工建设，以《左传》前十卷为训练集，后两卷为基测集，《史记》和《资治通鉴》中的部分语料选作盲测集。两种评测模态的不同在于是否限定参赛使用的预训练模型、训练集与外部特征。最终经过审核评比，来自复旦大学的王鹏宇团队荣获一等奖。他们在《左传》测试集上得到的结果达到了目前古汉语词法分析的最高水平，分词和词性标注的F值分别达到96.03%和92.05%。北京理工大学杨舒荀团队、北京邮电大学林博达团队荣获二等奖，广东外语外贸大学张海林团队、南京大学申雨瞳团队、南京师范大学中北学院蒋龙杰团队荣获三等奖。孙茂松教授宣读了获奖名单，并颁奖留念。

冯志伟教授在总结致辞中指出，本次评测与古拉丁语自动分析评测同时举办，两种古老的语言处理技术交相辉映，是古代语言信息处理的国际盛事。本次古汉语词法分析评测巧妙地设计了两种不同的测试集和评测模态，为古汉语词法分析构建了公开的标准数据集和评测方法，有助于后续研究的良性发展，冯志伟教授充分肯定了本次评测的国际意义。

南京师范大学陈小荷教授和清华大学黄昌宁教授先后发言，指出了未来古籍智能分析可以从注疏文献材料等出发，挖掘中医等古籍中的重要知识。

李斌在闭幕式中总结道，本次评测切实提高了古籍分词和词性标注的水平，增进了各研究单位及参赛队伍间的技术互享与了解。在今后，还将举办古籍自动标点、命名实体识别、句法分析、语义解析和机器翻译等更多、更实用的评测竞赛。

（编辑：徐璇）