基于TopWORDS方法的古文献专名识别——以《汉书》和《明史》为例
基于TopWORDS方法的古文献专名识别——以《汉书》和《明史》为例

基于TopWORDS方法的古文献专名识别——以《汉书》和《明史》为例


标题: 基于TopWORDS方法的古文献专名识别——以《汉书》和《明史》为例


作者: 徐嘉泽,潘长在,贺莉丽,王宏甦,张力伟


第一作者: 徐嘉泽


机构: 清华大学统计学研究中心,清华大学古典文献研究中心,中国历代人物传记资料库


期刊: 数字人文


发表日期: 2020-06-30


论文摘要: 大量数字化古代汉语文本资源的出现对其分析工具产生了巨大需求。作为一种基于统计模型的无监督中文文本分析方法,TopWORDS在针对古代汉语文本的词语发现和信息提取问题方面具有应用前景。本文介绍了Top WORDS方法的基本原理、工作流程以及特点和优点,并将其应用于《汉书》和《明史》这两部古籍的词语发现,且以相关古籍的人名及地名索引为标准对TopWORDS方法抓取古文献中专有名词的能力进行了量化评估和比较。相关结果证明了:TopWORDS在古代汉语文本分析中具有较强的专名抓取能力,有潜力在未知专名识别和专名索引快速构建方面发挥重要作用。


知网阅读链接: 点击跳转






提示:本站使用最低限度cookies来确保基础功能实现。 View more
同意
拒绝