计算机软件及计算机应用 古籍文献中人名实体信息的提取方法及实现研究 标题: 古籍文献中人名实体信息的提取方法及实现研究作者: 陈逸云,吴怡第一作者: 陈逸云机构: 搜韵网,四川大学中华文化传承与全球传播数字融合实验室期刊: 数字人文发表日期: 2024-12-31论文摘要: 人名广泛存在于古典文献中,提取人名实体对构建古典文献知识图谱至关重要。然而,称呼的多样性、高重名率、与地名和常用词汇的易混淆性、因前文而称呼从简、因交往亲近而称呼从简、因诗句长度而称呼从简、因文献缺失而难以推断,凡此等等,使得人名实体的提取困难重重,而且在甄别出某个字符串是人名之后,要对应到人物库具体人物上,也容易出错。本研究在详细剖析了以上难点之后,提出分类词典树分词和FAISS消歧相结合的方法,并将该方法应用到一百多万首诗词作品、九万多条人物小传和一万多种古典文献上,取得了三字人名识别准确率约92%,二字人名识别准确率约85%的效果;又借助作品题目中涉及人名描述的模式,从题目中自动发现了约6.8万个新人物;最后,基于此成果开发出诗文作品中人物互相提及的关系网,辅助人文学者从事人物关系和人物影响力的研究。关键词: 人名实体识别; 实体对齐; 标签化; 知识图谱知网阅读链接: 点击跳转