古籍文献中纪时实体信息的提取方法及实现研究
古籍文献中纪时实体信息的提取方法及实现研究

古籍文献中纪时实体信息的提取方法及实现研究


标题: 古籍文献中纪时实体信息的提取方法及实现研究


作者: 陈逸云


第一作者: 陈逸云


机构: 搜韵网


期刊: 数字人文


发表日期: 2022-09-30


论文摘要: 从古籍文本中自动提取时间类实体信息,对知识图谱的建设及应用有重要价值。古代纪时方式,张衍田在《中国古代纪时考》一书中已言之甚详。然而,要转化成技术,仍会有很多困难。一是日期样式灵活多变,且同位语很多;二是日期常因上下文而从简,以至于若非结合上下文所述及的人物或历史背景,没法推断确切时间;三是对于区分度不高的纪时词汇,有消歧的困难;四是标签化结果需要得到合适的解释和规范化,才能转化成计算机的知识,以便在应用研发中发挥更好的作用。由此可见,提取纪时实体信息,仍需配合诸如人物、地理和朔闰表等其它知识库,才能达到理想的精度及知识深度。文章以字典树、决策树和朴素贝叶斯为技术基础,以作者所研发的网站为应用案例,阐述在研发过程中碰到的各种问题及其解决方法,提出用于提高精度的双层分析模型。第一层模型注重局部优化,在有限的上下文信息中,优化和解释标签化结果;第二层模型则从更大的广度上,对局部结果进行消歧、完善和评价。评价的结果,又可形成反馈,重新进入双层模型再次优化成果,或提高原有的置信度,或抛弃经确认后置信度太低的结果,从而达到提升整体精度的效果。应用场景上,一是将研发过程中的技术,转化成可供学者在线...


知网阅读链接: 点击跳转






提示:本站使用最低限度cookies来确保基础功能实现。 View more
同意
拒绝