融合代价敏感学习的古文多粒度实体识别研究
摘要:为进一步提升古籍智能处理中不同粒度的实体,特别是复杂嵌套实体的识别精度,本研究提出一种融合代价敏感学习策略的实体识别方法,并以地方志文献为研究对象,开展实证分析。针对古文训练语料规模有限、实体类型多样、实体密度分布不均等挑战,选取大语言模型Qwen-7B和Chinese-Alpaca-2-7B,以及传统非大语言模型方法MRC和BERT-Span,作为基线模型,引入结合加权交叉熵损失的代价敏感学习机制,调整模型对
摘要:为进一步提升古籍智能处理中不同粒度的实体,特别是复杂嵌套实体的识别精度,本研究提出一种融合代价敏感学习策略的实体识别方法,并以地方志文献为研究对象,开展实证分析。针对古文训练语料规模有限、实体类型多样、实体密度分布不均等挑战,选取大语言模型Qwen-7B和Chinese-Alpaca-2-7B,以及传统非大语言模型方法MRC和BERT-Span,作为基线模型,引入结合加权交叉熵损失的代价敏感学习机制,调整模型对
摘 要:为推进古籍方志物产领域知识的深度挖掘与应用,文章以与疫病相关的物产为具体案例,运用复合检索机制及命名实体识别方法构建方志中的涉疫物产语料库。在此基础上,分析文本描述特征,建构涉疫物产分类体系,将涉疫物产分为防疫、抗疫、致疫、易得、禁忌以及其他六类。依据物产特征与疫病之间的关联,创建涉疫物产知识图谱,利用五种深度学习模型,抽取物产描述中的疾病、物产部位、药用效果等实体,并从时空、分类、知识图谱三个维度归纳涉疫物