计算机软件及计算机应用 自动化技术 中国语言文字 基于大语言模型技术的古籍限定域关系抽取及应用研究 标题: 基于大语言模型技术的古籍限定域关系抽取及应用研究作者: 刘畅,张琪,王东波,沈思,吴梦成第一作者: 刘畅机构: 南京农业大学信息管理学院,山西大学经济与管理学院,南京理工大学经济管理学院期刊: 情报学报发表日期: 2025-02-24论文摘要: 古籍文本中的细粒度知识单元的自动抽取和结构化能够为群体传记、历史地图等古籍数字人文研究提供数据基础。基于判别式模型的抽取方法严重受制于古汉语本身语义的复杂性和训练样本的缺失,抽取效果和领域迁移的效果受到影响,相关研究亟待生成式人工智能技术的赋能。本研究探索了基于大语言模型的古籍领域限定域关系抽取方法和高质量训练语料自动生成方法。通过比较不同提示模板对模型抽取性能的影响,证明了微调方法对模型性能提升具有显著价值。基于ChatGPT4的API服务,结合自指令、思维链与人类反馈合成古籍限定域关系抽取数据集,在数据增强后于两种古籍关系抽取数据集上分别取得56.07%和30.50%的F1值,迁移能力较两种使用全部数据训练的模型均取得了显著提升。本研究还探索了协同使用自指令模型和自动评价模型合成训练语料和评价信息,并基于合成数据训练模型,有效缓解了训练数据不足的问题。研究结果表明,使用大语言模型抽取关系三元组与合成训练数据,能够显著降低过往限定域关系抽取的人力成本,有助于提升古籍领域知识图谱的构建效率。关键词: AI生成数据; 古籍智能; 大语言模型; 数字人文; 限定域关系抽取知网阅读链接: 点击跳转