图书情报与数字图书馆

基于大语言模型的跨语言典籍自动分词研究

标题: 基于大语言模型的跨语言典籍自动分词研究

作者: 王希羽,王东波

第一作者: 王希羽

机构: 南京农业大学信息管理学院,南京农业大学人文与社会计算研究中心

期刊: 图书馆杂志

发表日期: 2024-12-12

论文摘要: 本研究旨在探索大语言模型在跨语言典籍自动分词任务中的应用和效果，特别是针对古汉语与现代汉语的分词差异，以及如何利用大模型的语言处理能力提高分词的准确性和效率。本研究不仅为古籍文献的数字化和语言资源的丰富提供了新的途径，也为比较文学和跨文化研究提供了技术支持。本研究选择Xunzi-Qwen1.5-7B、Xunzi-Baichuan2-7B、Xunzi-GLM3-6B与其对应的基座模型Qwen1.5-7B-Base、Baichuan2-7B-Base、Chatglm3-6B-Base进行跨语言典籍分词的实验。基于《左传》构建包含古汉语和现代汉语的跨语言典籍分词数据集，对数据进行清洗、标注和整合。在此基础上，将数据集分为500、1000、2000和5000条不同规模的训练集，并基于这些子集对模型进行指令微调，以测试和比较不同模型在跨语言分词任务上的性能。实验结果表明，大语言模型在跨语言典籍分词任务上具有显著的性能优势。即使是在较小规模的训练数据条件下，模型也能展现出较高的分词准确率。研究结果验证了大语言模型在处理跨时代、跨语言文本分词任务中的有效性和潜力，为后续的古籍数字化和语言技术研究提供...

关键词:

典籍分词; 大语言模型; 数字人文; 跨语言

知网阅读链接: 点击跳转

提示：本站使用最低限度cookies来确保基础功能实现。 View more

同意

拒绝