计算机软件及计算机应用图书情报与数字图书馆

基于生成式大语言模型的古文自动断句与标点研究

标题: 基于生成式大语言模型的古文自动断句与标点研究

作者: 夏天,于凯,余芊蓉,彭欣然,赵群

第一作者: 夏天

机构: 中国人民大学信息资源管理学院,蜜度科技股份有限公司

期刊: 图书情报工作

发表日期: 2025-03-05

论文摘要: [目的/意义]将生成式大语言模型用于古文自动断句与标点任务，解决传统序列标注模型需特殊设计标记并构造标注数据的局限，帮助提升断句与标点的效果。[方法/过程]采用滑动窗口策略对训练数据进行分块以增加可学习样本数量，利用最小哈希和局部敏感哈希为无标点文本提供参考样例，并对大语言模型的解码过程进行约束控制。以荀子古籍大语言模型作为基座模型并运用低秩适应LoRA方式进行微调，让模型理解和对齐古文标点任务，由无标点文本生成含有标点字符的目标文本。[结果/结论 ]在EvaHan 2024公布的两个可对比测试集上，自动断句F1指标分别为88.47%和92.48%，自动标点F1指标分别为75.29%和80.01%，显著优于荀子大语言模型和ChatGPT 3.5，表明生成式大语言模型是解决古文断句和标点任务的可行途径。

关键词:

古籍; 大语言模型; 数字人文; 自动断句; 自动标点

DOI阅读链接: 10.13266/j.issn.0252-3116.2025.05.006

提示：本站使用最低限度cookies来确保基础功能实现。 View more

同意

拒绝