计算机软件及计算机应用 图书情报与数字图书馆 基于生成式大语言模型的古文自动断句与标点研究 标题: 基于生成式大语言模型的古文自动断句与标点研究作者: 夏天,于凯,余芊蓉,彭欣然,赵群第一作者: 夏天机构: 中国人民大学信息资源管理学院,蜜度科技股份有限公司期刊: 图书情报工作发表日期: 2025-03-05论文摘要: [目的/意义]将生成式大语言模型用于古文自动断句与标点任务,解决传统序列标注模型需特殊设计标记并构造标注数据的局限,帮助提升断句与标点的效果。[方法/过程]采用滑动窗口策略对训练数据进行分块以增加可学习样本数量,利用最小哈希和局部敏感哈希为无标点文本提供参考样例,并对大语言模型的解码过程进行约束控制。以荀子古籍大语言模型作为基座模型并运用低秩适应LoRA方式进行微调,让模型理解和对齐古文标点任务,由无标点文本生成含有标点字符的目标文本。[结果/结论 ]在EvaHan 2024公布的两个可对比测试集上,自动断句F1指标分别为88.47%和92.48%,自动标点F1指标分别为75.29%和80.01%,显著优于荀子大语言模型和ChatGPT 3.5,表明生成式大语言模型是解决古文断句和标点任务的可行途径。关键词: 古籍; 大语言模型; 数字人文; 自动断句; 自动标点DOI阅读链接: 10.13266/j.issn.0252-3116.2025.05.006