基于生成式大语言模型的古文自动断句与标点研究
基于生成式大语言模型的古文自动断句与标点研究

基于生成式大语言模型的古文自动断句与标点研究


标题: 基于生成式大语言模型的古文自动断句与标点研究


作者: 夏天,于凯,余芊蓉,彭欣然,赵群


第一作者: 夏天


机构: 中国人民大学信息资源管理学院,蜜度科技股份有限公司


期刊: 图书情报工作


发表日期: 2025-03-05


论文摘要: [目的/意义]将生成式大语言模型用于古文自动断句与标点任务,解决传统序列标注模型需特殊设计标记并构造标注数据的局限,帮助提升断句与标点的效果。[方法/过程]采用滑动窗口策略对训练数据进行分块以增加可学习样本数量,利用最小哈希和局部敏感哈希为无标点文本提供参考样例,并对大语言模型的解码过程进行约束控制。以荀子古籍大语言模型作为基座模型并运用低秩适应LoRA方式进行微调,让模型理解和对齐古文标点任务,由无标点文本生成含有标点字符的目标文本。[结果/结论 ]在EvaHan 2024公布的两个可对比测试集上,自动断句F1指标分别为88.47%和92.48%,自动标点F1指标分别为75.29%和80.01%,显著优于荀子大语言模型和ChatGPT 3.5,表明生成式大语言模型是解决古文断句和标点任务的可行途径。


DOI阅读链接: 10.13266/j.issn.0252-3116.2025.05.006






提示:本站使用最低限度cookies来确保基础功能实现。 View more
同意
拒绝