大语言模型古诗文自动笺注性能评测研究
摘要:随着大语言模型(LLM)技术的快速发展和广泛应用,基于大语言模型的古诗文自动笺注展现出巨大的应用潜力。然而,迄今为止,尚缺乏对大语言模型在古诗文自动笺注任务中实际性能的系统性研究和科学评测。为此,本课题组对国内外综合能力较强的6个通用大语言模型在古诗文自动笺注任务中的表现进行了全面评估。首先,从四家出版社的古诗文笺注著作中选取2,529条笺注作为评测数据中的参考笺注,并使用提示词模板调用不同大语言模型的API生
摘要:随着大语言模型(LLM)技术的快速发展和广泛应用,基于大语言模型的古诗文自动笺注展现出巨大的应用潜力。然而,迄今为止,尚缺乏对大语言模型在古诗文自动笺注任务中实际性能的系统性研究和科学评测。为此,本课题组对国内外综合能力较强的6个通用大语言模型在古诗文自动笺注任务中的表现进行了全面评估。首先,从四家出版社的古诗文笺注著作中选取2,529条笺注作为评测数据中的参考笺注,并使用提示词模板调用不同大语言模型的API生
摘要:为进一步提升古籍智能处理中不同粒度的实体,特别是复杂嵌套实体的识别精度,本研究提出一种融合代价敏感学习策略的实体识别方法,并以地方志文献为研究对象,开展实证分析。针对古文训练语料规模有限、实体类型多样、实体密度分布不均等挑战,选取大语言模型Qwen-7B和Chinese-Alpaca-2-7B,以及传统非大语言模型方法MRC和BERT-Span,作为基线模型,引入结合加权交叉熵损失的代价敏感学习机制,调整模型对
摘 要:大语言模型问世以来,在自然语言处理诸多任务上都取得了惊人的表现。但其中可能存在的安全性和公平性问题也引起了人们的重视,特别是模型生成文本可能含有对特定职业、性别等群体的偏见和歧视。文章通过两种性别征形式,构造了显性和隐性的性别职业提示语,提示大语言模型生成开放性文本,并从情感极性、词汇丰富度和冒犯性程度三个维度对生成文本的偏见进行分析,评估并比较传统模型与以ChatGPT为代表的大语言模型中的职业显性性别和隐