中国语言文字 上古汉语分词和词性标记语料的构建 标题: 上古汉语分词和词性标记语料的构建作者: 柯永红第一作者: 柯永红机构: 北京师范大学民俗典籍文字研究中心(中国文字与规范研究中心)期刊: 数字人文发表日期: 2024-12-31论文摘要: 针对国内尚无开放的大规模上古汉语分词及词性标记语料库可用的问题,本研究提出以“人工为主+智能工具为辅”的标注模式,构建一个包括46部文献、233万余词的上古汉语分词及词性标记语料库。文章描述了语料选择、文本分词、词性标注和质量控制等建库过程,分析了该语料库词长、词频、词用等分布,评估了标注质量。与EvaHan2022基测集和盲测集的分词、词性标注一致度分别为93.70%、89.49%和92.83%、89.86%。该语料库对古汉语研究、辞书编纂、语言教学、人工智能等多个领域的工作起到基础支撑作用。关键词: 上古汉语; 分词; 词性; 语料库知网阅读链接: 点击跳转