面向数字人文的融合外部特征的典籍自动分词研究——以SikuBERT预训练模型为例
面向数字人文的融合外部特征的典籍自动分词研究——以SikuBERT预训练模型为例

面向数字人文的融合外部特征的典籍自动分词研究——以SikuBERT预训练模型为例


标题: 面向数字人文的融合外部特征的典籍自动分词研究——以SikuBERT预训练模型为例


作者: 刘畅,王东波,胡昊天,张逸勤,李斌


第一作者: 刘畅


机构: 南京农业大学信息管理学院,南京大学信息管理学院,南京师范大学文学院


期刊: 图书馆论坛


发表日期: 2021-08-31


论文摘要: 数字人文研究为古籍文献的深度开发与展示提供了良好的平台。精准的文本分词是研究者在古籍文献处理中需要优先解决的问题。文章基于记载春秋至魏晋时期历史的最具有代表性的6部官修史籍构建古文分词语料库,结合预训练和词典信息融合两种策略,运用4种深度学习模型进行多组对比实验,以确定不同模型的适用范畴。在此基础上,开发面向繁体古文的分词工具,为从事数字人文的研究者提供简单有效的文本分词方法。


知网阅读链接: 点击跳转






提示:本站使用最低限度cookies来确保基础功能实现。 View more
同意
拒绝