《数字人文》专栏
《数字人文》专栏

汉语音义文献自动分词研究 ——以唐五代佛典音义为例

摘要:汉语音义文献属于我国古籍中特殊且重要的一类,是汉语音义研究的核心文献。汉语音义研究首先需要从其中离析提取出音和义,进行匹配和判定。而作为古籍数字化的基础任务之一的自动分词,也是音义信息精准高效提取的关键。随着古籍数字化及数字人文相关技术的不断迭代,古汉语自动分词技术有了新进展。本文以唐五代佛典音义文献自动分词研究为切入点,提出面向佛典音义的词汇切分规范,通过微调训练得到唐五代佛典音义文献自动分词模型YinYiB

低资源条件下的西夏文OCR与机器翻译研究

摘要:西夏文字是研究西夏历史文化的重要载体,因其字形结构独特、研究人员稀缺,其解读和研究面临诸多挑战。人工智能技术的发展为走出这一困境提供了新途径,但仍受限于标注数据稀缺的现状。本研究聚焦于低资源条件下的西夏文OCR与机器翻译两项任务。在OCR任务中,使用字体生成技术构造了训练数据,在仅使用500张真实标注图片的前提下实现了83.1%的准确率。在机器翻译任务中,结合大语言模型和西夏文辞书知识,实现了西夏文到汉语的对译

大语言模型古诗文自动笺注性能评测研究

摘要:随着大语言模型(LLM)技术的快速发展和广泛应用,基于大语言模型的古诗文自动笺注展现出巨大的应用潜力。然而,迄今为止,尚缺乏对大语言模型在古诗文自动笺注任务中实际性能的系统性研究和科学评测。为此,本课题组对国内外综合能力较强的6个通用大语言模型在古诗文自动笺注任务中的表现进行了全面评估。首先,从四家出版社的古诗文笺注著作中选取2,529条笺注作为评测数据中的参考笺注,并使用提示词模板调用不同大语言模型的API生

融合代价敏感学习的古文多粒度实体识别研究

摘要:为进一步提升古籍智能处理中不同粒度的实体,特别是复杂嵌套实体的识别精度,本研究提出一种融合代价敏感学习策略的实体识别方法,并以地方志文献为研究对象,开展实证分析。针对古文训练语料规模有限、实体类型多样、实体密度分布不均等挑战,选取大语言模型Qwen-7B和Chinese-Alpaca-2-7B,以及传统非大语言模型方法MRC和BERT-Span,作为基线模型,引入结合加权交叉熵损失的代价敏感学习机制,调整模型对

数字古籍整理平台的功能分析与校勘维度考察

摘要:随着古籍数字化及数字人文的飞速发展,近些年诸多数字古籍整理平台于网络上涌现,并产生了广泛影响。其基本功能通常有图像文字转换、协助转换校对、协助文本格式处理、自动标点、文本对勘、其他相关功能,并设计有流程系统、合作系统;根据对各功能的支持情况,可对诸平台进行分类。数字古籍整理平台在古籍整理方面具有非常重要的意义,但是在校勘功能上却支持羸弱,应进一步建设加强。经全面梳理分析校勘的具体步骤,可见数字手段能全面应用于校

数字人文视域下三国史文献异文资源库的构建与应用研究

摘要:本文以《三国志》《华阳国志》《后汉书》为例,构建了三国史文献异文资源库[1],并探索了资源库的应用价值。资源库包括2,332对异文小句的映射库、异文变异类型统计数据库、异文词语替换知识库3个子库。在文本标注阶段,文献异文的标注体系及其异文编辑距离方法有助于界定异文句,增强异文标注的一致性。在资源库的应用阶段,文献异文资源库可以在5个方面发挥其作用:定量可视化分析史书史志的叙事异同、作为异文自动发现的数据集、总结

建设“中国历代典籍目录总库”,推动数字古典目录学发展

摘 要:古籍数字化工作目前亟须加强基础设施建设,该项工作由古籍目录库、古籍图文库和古籍知识库三部分组成。目前古籍图文库发展比较突出,而古籍目录库和古籍知识库的建设则比较滞后,古籍目录作为文献知识也是古籍知识库的重要组成部分。建设“中国历代典籍目录总库”,不但弥补了古籍数字化基础设施建设的不足,更重要的意义在于充分利用数字化技术手段,推动古典目录学从“传统目录学”向“数字古典目录学”的转变。 关键词:中国历代典籍目录总

计算批评:人文概念与数字方法

当我们运用计算方法去探究源自人文学科的问题时,会产生一种紧张关系,该领域的从业者以及对此持抵制态度的人同样能感受到这种紧张。这并非仅仅是因为计算、统计、阐释学和解读等相关方法之间存在差异,更是因为这些方法所源自的不同学科知识体系有着根本性的区别。在试图弥合计算与阐释之间的差异时,我们常常厚此薄彼。一方面,计算被当作一种方法,用于纠正那些未充分考虑更广泛背景的人文实践;另一方面,更多时候人们认为阐释学和解读能帮助我们找

提示:本站使用最低限度cookies来确保基础功能实现。 View more
同意
拒绝