内容简介
古籍数字化是一项复杂而重要的工作,它不仅有助于保护和传承中华优秀传统文化,还为学术研究和文化传播提供了强有力的支持。本书深入探讨了古籍数字化的重要性及其面临的挑战,详细介绍了古籍数据、深度学习在古籍数字化领域的应用场景及其应用潜力,并针对古籍文本数据的碎片化问题进行了深入分析。此外,书中还讨论了基于深度学习的古籍数字化过程中的数据预处理、数据标注和模型优化等问题,提出了一系列解决方案,为读者提供了可借鉴的经验和方法。
本书适合古籍保护与研究人员、图书馆和档案馆工作人员、计算机科学与技术领域的学者,以及对古籍数字化感兴趣的读者参考和使用。
目录
第 1章 绪论 / 1
1.1 古籍的定义 / 5
1.2 文字 / 14
1.3 深度学习 / 32
1.4 研究说明 / 36
第 2章 古籍数据 / 39
2.1 数据模型 / 39
2.2 数据格式 / 56
第3章 古籍文本数据碎片化 / 85
3.1 碎片数据模型 / 87
3.2 碎片数据特点 / 91
3.3 碎片数据生成 / 107
第4 章 文本分类 / 135
4.1 内容分类 / 136
4.2 题名分类 / 147
第5 章 序列标注 / 159
5.1 专名识别 / 160
5.2 句读标点 / 175
第6 章 余论 / 191
6.1 数据 / 191
6.2 模型 / 206
参考文献 / 219
附 录 / 233
附录1 古籍点校通例(中华书局编辑部1983 年编写) / 233
附录2 古籍字频统计数据 / 236
附录3 古籍传统编目项与MARC 字段对照表 / 238
附录4 古籍元数据规范(CDLS-S05-013) / 241
附录5 古籍索引数据XML Schema / 244
附录6 古籍版式文本数据头文件XML Schema / 244
附录7 古籍版式文本数据叶文件XML Schema / 245
附录8 古籍碎片数据XML Schema / 245
附录9 四部分类法类目表 / 246