中文古籍数字化的再思考,本文主要内容关键词为:古籍论文,中文论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
“古籍数字化”是指以古籍为对象进行的数字化工作。文章主要讨论了古籍数字化工作中的汉字处理问题,它包括:古籍文本的数字处理;古籍内容的数字化整合,包括内容的数字化重组和其他相关工作。
古籍内容的数字化整合,是一个比较复杂的问题,文章认为,在不同的古代文献之间、古代文献与现代文献之间、中文文献与外文文献之间,似可通过一个中介系统来实现语义层次的关联,从而在一定程度上达到内容整合的目的。这个中介系统,亦可以考虑分为两个层次:第一个层次是建立各种相关的名称和主题规范数据库,如人名、地名、典章名物等等,以此来解决同名异称、同地异称、同物异称和同义文本的聚类问题; 第二个层次是利用语料库,建立同义词、关联词数据库,在具体操作时,应充分利用过去已有的古籍研究整理成果,特别是点校、注释成果,并将这些成果转换为数据库,作为沟通不同古籍文本、现代文献文本的中介。
如何建立和完善这个中介系统,文章作者称目前考虑还不太成熟,提出此问题,也是希望能引起学术界的关注,并一起来思考、讨论。
标签:古籍数字化论文;