中国古籍资源数字化的进展与任务_文本分类论文

中国古籍资源数字化的进展与任务，本文主要内容关键词为：古籍论文,中国论文,进展论文,资源论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

中国的古籍资源数字化工作早在20世纪80年代初就开始起步了，不过，那时并没有出现“数字化”的概念，一般称为“计算机化”或“电子化”。古籍数字化在中国真正的迅速发展，是90年代中期以后的事情。主要标志是一些大规模、基础性的古籍著作被开发成为真正意义上的数字化产品并走向市场。在这一过程中，人们对数字化古籍资源的特征、古籍实现数字化的原则、形式等基本问题的认识有了明显的升华，过去长期制约古籍数字化实现的一些关键性技术经过持续的研究和试验，取得了明显进展。

一数字化古籍资源的基本特征

数字化古籍资源必须在计算机环境下实现其利用功能，但计算机环境下可利用的古籍资源并不一定都可以称为数字化古籍资源。例如，现在我们常常可以看到一些以键盘输入或电子扫描形式形成的网络版、光盘版的古籍作品，还有一些使用阅读器仅供阅读的古籍资源，这类产品充其量只能说是实现了古籍资源的浏览阅读计算机化，并不能称为真正意义上的数字化古籍产品，因为它们不具备数字化古籍资源的基本特征。

那么，数字化古籍资源的基本特征是什么？

首先，必须实现文本字符的数字化，即汉字是以编码而不是以图形的形式储存在计算机中。如果是通过扫描技术将古籍原文转化为数字图形，则必须有一个进一步的将数字图形映射为数字字符的环节，这就是一般所说的OCR（光学字符识别）技术。只有实现了汉字由图形向编码的转变，最终才能实现对汉字的编辑修改，对文本的深度加工才有可能进行。

第二，具有基于超链接设计的浏览阅读环境。不论何种载体形式的图书，能够浏览阅读都是最基本的要求，所以，仅仅是能够浏览阅读，并不能显示出电子版图书比印刷版图书有什么优势，而且，若从纯粹意义的浏览阅读的习惯和舒适、便携程度来看，电子版恐怕还不如印刷版。就浏览阅读来说，数字化以后的真正优势在于对典籍内容的超链接设计。比如，正文相关内容之间的链接，正文与注释之间的链接，不同注释之间的链接，正文与相关知识、资料之间的链接，原文与在线词典的链接，甚至典籍内容与相关网站的链接等等。有了这样一些超链接设计，人们在浏览阅读古籍时就可以改变传统印刷版的线性顺序，就可以以语词点、知识点为中心，发散性地、即时性地、有选择性地寻找需要的内容。对于今天的人利用古籍作品来说，这种浏览阅读环境至关重要。

第三，具有强大的检索功能。印刷版古籍也可以具有一定的检索功能，但在印刷版阶段，限于编制工作的浩繁与书籍的规模，索引总是粗疏的、有限的。计算机有海量的存贮空间，从根本上解决了“规模”的问题；有自动生成索引的功能，从根本上解决了“编制工作浩繁”的问题。而从实际需要看，今天一般人利用古籍，恐怕是查找检索多于系统阅读，因此，强大的检索系统对于古籍整理作品绝不是可有可无，而是必须的。

所谓“强大的检索系统”是指以全文检索为基础构造的检索系统，主要包括关键词（主题词）检索、条件检索、逻辑检索、模糊检索、组配检索、属性检索。其中属性检索对于古籍的利用与研究有特别的意义。如以“体裁”作为属性，可以汇聚同体裁的作品；以“写作时间”作为属性，可以汇聚相同时间写作的作品；以“事件”作为属性，可以汇聚古籍中记述的所有事件；以“图像”作为属性，可以汇聚古籍中收载的所有图像资料，等等。属性检索是一种智能化检索，属性设置体现了原书的内容特点，往往可以满足利用者特定的需要，因此，在数字化古籍的检索系统中，属性检索应该是不可或缺的。

第四，具有研究支持功能。所谓“研究支持功能”是指能够提供有关古籍内容本身科学、准确的统计与计量信息，提供与古籍内容相关的参考资料、辅助工具。这些信息、资料或工具都是古籍内容的增值或补充。比如古籍字数、字频、词频的统计数据，异体字的汇聚显示，读音的自动标注和朗读，行文风格特点的概率统计，必要的背景知识、参考资料的汇聚，在线标点断句工具的配备，不同版本比勘校对界面的设置，字典词典、历史年表、历史地图等研究工具的加载，等等。有了这些研究支持功能，不仅可以极大地改善研究者的研究条件，而且还会带来研究思路、研究方法的变革。

上述四点，第一点是基础。没有古籍文本字符的数字化，其他一切犹如无本之木。在文本字符数字化基础上进行的超链接设计、检索功能设计、研究支持功能设计，是充分利用计算机的优势对古籍资源所作的深度揭示和开发。由此我们可以得出这样的结论：数字化古籍必须对古籍原典作出具有计算机浏览、检索、利用特点的深度开发。强调这一点对目前中国正在进行的古籍数字化工作具有现实意义。古籍数字化不等于对古籍进行扫描而后在计算机上浏览，用“一扫而就”的办法进行古籍数字化，不仅造成了资源的浪费，而且使古籍数字化走向歧途。

二 20世纪90年代中期以来中国古籍资源数字化理论与实践的若干进展

1关于汉字字符集问题

字符集的问题曾经长期困扰着中国的古籍数字化工作。因为采用什么样的字符集事关古籍文字能否在电脑上正确地表达和显示，所以它是古籍数字化首先碰到并必须解决的问题。

解决这一问题需要考虑两个因素：一是字符集包含汉字的数量是否能满足古籍作品的需要，二是字符集的编码体系能否满足资源共享的需要。如果仅考虑汉字的数量，就一般古籍而言，虽说GB2312（收简化汉字6763个）不行，GBK（收汉字21886个）已经基本上够用了。有人作过实验，即便是《四库全书》这样的大规模古籍，GBK 的汉字满足程度也可以达到99.9％［1］。不过，若是字书、韵书、佛典等特殊古籍，GBK的汉字满足程度就大为降低了。小样本的试验表明，缺字率高达34％。［2］GBK的编码体系是非国际标准的，由此引发了另外一个问题：如果采用它作为古籍数字化的字符集，会导致由于字符集的壁垒而使数字化古籍产品无法走向世界。

经过探索和实践，目前国内学术界在字符集的采用上已有主流看法：坚定不移地采用国际标准ISO／IEC 10646。为什么采用这一国际标准字符集呢？首先是因为它的结构体系能够同时处理多国文字，可以实现跨平台展现内容，从而使数字化古籍产品能够超越语言限制，在不同的视窗平台上运行，解决了古籍资源全球共享的问题；其次是因为它包含了较为充足的汉字数量。对古籍用字来说，ISO／IEC 10646的已通过部分虽说仍然存在域外字，但和GB2312相比，数量只有后者的约十分之一（以约720万字的《续资治通鉴长编》的录入为统计范围）［3］。正在开发的CJK Extension B将包括4万多汉字。ISO／IEC 10646出现后，经过一个阶段的探索和实践，国内有学者认为这是“古籍数字化的唯一之选”［4］。

2 关于古籍原文的输入问题

在古籍数字化过程中，如何把纸上信息转化为数字信息——即如何把古籍原文输入计算机，是又一个必须解决的重要问题。这一问题的重要性是由古籍输入的特殊性决定的：一般的录入员大都不具备录入古籍的水平，具备这样水平的人又大都不能当录入员使用。况且，对大规模的古籍进行输入时，即便是有称职的录入人员，键盘输入也无法在速度、质量等方面满足基本的要求。因此，要大规模地实现古籍数字化，要使古籍数字化形成工程规模，就必须解决古籍原文的高速自动输入问题。

20世纪90年代以后，我国的汉字识别技术（汉字OCR ）进入了实用化阶段，标志是几种流行的印刷体汉字识别系统可以做到识别各种形体、各种型号的印刷体汉字4000多个，识别率达到95％～99％。流行的联机手写体汉字识别系统可以实时识别10000个以上的规整书写汉字，识别率在90％以上［5］。汉字识别技术的实用化，为解决古籍原文的高速自动输入提供了基本的技术路线。90年代中期以后，专门针对古籍输入的OCR系统开发研究不时出现，而且也有了将OCR运用于大规模古籍输入的较为成功的范例。如文渊阁《四库全书》电子版在研制过程中开发的“非特定人准规范手写OCR系统”一次正确识别率平均已达92％，OCR引擎标识符典已拥有7000多汉字的多种笔迹，涵盖了古籍语料的99％。在此基础上，“木版印刷宋体OCR系统”、“铅字印刷宋体OCR系统”也已开发成功，并经历了相当流量的考验［6］。目前，解决古籍原文输入问题的思路和方法已经明确：OCR技术是最佳方案。

一个OCR系统包括以版面分析为主的前处理，单字识别，和以文字、版面校对为主的后处理3大部分。目前，单字识别技术已经基本过关，薄弱环节是缺乏通用的、功能较强的前、后处理软件，对古籍来说，尤其是这样。文渊阁《四库全书》电子版在研制开发过程中对用于古籍的OCR前、后处理系统作出了有益的探索。在前处理方面，它构造了一个通用的古籍版面分析软件（UniSegmentation），主要功能是对扫描图像进行切分，将扫描图像上的每一个字符标记出来，以便于OCR 识别。古籍的版面有其特殊性，如从右向左竖排，有边框标志，有书口标志，页面的行数、字数可能有出入，标点本的专名号、书名号形成了“字旁边线”等。这些特征，有的可以形成特征参数，有助于版面分析和字符标记；有的则形成严重噪音，给字符的正确标记带来障碍。通用的古籍版面分析软件的构造，无疑为OCR 技术在古籍输入中的大规模运用奠定了基础。

利用版面分析系统记录的信息开发出校对工具，用于扫描图像和识别结果的校对，以便纠正系统在识别过程中发生的错误，这实际上就是OCR的后处理。文渊阁《四库全书》电子版开发出了对照校对、类聚校对、版面校对三种后处理校对工具，不仅使校对工作可以在计算机环境下进行，而且拓展了传统的校对方法和途径。对照校对工具用于字迹扫描图像与识别结果的逐一校对，据介绍识别率可达98％。类聚校对工具用于一定范围内编码相同汉字的图像与文字的对比校对。这种校对工具可以将不大容易出错的字筛去，而将那些难以辩识或容易致误的字类聚起来，在同一屏幕上加以显示，达到使错误“鹤立鸡群”的效果。据介绍，类聚校对对校对人员的古汉语水平要求低，而校对速度是对校的5倍以上。版面校对是将原文版面扫描图像与识别后复原的版面加以对照，主要解决缺字、字属性错误、字位置错误、字切分错误等问题［4］。与传统的方法比较，这三种校对并不属于理校和他校的范畴，还处在对校、本校的层次，但它与“一人读书，校其上下”、“一人持本，一人读书，若怨家相对”式的传统校雠相比［7］，更具立体色彩。

到目前为止，虽然文渊阁《四库全书》电子版所构造的OCR前处理、后处理技术是否具有更为广泛的通用性还有待进一步验证，但这一技术在大规模古籍数字化工程中的运用，已经使我们看到了较好地解决古籍“输入”这一瓶颈问题的前景。

3 关于数字化古籍的“保真原则”和“整理原则”

古籍数字化，从本质上说也是对传世古籍的一种整理，不过是整理的手段、成果的形式与传统有别而已。古籍在数字化的“整理”过程中应该贯彻什么样的原则？20世纪末，国内有学者提出了“保真原则”和“整理原则”相辅而行的思想［8］。它是在总结我国古籍数字化实践经验基础上形成的一个重要理论原则，对数字化古籍如何形成最终产品有理论指导意义。

所谓“保真原则”，是说数字化古籍产品应该具有“文物存储性”，具有重现作为历史文物的古籍原貌的功能，具体表现是数字化古籍产品应该形成数字图形版。数字图形版主要满足版本研究、文物鉴赏、书史研究、文字校勘、原件对照等特殊需要，可以认为是印刷版阶段“影印本”的数字化。在今天，实现数字图形版不存在技术上的障碍，只要对纸质信息进行照相或扫描并有足够的存储空间即可。

所谓“整理原则”，是说数字化古籍产品应该具有“资料应用性”，具有超文本浏览阅读、全文检索、研究支持等功能，具体表现是数字化古籍产品应该形成数字文本版。数字文本版是数字化古籍产品的主要形式，古籍数字化过程中的“整理”工作，主要就是围绕着形成数字文本版而展开的。

所谓“保真原则”与“整理原则”相辅而行，主要包括以下几层意思：首先，以形式保真为主要任务的数字图形版不排斥适当的整理加工。比如检索工具和辅助阅读工具的添加，对原件的放大或缩小，页面颜色或背景的灵活改变等等。这种整理加工，正是数字化古籍之优势。不过，它应该被限定在“非内容性”的范围之内。其次，以内容整理为主要任务的数字文本版追求内容上的保真，而不是形式上的保真。这里涉及到的一个重要问题是对古籍用字的整理。为什么古籍用字数量庞大？重要的原因是异体字、古今字、通假字、避讳字等现象的大量存在。如果追求对所有这类字形的保真，汉字字库恐怕永远难以满足需要，同时对一般的利用者来说，实际意义也不大。其实，字形整理原本就是古籍整理的题中应有之义。“由于古籍用字的非规范性，决定了现代古籍整理在字形转换上的非完全保真性”［8］。所以，改正错别字、恢复避讳字、整理异体字等工作，本来就是现代古籍整理应做的工作。这样做，从形式上看没有保真，但从内容上看，却保留了原作的“语言事实”，消除的只是“文字障碍”。所以，古籍的数字文本版应该用“整理原则”指导保真，让保真服从整理，而不是以牺牲整理为代价去追求形式上的保真。第三，作为数字化古籍的最终产品，应在数字图形版和数字文本版之间建立紧密的联系，使文本显示和图形显示能够灵活切换，并且能够迅速准确地定位转换，以便于利用者作文本间的比勘对照。

如果和印刷版阶段的古籍整理成果相类比，贯彻“保真”和“整理”相辅而行原则的数字化古籍产品，实际上是将“影印本”和“整理排印本”合一，这是充分张扬数字化产品优势的举措，它不仅给不同需求的人带来了利用上的方便，而且为古籍保存、善本留真开辟了新途径。目前，国内已经出现的数字化古籍产品真正全面体现“保真”和“整理”相辅而行原则的并不多，有代表性的是文渊阁《四库全书》电子版，其他大多还停留在单纯数字文本版或单纯数字图形版的地步。唯其如此，明确这一原则才更具现实意义，它为今后的数字化古籍产品指明了发展方向。

4 关于古籍研究支持系统的开发

90年代中期以后出现的数字化古籍产品大多在研究支持系统的开发方面作出了有益的探索，比如字频词频统计、相关资料库（人物、事件等）的加载、研究辅助工具（年表、联机字典等）的配置、相关汉字库（异体、通假、正讹、古今等）的建立、实用工具（标点工具等）的引入等，表明人们对数字化古籍产品基本特点认识的深化。

智能化研究支持系统的开发和实现，是这一时期值得特别关注的事情。北京大学计算语言研究所和北京大学古文献研究所合作开发的以《全宋诗》为对象的古诗研究计算机支持系统取得的阶段性成果，令人鼓舞。该系统利用计算语言学的方法，通过计算相邻字的“互信息”等方法进行语料的自动抽词和建词典，据介绍正确率达到了95％；通过选取任一诗作的第一句和偶句的尾字与系统中储存的韵书和押韵规则相匹配，自动判断诗作的押韵状况与韵脚，为古诗格律研究提供支持［9］；通过条件概率计算、互信息计算、规则匹配、信息库（如注音字典库、多音字发音频率库、多音字组合库）信息匹配等方法，实现对诗文的自动注音。据介绍，40万字规模的语料读音标注正确率达到了94.7％［10］。这类研究已经不仅仅是基于全文检索的简单数量统计，而是在统计基础上的智能决策，部分地替代了人的思维，发展前景诱人。比如，以古籍自动抽词和建词典的工作为基础，就可以进一步实现古籍的机器自动翻译和多层面的古代语言研究；以古籍自动注音为基础，利用多媒体技术，很容易地就可以实现古代诗文的即时自动朗读。智能化应该是古籍研究支持系统的一个发展方向。

目前已经出现的古籍研究支持系统大都包含了并非唯一的支持工具。但是，如果这些支持工具处在一种各自为政、相互分离的状态，就会削弱支持工具作为一个“系统”的整体效能。因此，支持工具之间建立相互的关联是必要的。比如，如果把按年代顺序统计出来的诗文作品放入事件资料库中加以对比分析，就可以看到作品与事件之间的关系；放入作者生平资料库中加以分析，就可以描绘作者的创作历程；把按作品创作地点统计的结果放入地图资料库中加以分析，就可以对地域文化作出有根据的阐释；包括联机字典，理想的状态也应该具有释文义项与特定字词间智能对应的功能。这些，实际上就是不同的研究支持工具相互关联所产生的效果。如果再辅之以一些图形、图表、多媒体表现工具，对研究结果的表达形式、表达手段将会更加多样化，更具吸引力。数字化古籍的研究支持系统应该在支持工具的关联以及关联分析结果的表现方面，给利用者提供更大的空间。目前，这方面做得还远不够。

三古籍资源数字化面临的主要任务

古籍资源数字化既是今天经济文化建设、学术研究的需要，也是时代对古籍整理工作的必然要求，同时，还可以有效地改变网络环境下中文信息稀少、信息流动失衡的现状。不过，类似于已经出现过的多家齐上图形版《四库全书》的低水平重复现象应该避免，特别是在古籍资源数字化刚刚起步的今天，更应该区分轻重缓急，考虑如何做才能较为迅速、合理地构建我国数字化古籍资源的体系架构。纵观我国古籍资源的构成要素与古籍资源数字化的现状，在新世纪初期，下面一些任务显得较为紧迫。

1 大规模总结性古籍检索工具的数字化

建国以来，特别是改革开放以来，我国已经编纂出版了一批总结性的、权威性较高的古籍工具书，如《辞源》、《中国丛书综录》、《中国古籍善本书目》、《中国版刻图录》、《中国地方志联合目录》、《中国地方志总目提要》、《中国历史地图集》、《中医图书联合目录》等等。这些工具书本身或许并不能称为古籍，但却是人们充分地利用古籍资源、打开古籍资源宝库的有效的参考工具、引导工具，所以，古籍数字化实际上首先应该考虑这类检索工具的数字化。从内容上看，这类工具书一般都有较好的印刷版基础，进行具有计算机检索特点的深度开发的难度相对较低，也是一件很适合在古籍数字化初期做的工作。大约主要是由于牵涉到了著作权问题，截止目前，这方面还是空白，亟须填补。

2 总结性古籍书目数据库的建立

这是一件摸清现存传世古籍家底的工作。自从《中国古籍善本书目》的编纂工作基本完成后，有许多学者呼吁启动类似的工程。1993年，国务院古籍整理出版规划领导小组立项启动了《中国古籍总目》项目，此后，有些收藏单位做过一些局部性的古籍书目数据计算机化的试验。但按照计划，该项目是利用现有的若干图书馆馆藏古籍目录依品种按类加以合成，然后选择若干大型图书馆依实际馆藏加以核对。李致忠先生在《再论建立中国古籍书目数据库》一文中指出，“这种编法本身就带有先天的不足，非但收录不可能全，著录也未脱离中国传统目录的窠臼，因而仍难以借此达到资源共享”［11］。到今天，发挥技术优势，从建立计算机古籍书目数据库入手完成摸清家底的任务，时机和条件已经基本具备。

目前，建立总结性古籍书目数据库的难点不在技术实现层面，而在建库规范和协调机制层面。就建库规范来说，需要有统一的古籍分类法，统一的古籍著录标准和格式，统一的系统软件等，但这些规范或标准的制定目前仍处在研究探索阶段。总结性书目数据库的建立必须以所有收藏单位的协作为基础，但在今天，灵敏而有效的协调机制的建立，恐怕并不比规范和标准的制定容易。李致忠先生曾经多次撰文论述过这类问题［11］。不过，总结性古籍书目数据库的建立是古籍资源数字化的基础性工程，也是实现真正的资源共享的基础，它的必要性和紧迫性已经表现得越来越明显。

3 类书资源的数字化

类书是中国古代百科全书式的资料汇编，是最具中国特色，也最具世界影响的中国传统文献资源之一。它的内容，涉及了自然界和人类社会的各个方面；它的表达方法，是直接抄录典籍中的原始资料而加以陈列；它的编排形式，是通过极具中华民族思维特点的类化思维方式——分门别类来对知识和资料进行整合与规范。所谓“区分胪列，靡所不载”——用今天的话说叫做“分类与陈列”，是类书最突出的特点。分类，“是思想的秩序”，展现出来的是“那个时代人所能够想象到和把握到的知识与思想世界的秩序、范围和边界”［12］；而陈列，则是信息的复制，展现出来的是一种容纳在“新秩序”中的不加改易的既有文本的原始信息。类书内容的“靡所不载”，决定了它在今天的经济文化建设、学术研究中有广泛而重要的开发利用价值，而一般人对类书体例、表现方式的陌生，再加上类书本身“非工具书化”因素的制约，又导致了人们利用的困难。怎样解决这一对矛盾？在今天，最好办法就是实现类书资源数字化。可以说，在传世的古籍资源中，类书是最需要也最适宜实现数字化的品种之一。

在现存的类书中，规模最大的《古今图书集成》已经有了电子版［13］。除此而外，规模大者千余卷，小者十几卷。鉴于此，今天谈类书资源数字化，基本方向应该是构建容纳一定数量类书的大规模类书资源数据库，而不能再局限于或满足于单种类书的数字化。为什么？因为类书的最大优势，在于汇集资料的丰富与系统。不同类书所容纳的资料，有继承也有超越，有雷同也有区别，如果能把它们集合起来，实际上就是实现了不同类书所汇集的资料的熔为一炉，原始信息的陈列显然更丰富了；不同类书容纳资料的分类体系的比较，又可以使我们看到不同时代的人们整合、规范知识与资料的思想体系的区别。而计算机这一现代工具，提供了前所未有的海量存储空间和快速检索方法，使不同类书的集合与集合以后的快速查考成为可能。所以，从类书的特点、利用价值与数字化产品具有的优势的结合点上来考虑，类书的数字化应走构建集合多种类书的大规模类书资源数据库的道路。

并不是所有现存类书都有必要数字化。一般地说，宋末以前的现存综合性类书普遍具有实现数字化的价值。这是因为流传至今的宋末以前的古籍数量较少，类书中辑存的资料尽管是零散的，但往往是唯一的。元代至清末出现的综合性类书需要审慎选择。这是因为此间出现了为数不少的辗转抄袭、内容重复，对今天来说资料价值和使用价值并不大的类书。另一方面，过去人们重视不够、流传也不广的一些中小型专门性类书，如果从资料价值、开发利用价值、获得难易程度等方面综合考虑，应该成为数字化关注的一个重点。比如敦煌遗书中的写本类书（多为残卷），具有日用百科性质的民间通俗性类书，反映事物起源流变的“镜源”性类书，佛教类书，图像资料较为丰富的类书，和刻本汉文类书等。大规模类书资源数据库不是多种类书的简单的、相互独立的集合，而应是在集合基础上的“融合”，融合以后还应能迅速准确地查考。因此，解决不同类书的分类体系整合与内容外化的问题，是类书数字化的前提性、基础性工作。分类体系的整合既包括不同类书自身分类体系的“兼容”对应，又包括古代类书分类体系与现代科学分类体系的对应，还包括类书类目术语概念的归并集中、古今转换和相关揭示。没有不同类书分类体系的整合，就没有不同类书内容的“融合”。根据类书的特点与现实利用需要，类书的内容外化必须突破单纯的分类模式，走向对资料主题的揭示外化，或者是对资料中包含的观点、史实、数据、结论等“精粹信息”的揭示与外化［14］。在分类体系整合与内容标引揭示的基础上最终建立起综合检索系统。这个检索系统不仅应满足一般性的检索需求，还应体现类书的特点，具有引书检索、辑佚检索、校勘考证检索等特殊的检索功能。

4 普及性作品的多媒体化

古籍资源数字化，并不仅仅是服务于学术研究，计算机环境下的多媒体技术的发展，为历史知识、传统文化的普及提供了前所未有、极具吸引力的表现手段。比如，在物质文明史、科技史、文化史、战争史等具象历史方面，如果把文本、图像、声音、地图、动画、三维立体模拟等结合起来，表现的生动性、趣味性、吸引力将是另一番光景。依据古代战争、历史传说、科技发明等创作出具有互动性的游戏软件，对少年儿童而来说，实在是“寓教于乐”的好方式。通过计算机三维成像技术，完全可以让静态的古代文物“活”起来，并可以对其进行任意的解剖分析。

古籍是历史的记录，历史是人的活动的记录，人的活动是形象的，形象是丰富多彩的。所以，历史“其实是一个十分适合以多媒体技术来表现的对象”［15］。从这个角度看，把传统上主要靠文本阐述的古籍资源转化为多媒体普及性作品，不仅是古籍资源数字化的一个重要方面，而且是古籍资源走向大众、走向普及的前所未有的时机。

5 计算机古籍整理通用系统的研制开发

古籍资源数字化一旦进入大规模实施阶段，必须依托于一系列开放、兼容、通用的计算机处理软件，如OCR软件、校对软件、标引软件、检索软件、研究支持软件等。目前，虽然出现了一些数字化古籍产品，但处理软件基本上还是各自封闭的，诚如有学者指出的那样：“大都为就某一古籍文本进行整理，表现为整理的结果，而不是为整理工作提供的工具”［16］。由于古籍资源数字化处理软件的通用程度低，导致的结果是重复研制开发屡见不鲜，不仅延缓了古籍资源数字化的进程，还造成了资源的浪费。因此，计算机环境下古籍整理通用软件系统的开发研制已经变得十分紧迫。据介绍，文渊阁《四库全书》电子版研制过程中形成的OCR系统、校对系统具备了一定的通用性，书同文数字化技术公司正在整合文渊阁《四库全书》电子版开发过程中的有关工具软件，以期形成通用的“书同文数码大师”软件系统［1］。国内还有学者提出了编纂以数据库形式储存、主要供计算机使用的古籍整理通用字典的设想，以期为通用系统功能的实现奠定基础［16］。如果较为配套的通用软件系统开发成功，将会大大加快古籍资源数字化的进程。

标签：文本分类论文; 数字技术论文; 文本分析论文; 四库全书论文; 数字化时代论文; 图像数字化论文; 产品属性论文; ocr论文;

中国古籍资源数字化的进展与任务_文本分类论文

猜你喜欢