历史文献微机检索系统的结构模型_微机论文

史料文献微机检索系统结构模式,本文主要内容关键词为:史料论文,微机论文,文献论文,检索系统论文,模式论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

长期以来,史学界的研究手段一直非常落后,广大史学研究工作者的精力和时间被过多地陷入文献资料的查阅、抄录过程中。如宋人李焘所著《续资治通鉴长编》是研究宋史必读文献,该书为编年体,现存34册,520卷,约660万字。宋史研究工作者要查找宋代某一方面的事记,常需通读全书,通读一次要半年时间。为了解决史料浩繁分散与个人精力有限这一矛盾,我们开发了《续资治通鉴长编》微机检索系统,并由此提出一种具有普遍意义的史料文献微机检索系统结构模式。

一、用户需求分析

史学研究工作者的研究过程大体分为两个阶段,前一阶段为资料收集与整理,我们称为“预研阶段”;后一阶段为资料分析与成果推出,我们称为“实研阶段”(目前计算机辅助研究还仅限于前一阶段)。预研阶段又通常由以下各步骤组成:(1)文献全部浏览或部分浏览,在不要求查全率的情况下也可概率浏览;(2)找到所需内容后或作标记或抄录下来;(3)抄录内容通常以卡片形式存贮;(4)卡片翻阅、添加、删除、分组、合并等;(5)卡片内容初步分析。

这种延续了多少代的基于手工的传统研究方式,有着极大的局限性。主要表现在:(1)由于史学研究需大量占有资料,因而必须大量通读文献,使预研时间过长,占总研究时间比重过大;(2)手工摘录的可靠性无法保证;(3)卡片规范化管理差;(4)初步分析耗费时间过长。

研制史料微机检索系统的出发点应是在不给史学研究者增加过多的技能要求和额外负担的前提下,解决上述四个方面的问题,提高预研效率。因此,系统应具有下列性能:(1)用户与史料有两个界面,一是原始文献,二是摘录的资料;(2)全文读、查、摘速度快且无遗漏;(3)被查摘文献的任何部分均可作为入口点;(4)摘录的资料要求准确、完整;(5)摘录资料的管理科学化、规范化并能开展简单分析。

二、全文本检索与专题

1.文摘数据库检索

早期的微机检索系统常采用一般数据库结构,其相应的记录,或用来逐段逐行线性存贮文献,或仅仅用来存贮文摘信息。显然,这种方式不适于大文本量的史料文献检索要求。

2.受控文献检索

所谓受控是指其检索需要建立在人工赋词标引的基础上,检索的方式、结果都受到人工预赋词标引的控制。当然,这些标引词是由专职标引人员根据规范化的叙词表和主题词典,通过一定的加工给出的。检索时,用户要根据所指定的检索集中的命令,使用标引词进行检索。这种检索方式对史料文献来说有一定的局限性。首先,人工赋词标引是一项复杂的工作,费时费力;其次,人工赋词标引将不可避免地带有主观意愿和兴趣的色彩,加上受标引者知识面的限制,使检索结果的可信度与价值难以保证;第三,标引一致性较差;第四,使用受控文献检索系统需要掌握专门的受控语言,为使用者增加了负担;第五,不易与用OCR技术录入的文件衔接。

3.全文本检索

全文本检索是指用户的检索词只要出现在文献库中就可以命中,即文献中任何字符串都可以作为入口(而无需事前人工标引)进行检索。特别是全文本检索作为新一代文献检索技术,因可对文献中的任何字词组成的逻辑表达式进行检索,使其应用价值极高。与前两种检索方式相比,全文本检索的优点显而易见:(1)可直接接收源文献;(2)不会产生漏检,即查全率高;(3)不存在人工赋词标引问题;(4)用户使用容易。这种方式十分适宜史学研究者的文献检索要求。

4.专题

所谓专题,是指从原始文献中摘录下来的关于某一专项研究领域的句条及其出处信息的集合。如“宋代酒文化研究专题”、“宋代刑法研究专题”等。它相对于源文献而言,被称为二次文献。建立专题是微机辅助预研过程的重要一环。专题大小应不受限制,其内容是动态发展的。建立专题时应考虑其存贮结构和查找方式,建立专题后则应考虑其管理问题,如专题分离、专题合并、专题整理等。如果需要,还可以在专题上再作专题,这便生成三次文献。源文献是专题生命力的源泉,专题是源文献资源得以充分开发和利用的有效途径。

三、系统结构设计

为了使系统既具有原始文献阅读能力,又具有专题生成和处理能力,我们将系统设计为上下两层。下层系统面向原始文献采用全文本检索方式进行阅读、句条与段落查摘等,上层系统面向专题进行浏览、增删、修改、检索等,并采用专题存贮结构与用户界面结构分离式。

源文献可采用直接存贮法存贮。由于史料文献文本量大,可利用汉字识别技术输入,无需定义字段,无需做任何标引和索引,只要保持原文的篇章、段落、标点、页号即可。这种半结构化信息存贮方式不但节约了存贮空间,也使输入和校对相对简便。但在部分史料文献中有一些特殊处理现象,如人名、地名下面有各类下划线、页号为汉字、脚注过多等,对此可稍加处理,使之既不失古书原貌,又适应计算机存取要求。

整个检索系统可由四部分组成,即对源文献进行检索的基本检索子系统、用于生成专题的专题生成子系统、对专题进行各种操作的专题处理子系统以及系统维护子系统。基本检索子系统是整个系统的基础部分,它又由源文献管理模块、文献阅读模块、文献查摘模块、字词频统计模块等组成。专题生成子系统起着承上启下的作用,根据用户提供的主题词与查询表达式,在用户随机选取的一定文献范围内选摘句条,然后与所在的书名、卷名、页号等信息组成专题文件。专题处理子系统是系统的高层,主要由专题浏览、专题编辑、专题检索、专题统计、专题合并、专题打印等模块组成,以专题作为处理对象。系统维护子系统承担系统的管理与服务任务,包括源文献与专题的目录管理、用户使用指南等。下图显示了整个检索系统的结构模式。

在系统实施过程中,还将会遇到许多具体问题。如史料文献中不仅均为繁体字,且含有大量国标一、二级汉字库无法支持的不常用字,为此需要造字和进行造字管理。又如史料文献中许多字词作为检索入口十分不便,因此要有很好的用户界面设计,并应采用启发式与派生查询式等技术,以方便使用者。

标签:;  ;  

历史文献微机检索系统的结构模型_微机论文
下载Doc文档

猜你喜欢