文献档案学科自动阅卷系统的设计与实践_主题词论文

文献档案学科自动阅卷系统的设计与实践_主题词论文

文书档案主题自动标引系统的设计与实践,本文主要内容关键词为:文书论文,档案论文,主题论文,系统论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

解放军档案馆文书档案主题自动标引系统是档案自动化管理系统的一个子系统。其主要特点是采用计算机代替人工自动抽词,快速实现批量主题标引,从而大大减少了前处理工作量,提高了前处理工作效率,打通了计算机管理档案的“瓶颈”,开辟了一条行之有效的主题标引之路。我们于1993年初开始设计研制该系统,历时1年, 研制结束后即投入使用。到目前为止共建立自动标引主题词8000多条目,标引完成14个年度近25万条档案目录。现将我们的设计与实践体会介绍如下:

一、系统概况

该系统的硬件环境:

386、486微机或微机网络。

内存应不小于2M,硬盘空间应不小于100M。

软件环境:

DOS3.31以上版本操作系统或WINDOWS3.31操作系统,C语言。

软件主要模块:

1.《自动标引主题词表》管理模块,其中包括:

a.词表输入;

b.词表维护;

c.词表排序;

d.词表打印;

e.词表转储;

f.词表统计。

2.自动标引模块,其中包括:

a.档案目录数据准备;

b.自动抽词标引;

c.机标数据的整理及输出。

3.人工联机校正。

二、自动标引过程的设计及其特点

(一)自动标引过程设计,按以下三步进行:

1.建立《自动标引主题词表》。以《军用主题词表》为基础,编制了适合本馆馆藏档案情况的《自动标引主题词表》,作为自动标引的基本元素表。该词表主题词规范,便于扩充修改。

2.扫描题名抽词标引。对题名从左到右正向扫描与主题词进行比对,按一定规则(如概念组配、最长组配等)进行抽词标引。

3.人工修正。对自动标引结果进行人工检查分析,一方面对标引结果不尽如人意的进行人工修正,另一方面不断调整充实《自动标引主题词表》,以求得比较满意的结果。

(二)设计特点主要是:

1.采用规则标引法进行标引。首先建立《自动标引主题词表》和一批标引规则,标引过程是对题名正向扫描、比对,将题名中主题概念所对应的主题词抽出按一定规则进行标引。

2.建立功能专一的《自动标引主题词表》加快标引速度。最初设想建立一个既能用于主题自动标引,又具备《机编主题词表》各项功能的《主题词表》,在实践中感到这样一个表对系统的运行和管理很不方便,不如建成功能相对独立的两个表。经反复研究最后确定:将原设计改为建立《自动标引主题词表》和《机编主题词表》两个表,前一个表专门为主题自动标引服务,后一个表即通常定义的《机编主题词表》,两表之间用指针连接。这样既提高了各表功能的专指性,又加快了系统运行的速度。

3.依实际情况精炼自动标引主题词。在实际应用中,档案人员很少使用由9个以上汉字组成的主题词,根据这一特点, 我们经过研究修改了有关规则:将9个以上汉字组成的主题词取消, 根据情况向有用代关系的主题词或上位概念主题词靠拢。实践初步证明,这一设计既节省系统开销又比较接近实际。

4.对档案题名不做任何限制和改动,直接进行扫描比对。在设计用哪一种方法进行自动标引时,我们认为对档案题名加以限制,在题名上添加各种符号的方法对我馆不太实用。主要有以下原因:①我馆馆藏档案数量浩大,如果对题名加以限制或添加各种符号,无疑要增加相当的工作量。②在研制本系统之前,已有相当数量的档案二次文献数据输入到计算机中,如果对题名进行限制或添加各种符号,这些数据就要重新返工,造成重复劳动。③自动标引结果的检查是必不可少的,与其标引前对题名进行限制或添加各种符号,不如标引后进行人工干预修正更直接、更有质量保证。所以研究确定:以原标题为扫描对象不加任何限制和改动,自动标引后适当进行人工干预修正,从而保证了系统具有良好的实用性。

5.计算机批量标引和人工检查干预相结合。主题词自动标引,实际上是计算机自动从标题中抽取主题词,速度快、效率高、标引的一致性好,可大量节约人力物力。根据系统调试运行时的统计,采用486 微机对万余条主题词进行扫描比对,自动标引速度每分钟可达600多条, 平均每条标引主题词7个,正确标引率达70%以上。 但由于计算机是根据一定的法则进行机械组配、抽词的,缺少人工标引的灵活性,反映人的智能和经验不足,另外反映内容不准确或主题内容提炼不深等问题在文件题名中常常出现,这些都直接影响自动标引的结果。所以,为确保质量,我们坚持机器自动标引和人工检查干预相结合这一做法。人工干预主要是检查并补标文件内容的主体因素、时间因素、空间因素、文件类型因素以及文件内容中出现的主要人物或机构。由于不断充实自动标引词表,人工干预的工作量已经很少,只在事后作些检查即可。

三、自动标引规则的设计

我馆研制的文书档案主题自动标引系统,采用的是规则标引法,因此要建立一系列规则。主要的有:

(一)概念组配规则。是指当一个主题概念需要用两个或两个以上主题词相组配才能表达完整时所需遵循的规则。如“战备训练计划”,在《自动标引主题词表》中没有专指主题词,需要用战备训练”和“训练计划”两个主题词以组配形式来实现,达到完整表达这个主题概念的目的。概念组配分两种形式,即交叉组配和限定组配。通常以概念交叉组配为优先,像“战备训练计划”本应组配为“战备计划”、“训练计划”为最优,但由于计算机只是机械地从题名中抽词,要实现概念交叉组配较困难,因此限定组配是自动标引中常见的一种概念组配形式。用“战备训练”、“训练计划”组配成“战备训练计划”就属于限定组配。

(二)最长组配规则。是指在进行概念组配时,以最长字段主题词为先,先长后短,有长不短的组配规则。如:“干部任职年限”,在编制的词表中分别有“干部”、“任职”、“年限”、“干部任职年限”等主题词,标引时先标引“干部任职年限”,不再抽“干部”、“任职”和“年限”。所以最长组配规则既可避免重复抽词,又可提高概念组配专指度。

(三)特定词规则。是指对特定的一类词通过联想方式进行抽词的规则。如“授予×××军衔”,以“军衔”为特定词,只要题名中“军衔”前面任何位置出现“授予”字样,均可抽出“授衔”这个主题词来。再如“检查×××单位工作”,或“对×××单位工作检查”,只要把“检查”作为特定词,题名中不论“检查”前后任何位置出现“工作”的字样,即可抽出“检查工作”这个主题词。此规则需要事先确定特定词及联想方式。

(四)并列词规则。是指凡带有连接词“和”、“及”等和顿号“、”所要遵循的规则,如“北京、济南和广州军区”,便可用“军区”替换连接词“和”以及顿号“、”,抽出“北京军区”、“济南军区”、“广州军区”三个主题词。这一规则对增强抽词的准确性,减少人工干预有着重要的作用。

四、结束语

(一)通过对机标主题词实用性的检验,我们得出两点结论:

1.主题词的自动标引是基本准确的。文件特征的5大要素, 只要在文件标题中出现的,全部标引成功。

2.用机标主题词进行自动检索,不仅速度快,而且查全、查准率高。

因此,我们认为机标主题词的实用性是令人满意的。

(二)对自动标引影响最大、使标引结果不能准确反映文件主题内容的是文件标题的质量。按照文书学和档案管理学的要求,一份文件的标题应简明准确地反映文件的核心内容,但反映内容不准确或主题内容提炼不深等问题在文件标题中常常出现。如:《彭德怀到达白城时的讲话》。例中只有人物、空间和文种三个要素,文件最主要的主题内容没有反映出来。这些问题直接影响自动标引的结果。

(三)主题词自动标引,实际上是计算机自动从标题中抽取主题词,其特点是速度快、效率高,标引的一致性好,可大量节约人力、物力。但由于计算机是根据一定的规则进行机械的组配、抽词的,缺少人工标引的灵活性,反映人的智能和经验不足,根据目前计算机的速度、容量和软件水平,建立一种十分理想的通用的自动标引系统不是容易实现的,还有待计算机性能的提高和智能化软件的成熟。但可以预料,随着计算机的性能价格比的不断提高和人工智能的发展,越来越实用化的自动标引系统将会不断出现。

文书档案的自动标引是十分复杂的探索性工作,它涉及多种学科及人工智能方面的问题。尤其是中文文书档案的自动标引,难度较大,产生误标是难免的。目前,自动标引和人工校正相结合仍是提高标引质量的手段之一。可以相信,随着科学技术的发展,随着档案工作现代化的进程,自动标引的质量一定会不断提高。

标签:;  ;  

文献档案学科自动阅卷系统的设计与实践_主题词论文
下载Doc文档

猜你喜欢