走出编目和标引“瓶颈”的途径_主题词论文

走出编目和标引“瓶颈”的途径_主题词论文

走出著录标引“瓶颈”的出路,本文主要内容关键词为:瓶颈论文,出路论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

档案计算机检索系统通常是由硬件、软件和数据库三部分组成。而要建立数据库,就须将档案文献的内容(称为一次文献信息)通过著录标引转换为计算机检索语言(标引词)这样的二次文献信息。

目前,档案著录标引工作都是由人工来完成的。就人工著录标引的速度而言,远远不能满足计算机建库的需要。假如,每人每年能够平均著录标引1万份(约1000卷)文件,一个馆藏10万卷的档案馆,就需要100人年才能完成著录标引;而馆藏百万卷的档案馆,则需要1000人年!以上的计算数字,还未考虑馆藏的不断增长量。

著录标引工作是制约实现档案计算机自动化管理进程的关键,即我们通常所说的“瓶颈”。走出这个“瓶颈”的出路何在呢?

(一)优化馆藏。在不少人看来,实现档案管理现代化,最大的困难是缺乏经费。这是问题的一个重要方面,实现档案管理现代化还存在另一个容易被忽视的重要方面,就是优化馆藏。据统计,1980年全国档案馆馆藏档案3000万卷,1990年则突破1亿卷,十年来年增长速度达8%-10%,按此速度,到本世纪末将达到2亿卷。尽管随着国民经济的发展,各级政府对档案事业的拨款在逐年增加,但无论如何永远也赶不上馆藏档案的急剧增长。

馆藏量的增加,直接导致库房、装具、设备(如消毒、消防、空调、计算机、缩微、修裱、复印设备等)及管理人员的增加,造成人力、物力和财力的浪费及资金短缺,制约了档案现代化管理的实现,同时也使档案的著录标引工作成为还不清的帐,挖不平的山。在这个意义上讲,可以说没有优化馆藏,就没有有效的保管和现代化管理的尽快实现。这是欧美发达国家的档案部门曾经遭遇过的困境,也是摆在我国档案部门面前的不容回避的严峻问题。因此,优化馆藏,迫在眉睫,亟待解决。一定要改变以往那种档案存而不鉴、鉴而不毁、臃肿庞杂、重复过多的状况,把优化馆藏的工作摆到议事日程上来。档案部门的领导要一手抓现代化管理建设,一手抓优化馆藏,两手都要硬。

要做到优化馆藏,首先要制定和完善《档案价值鉴定标准》、《档案保管期限表》等有关法规、标准,对现有馆藏进行消肿,具体方法有抽样法等。二是要设立文件——档案一体化业务管理机构,负责制定通用标准,不仅要监督档案管理,还要对机关现行文书处理部门和机关档案室文件的形成、分类、立卷、鉴定、销毁、移交、归档实行监督,严格控制进馆文件,具体方法有比例控制法等。

(二)文件级著录标引和案卷级著录标引相结合。目前,大多数档案计算机检索系统是以文件为检索单位,建立的是文件级数据库,进行的是文件级著录标引。为了加速完成馆藏档案的著录标引,尽快走出这个制约实现档案现代化管理进程的“瓶颈”,对于一些利用频率不高的历史档案,也可以采用案卷级著录标引,概括出案卷主题词、分类号等特征标识,建立案卷级数据库,以案卷为检索单位提供检索服务。

(三)分类主题一体化标引。现在,在标引一份档案文件时,对于同一个主题概念需要分别去查分类表和主题词表,才能找到相应的分类号和主题词,既费时又费力,使标引工作的速度上不去。有人提出了分类主题一体化标引法,使分类标引和主题标引在一次查找中完成。

所谓分类主题一体化标引,就是将分类法和主题法的标识、参照、结构体例等有机地融为一体,同时满足分类标引和主题标引的需要,使二者在一次标引中完成。

目前,分类主题一体化标引方法的研究工作已取得了初步成果。作为第一步,就是在现有分类表和主题词表的基础上,将分类号和主题词进行对应转换,编制出对照索引。全国通用的《中国档案分类法》与《中国档案主题词表》的对照索引的编制工作正在进行之中。典型的分类主题一体化词表为分面叙词表,这种分面叙词表不受旧有分类表和主题词表的结构功能及词汇的制约,适应性广,便于采用最新的理论和技术,但编制、使用难度较大,实际采用还为时过早。

(四)建立文档一体化计算机管理系统。公文是档案的前身,档案是公文的归宿,二者本来是密切联系在一起的。但是,目前由于公文和档案的计算机管理系统没有按照一体化方式进行开发,机关文书处理部门在公文登记时,没有将表征档案外部特征的信息(如题名、责任者、形成时间等)和揭示档案主题内容的信息(如分类号、主题词等)登录下来,档案管理部门也未利用公文处理阶段已形成的原始数据,使档案计算机管理系统的开发工作在一开始就面临著录标引这项艰苦任务和将数据录入计算机之苦。

所谓文档一体化计算机管理系统,就是依据统一的标准和规范,在公文处理阶段,将文件的著录标引项目放在公文登录项目中,即计算机建库的数据在机关文书处理部门一次完成,档案管理部门无需重复进行著录标引和录入工作,做到数据共享,系统功能相互衔接。另一方面,运用计算机数据一次输入、按不同要求排列组合多种输出的功能,对文书立卷进行改革,在维持原来立卷原则的前提下,将过去以问题为主,按“六个特征”进行组卷,改为按部门、按专业为主的立卷方法,由计算机组卷代替人工立卷,使档案工作人员从繁重的人工立卷中解放出来,从而节省了大量的精力和时间。

实现文档一体化计算机管理的关键有两条。首先,要改变以往那种各自为政、政出多门的状况,建立机关文书部门——机关档案室——档案馆三位一体的业务管理体制,负责制定统一的标准、规范,监督和协调各方的业务工作。即,文书处理工作必须要符合档案工作的要求,机关档案室必须要按照档案馆的要求去进行档案的收集、整理和移交,做到机关档案室可以继承机关文书部门的数据,而档案馆又可以继承机关档案室的数据。其二是,编制统一的数据工作标准和规则,这是建立文档一体化计算机管理系统的基础和前提,包括著录规则、检索语言(分类表、主题词表等)、录入规则以及数据格式等,做到数据共享、系统兼容。

(五)机器自动标引。所谓机器自动标引,就是依据一定的算法,由计算机从档案文件的题名、文摘中截取一个个词语,并与主题词表库中的主题词对照比较,转换成规范的主题词,由计算机完成档案文件的主题标引的过程。

国外在60年代前后,就开始了机器自动标引方法的研究。60至70年代,主要有词频统计标引法、KWIC(Keyword-In-Context)和KWOC(Keyw-ord-Out-Context)索引标引法、概率统计标引法、句法分析标引法和加权模型标引法等。80年代至今,转向采用语言学、决策论以及人工智能等方法。目前,国内开发出一些试验应用型机器自动标引系统,其中主要有抽词标引法、题名标引法和规则标引法等。以上几种方法的局限性,一是档案文件必须要有能够准确反映文件主题内容的题名或文摘,如果题名不能反映文件的主题内容,就需重新拟写文件题名;二是标引过程较之人工标引机械、死板,生成的二次文献信息对档案文件的内容(一次文献信息)反映不全、描述不准、揭示不深;三是汉语自动分词方法还存在一定难度。因此,机器自动标引有待进一步研究探索,目前尚未进入实用化阶段。

(六)全文检索。80年代前期,因受存储设备容量的限制,几乎所有的计算机文献检索系统,其相应的数据库记录,主要存储诸如流水号、标题、作者、日期、分类号、主题词等表征文献的特征信息(二次文献信息)。用户利用时,首先需要从计算机检索系统上检索到流水号等特征信息,然后再去库房寻找出文献文本。即在每一个文献检索系统数据库的背后,都有一个数量可观的“二次信息”开发人员队伍,不但数据的质量难于控制,而且从文献的产生到用户检索利用要滞后相当长的时间,以致造成信息的利用价值降低,甚至失效,这是一个致命的缺陷。随着光盘存储设备的问世,80年代后期,国外出现了计算机全文检索软件系统。90年代初,我国开始研究全文检索技术,开发出了全文检索实验软件。

所谓全文检索,就是用户的检索词只要出现在数据库中的相应字段(如标题、作者、文本内容等)中,相应的记录(对应一份文献)就被命中,文献文本的内容就被全文显示在屏幕上或打印出来。利用时,就不必将文献原件从库房提取出来,既方便了用户检索利用,又有利于原件的保管,最大限度地延长文献的寿命。

要实现全文检索,首先要用扫描设备将文献文本内容输入计算机,建立全文数据库。再用自动切分词方法将数据库文献文本中所有有意义的单词分离出来,并按一定规则排序,转换为标引词。在实际应用时,用户只要对标引词进行检索,就实现了对文献文本的全文检索。

通常普遍应用的关系型数据库管理系统,采用简单的字符串匹配检索方法,由于全文检索的响应速度太慢,使得用户难以忍受和无法接受。目前国内引进并开发应用的较成熟的全文检索软件,主要有ORACLE数据库管理系统和TRIP数据库管理系统。这两个系统都可以在微机上安装运行并推广使用。尤其是后者,具有中英文全文检索功能,且面向文献型文本,更加适用于档案管理。

由此可见,采用计算机全文检索是走出档案著录标引这个“瓶颈”的根本途径,必将大大加速档案管理的现代化进程。

标签:;  ;  ;  ;  ;  ;  

走出编目和标引“瓶颈”的途径_主题词论文
下载Doc文档

猜你喜欢