Internet上文献信息资源的描述、标准化与检索_元数据论文

网上文献信息资源的描述、规范与检索,本文主要内容关键词为:信息资源论文,文献论文,网上论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

〔中图分类号〕G250.13

〔文献标识码〕A

〔文章编号〕1005-8214(2000)06-0043-04

网上文献信息资源迅速增加,其易变性和存储的分散性等因素加剧了检索的难度。对于本地或远程用户,都可能在杂乱无章的信息中或一无所获,或得到络界开发的一系列元数据格式,结构相对简单,灵活度和弹性较大,主要为方便著者和出版者建立,不要铺天盖地的答案。因此,对网上文献信息资源进行有效的描述与规范,是一项极为重要的工作。

1 描述文献信息资源的元数据

元数据(metadata)最简短的英文定义是"data about data"[1],是对数据的描述以及对数据集中项的解释。究其本义和功能,就是描述文献信息资源的著录数据,也可说是电子目录(Electronic Catalog)。元数据揭示各类电子文献的内容和其它特征以方便检索,能够提高信息的利用价值,其典型的操作环境正是网络环境。通过元数据库实现的元数据管理系统[2]可用于网络过程(如图1所示),在一定程度上实现集成化和标准规范化,便利网上文献信息资源检索。

元数据没有标准属性,没有统一格式。近年来网络界开发的一系列元数据格式,结构相对简单,灵活度和弹性较大,主要为方便著者和出版者建立,不要铺天盖地的答案。因此,对网上文献信息资源进行有效的描述与规范,是一项极为重要的工作。求经过专门的编码训练。这些元数据大致可分为两类:分别以检索文献信息资源和详细描述文献信息资源为目的[3]。

1.1 以检索为目的的元数据

这类元数据结构很简单,其代表格式有:Dublin Core和Uniform Resource Characteristics(URC)。

1.1.1 Dublin Core

Dublin Core是1995年3月由Online Computer Library Center(OCLC)和National Center for Supercomputing Applications(NCSA)联合赞助的研讨会制订的。其格式及项目很简单,仅13个数据项[4],可分为三类:(1)主要检索点项,包括Title、Subject、Author、Other Agent、Identifier;(2)辅助检索点项:Publisher、Date、Object type、Language、Form、Coverage;(3)关系项:Relation、Source。

Dublin Core设计的目的主要在于方便作者与出版者提供描述性信息,并可被嵌入HTML语言的HEAD元素,从而促成建立一套有特色的描述网上电子文献的模式。

1.1.2 URC

URC即统一资源描述,其基本属性集有:①URN,统一资源名称;②URL,统一资源定位器;③LIFN,位置独立文件名称;④Author,作者;⑤TTL,参数有效性时间限制;⑥Collection,相关性描述;⑦Authoritative,该URN的权威URC服务器的确定[5]。

URC旨在提供关于网络文献信息资源的元信息(meta-information),而不涉及其位置及检索机制。它描述元信息目录(meta-information directories)的网络分布及对应网络上的资源。URC服务器可发出包含检索点的询问,得到相应URL或URN;也可通过发出URL得到URC[3]。原URC不用SGML编码,而用属性/值以冒号相隔,现在建议用SGML-encoded meta-in-formation嵌到URC款目中。

1.2 以详细描述为目的的元数据

这类元数据信息描述的完整性最高、结构化最强,皆为特定领域而单独订立,很多都以SGML为编码标准,以Z39.50作为网上信息检索协定。使用对象通常和学术研究团体有关,需要专家知识去建立和维护,且迎合专家的信息需求。包含这类元数据的协议或制订系统如:Text Encoding Initiative(TEI)、GovernmentInformation Locator Service(GILS)。

1.2.1 TEI Header

文献编码计划(TEI)主要为定义一套电子文献的索引,使各类用户可不受软、硬件及应用环境的限制而达到资源共享。它规定每一份TEI文件前面都要有TEI Header(由欧洲、北美的图书馆学界与档案学界所组成的委员会订立)来描述该文件,包括文献书目特征描述、编码描述、非书目性特征描述、修订描述[6]。TEI Header的编码必备项只有“文献书目特征描述”中关于题名、出版者、来源的三个数据项,描述项目可根据需要以SGML DTD来扩增,因此编码结构极有弹性;又因著录项目多为直观填写,所以无需要求专业的编码技能。

1.2.2 GILS Core

美国政府信息系统(GILS)又称虚拟卡片目录。它利用网络和ANSIZ39.50标准执行检索,是美国国家信息基础设施建议(NII)的组成部分[7],由各政府机关的数据库组成。GILS的核心是GILS Core,有很多描述信息的元素组成,即政府信息的元数据。检索者可通过GILS系统在网络上共享政府提供的所有公开文献信息资源和服务。目前已有政府信息指引服务核心项目标准(GILS Core Element Standard)和著录指导文件来协助建立GILS记录。

2 网上文献信息资源的规范

仅注重对文献信息资源的充分描述,而忽视对描述信息的规范,仍不能提高用户检索效率,联机目录数据库的记录重复问题是其最好的说明。应用图书情报技术和处理方法加强网上信息资源的控制,使信息描述规范而又不失其灵活性,是近年来图情界研究的一个重要问题。

2.1 联机数据库中的记录重复问题

联机数据库中的记录重复问题(即针对同一信息对象可能有多条不同的记录存在)存在已久,大多是由于录入失误、采用错误的标识与子字段编码、遗漏信息、变长与定长字段不相容等原因造成的。数据库中的重复信息降低其有效性,重复量越大,检索与取舍判断就越困难,检索时间和费用(尤其在网络下载时)就越多。

O'Neill等[8]从联机联合目录中随机抽样统计,对重复记录的题名、作者等13个数据描述项进行比较,发现这些描述同一信息对象的多个记录,大多具有一个以上的数据项不匹配(即数据项著录不一致)。如图2所示,1-3个数据项不匹配的重复记录分别占有21%、28%和22%,而数据项完全匹配的重复记录仅占8%。其中日期、作者、出版者项是最易出现不一致的数据项。而控制号(ISBN、LCCN和GDCN)是最易匹项的项目,但由于版本、格式不同等原因仍然出现了重复记录。

网络环境下,由于网上信息极易被复制修改而使版本不易追踪、存储位置不确定且有大量信息呈现物理布局的分散性、同一信息可能有多种格式表现出存储的多元性、版权问题不明晰等诸多原因,使重复记录问题更为严重。加强对联机联合目录的规范,减少重复记录的数量,才能更有效地提高信息利用率与终端用户的满意度。

2.2 扩展的MARC格式

MARC是目前世界上使用范围极广的机读目录通讯格式,它针对近年来文献信息资源电子化、网络化的新特点,不断采取相应的修改完善措施,成为一个对网上文献资源起规范作用的可行标准。扩展后的MARC格式,使MARC记录可与电子文献作超链接,实现计算机网络资源的管理,有利于网上文献资源的共建共知共享。

与元数据相比,MARC标准较为规范:任何规则修订都经过长时间的讨论;能对信息进行较完整层次的分析描述;严格的编目规则与操作人员的专业化使信息存取的质量得到保证;MARC对复杂的信息关系(比如参照关系和连续关系)描述也相当详尽。可以说,元数据的便利之处也正是它逊于MARC的地方:没有统一和严格的编码规则,结构松散,内容可靠性不高;元数据由作者或出版商而非专业人员提供,其不一致性,可能对信息交换有着负面影响。

以MARC组织网上文献信息资源有如下几方面优点:①信息资源经过主题专家的选择及规范,更符合使用者的要求;②具备信息描述、权威控制、主题分析等有效的控制机制;③图书馆自动化系统已有处理大量文献信息检索的经验积累;④网上文献信息资源可与千百万以机读格式存储的书目信息相结合。

3 网上文献信息资源的检索

有了完善的描述与规范化的控制,是否还有其它障碍因素影响用户检索?网络时代怎样的帮助机制才更适用于网络检索?

3.1 主题检索点的单一化

通常的看法认为联机目录已有效地增强了主题检索能力,即便不再增加传统意义所谓的目录,通过扩充可检字段,也能增强可检性。这里的主题检索包括主标题词(SH)、题名(TI)、分类号(CN)等与记录描述对象的内容主题有关的所有标引项,但事实上是否如此?如下表所示的例子[10]:

Hong Xu和Lancaster一个抽样记录的各字段的检索项

题名(Title).Efficient masonry housebuilding

主标题词 Masonry——Great Britain

(Subject Heading): House construction——Great Britain

分类号

693,construction in specific Types of

(Classification Number):materials and for specific purposes

单一主题检索项

Masonry,

Houses,

(Unique Subjec Ideas): Construction, Great Britain

题名中检索项 masonry,

houses,

(Subject Ideas Represented in Title):

construction (=building)

主标题中检索项

(Subject Ideas Represented in SII):all four

分类号中检索项

(Subject Ideas Represented in CN): construction(only):

Hong Xu和F.W.Lancaster[10]的抽样记录表明,SH字段囊括了所有可检项,TI字段与CN字段并未扩充任何检索点。因此尽管表面上三个字段的检索点总和颇多,但真正发挥检索点作用的单一检索点(Unique Subject access points, 以下简称USaps)只有4个。Hong Xu和F.W.Lancaster从联机联合目录中随机抽样205条记录,内容涉及社会科学、自然科学、技术和艺术四大学科领域。经分析其SH、TI、CN字段,统计出其中USaps为851个,我们分为以三个集合来表示三个字段,分布情况如图3所示。

这里,851个Usaps里,只在一个字段中出现的检索点数为414,在两个字段中出现的检索点数为227,在三个字段中都出现的检索点数为210(占总数的24.68%);在SH字段中出现的检索点数为634(约占总数的75%),TI中为458个,CN中为406个。因此,TI与CN字段所含的许多检索点都可说是SH字段检索点的重复。在此数据基础上通过差方分析,可以推断联机目录并未象大多数图书馆专家们所期望的那样,比卡片目录提供更多的USaps。若以每个记录的USaps数目作为衡量其可检性(Retrievability)的指标,那么TI仅作出有限的改进,CN更是局限于提供一个分类号而已。这时联机主题检索较卡片目录的优越性,仅仅在于通过日期、语种及其它数据项的限制来构成检索复合式。

3.2 机械帮助 (Machine Help)[11]

随着网络基础设施成型乃至趋于成熟,物理图书馆时代用户活动所依赖的人为帮助(Human help)正逐渐被机械帮助所取代。网络时代的用户帮助就应该是用户通过各种网上工具来实现自我满足,从而对信息源的直接访问得到最优化。目前因特网上很多优秀的搜索引擎正是基于这种出发点,如Yahoo!、Altavista、新浪、搜狐等。

在图书情报领域,远程教育用户更需要机械帮助。图情界改善联机目录检索界面的研究,已促使许多独立专家系统能够提供机械帮助。OPAC[12]发展至今,用户友好性已成为其研究热点之一。第二代OPAC的图形用户界面是继命令、菜单式界面后的一代佼佼者。目前大部分仍处在实验、论证阶段的第三代OPAC,更使整个检索过程呈现一种智能化,具有更高亲和性与易用性。以PACE(Public Access Catalogue Extension)这种极具第三代OPAC特色的用户界面为例,它采用虚拟仿真技术,用户只需点击屏幕上目录柜、图书等虚拟影像,检索过程如同在图书馆现场实地操作。我们从中看出,这种机械帮助更形象地阐释了虚拟图书馆的内涵。

〔收稿日期〕1999-11-01

标签:;  ;  

Internet上文献信息资源的描述、标准化与检索_元数据论文
下载Doc文档

猜你喜欢