清华同方光盘股份有限公司TPI协办——网络环境下的信息资源编目,本文主要内容关键词为:同方论文,编目论文,股份有限公司论文,清华论文,信息资源论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
互联网上有大量可利用的资源,但是,他们都隐藏在杂乱无章的信息中,使信息呈无序状态。任何计算机用户、网络浏览者和互联网的链接者都是网络内容的创造者。网络数据信息的不稳定性使图书馆员很难预测,如何有效地对网上信息进行组织,以便于检索和应用已成为图书馆员在网络时代遇到的新挑战。特别是编目人员,他们习惯采用的信息编目和组织方法受到了极大的冲击。要重新定义信息资源的收集、组织和检索理论,需要产生新的工作平台和标准,对传统的信息编目方式也要改变。
1 网络信息组织与元数据
互联网资源应用的瓶颈是资源发现,而解决这一问题的关键是资源描述。其工具就是元数据。
认识、理解元数据是网络资源编目的先决条件。元数据与传统编目中的目录相对应。元数据就是关于数据的数据,是描述网络信息资源的一种数据格式。它的主要功能是:揭示电子资源的内容和特性,如一本书的作者、书名、责任者、出版日期及摘要等;提高信息资源的查准率和查全率;提供数据之间的联系,如数据的地址和存取方法;元数据与传统目录一样,可以组织成若干等级。事实上,元数据的存在先于网络。人们使用元数据之前已经储存了这些数据。只是在信息环境下这些数据称为元数据。网络数据相当于传统意义上的文献。元数据是用来描述文献特征的数据集。可以使网络资源充分发挥作用,对于促进网络文献的管理、使用和共享也有重要的作用。随着网络技术的发展,元数据的共享已成为一种需求。因此,需要有统一的元数据标准。元数据标准的研制与实施已引起了世界各国的广泛重视。
元数据中的两种常用格式是MARC和Dublin Core(都柏林核心元数据,以下简称DC)。MARC是一种被结构化的体系方案。DC与图书所使用的MARC格式,在角色和功能上是相似的。
2 网络信息组织与MARC
2.1 MARC在网络环境中的局限
MARC标准自诞生以来便被图书馆广泛采用。所以,目前已有几百万条用此编目的书目记录,它是传统印刷型数据组织的重要工具。然而面对海量的互联网数字信息,它的处理能力有一定的局限性:(1)MARC是被结构化的特殊体系的著录格式,只有经过专业训练的图书馆专业人员才能做文献的著录工作。面对以几何级数增长的网络信息,编目人员无法利用MARC格式及时处理数字信息;(2)MARC格式中设有头标区、目次区、数据区、记录结束符,还有众多的字段,这使得它的著录相对复杂。标引的专业性要求很高,不适于大多数普通的信息用户;(3)用MARC格式著录的工作流程比较复杂,需要设计专用的编目软件,编目人员要同时掌握软件操作能力和熟悉著录规则;(4)MARC格式中有许多涉及版本方面的内容,而网络信息注重的是资源发现,对于网络资源来说,MARC所设的项目过于繁杂。
2.2 MARC的数字资源编目格式——856字段
为了克服MARC在网络环境中的局限,世界各国都纷纷研究MARC在电子时代的适用性。MARC的数据结构为网络信息资源的著录提供了可能性。20世纪90年代初期,为了更好地适应电子文献的数据著录和检索需要,图书馆专家开始制定组织互联网资源的计划,探索网络资源的编目方法。尽管MARC格式可以适用于计算机编目,但仍需要与网络资源相链接。为了满足这种需要,美国国会图书馆、美国图书馆协会和OCLC的专家提出了MARC的“电子定位与存取”字段——856字段,即电子地址及检索方式字段(Electronic Location and Access)。此项提议于1993年由“书目信息机读格式委员会”通过,成为记录电子信息资源的重要手段。856字段著录网络信息资源的获取方式及其获取的必要信息,用来存放URL的地址,通过它可实现书目记录与网络信息资源的链接。
856字段包括了一些电子信息的存取方法:E-mail地址、FTP(File Transfer Protocol,文件传输协议)、Telnet(远程登录存取)、Dail-up(电话线拨号存取)、HTTP(Hypertext Transfer Protocol,超文本传输协议)。还提供了电子信息资源之间的联系:电子资源文件名、URN(Uniform Resource name统一资源名)和URL(Uniform Resource Location,统一资源地址)等。
在856字段中所设立的著录网络信息资源的获取方式及其获取资料的信息,使MARC的传统编目功能与电子信息的组织功能有机地结合在一起。
2.3 Intercat计划
856字段的二级字段也包括URL不能表达的附加电子查询和检索信息。856字段改进后包括OCLC联机编目中的书目记录。用户用具有URL的MARC书本格式检索记录可以自动链接特殊的网络服务和检索信息。为了贯彻新的标准,OCLC从1994~1996年开始了Intercat(建立网络资源数目记录)计划,它的设计范围广,要协调图书馆与高等教育机构,以产生、测试、评价可检索的、具856字段的网络信息资源的MARC格式书目记录的数据库。参加的机构要选择书目网络资源,并将这些记录提供给OCLC。1994~1996年有200多家图书馆和信息机构参与选择和编辑网络资源,提供了大量的记录,编目人员按照USMARC和AACR2格式进行编目。每条记录包含一个或数个856字段,通过运用超文本链接手段,与网络资源连接。馆藏资源和网络资源可以融于同一个系统内。
3 网络信息组织与DC
3.1 DC的产生与发展
网络数字信息的急剧增加,尽管OCLC互联网编目计划的参加者做出了很大的努力来编目网络资源,但是也仅能使很小部分的网络信息具有856格式的书目记录。网络信息资源在被检索之前需要加工和编目。图书馆界用USMARC格式进行的网络资源编目实际上是属于受控编目,编目数据质量高,但编目速度慢、成本高,无法应对数量如此庞大的网络信息资源。在信息技术界,许多研究者设计了多种元数据格式来描述电子信息资源。设计优良的搜索引擎虽然具有自检索网络上的每一篇资源的搜索功能,并进行数据库排序维护。然而。检索实践表明,搜索引擎检索的信息不能包括充分的资源描述,特别是如果地址数据库非常大,学科跨越度相当广,则检索效果更差。此外,大量的资源除了文档名称以外,根本没有详细的信息描述。
在索引和著录之间需要产生一种解决方法,既可以产生比搜索引擎检索的信息记录更多,又比传统著录记录的信息简练。这样就可以用很少的人著录大量的网络信息,尤其是如果资源的创造者自己可以著录,则是一个很好的获得元数据的方法。因此,创立一个简单的、可以被网络用户所接受的标准化的元数据元素集,成为网络发展急需解决的问题。
1995年由美国OCLC公司发起,召开了第一届元数据研讨会。拟定了用于标识电子资源的简要目录模式——都柏林核心元素集(Dublin Core Element Set),简称都柏林核心(DC)。由于它的简练、易于理解、可扩展性及可以与其他元数据形式连接等特性,它的出现很快被世界许多国家所认同。1996年4月在英国召开了第二届元数据研讨会。这次研讨会主要是讨论了都柏林核心的可扩展机制。1996年9月在美国召开了第三届元数据研讨会。主要是讨论了在网络环境下描述图像和图像数据库的问题。1997年在澳大利亚召开了第四次元数据研讨会。本次会议产生了两大学派:最小主义学派和结构语言学派。最小语言学派认为DC的最主要特征是简约性。而结构语言学派则认为最重要的是元数据的限定能力。1997年在芬兰召开第五次元数据研讨会。这次会议的主要收获是最后确定了DC的15个元素的定义。1998年在美国召开了第六届元数据讨论会。主要议题是DC与其他资源描述方案的互操作性。
3.2 DC元素
DC是国际通用的适用于网络资源著录的格式。它的结构简单;数据元素的含义清晰易懂,即使是非图书馆编目人员也能掌握;有德语、日语、葡萄牙语、西班牙语等10多种语种的版本;可扩性好,可以与其他元数据连接使用。DC由15个数据元素组成:题名(Tihe)、著者(Creator)、主题及关键词(Subject and Keywords)、说明(Description)、出版者(Publisher)、其他责任者(Contributor)、出版日期(Date)、类型(Type)、格式(Format)、标识(IDentifier)、来源(Source)、语言(Languange)、相关资源(Relation)、覆盖范围(Coverage)、版权(Rights)。这15个元素依据其描述的内容类型和范围可分为三组:(1)对资源内容的描述;(2)对知识产权的描述;(3)对外部属性的描述。在15个元素中,DC概括了电子信息的主要特征,如重要的检索点、辅助检索点和关联检索点。DC具有简单性、适应性和互操作特征,它给创作者或出版者提供了网上的数字信息,并创造了一种结构性描述工具。另外,DC对限定词的增加,提高了资源的发现能力。DC提出的限定词包括三类:(1)语言——如果网络资源是多种语言,限定特殊语言元素。(2)体系——限定所给元素的解释内容。(3)类型——限定元素名称的修改和缩小语义领域。研制限定词的原则不仅是支持,而且是提供DC所需要的更丰富的语义和更多的描述。使DC更简单、更易于管理是制定限定词要实现的目标。
3.3 DC在网络环境中的作用
DC在网络信息组织方面具有如下作用:(1)DC可以直接处理网络数据。DC提供了全新的元数据定义。既是元数据的交换格式,也是元数据的内部处理格式,给数据处理带来极大的便利;(2)DC是为网络资源的著录而制定的。适用于众多领域,同样很好地解决了数据变长、可重复问题。结构简单、易懂,自学就可以掌握。它的15项定义,是核心定义,可根据需要扩展,弹性好,又实用;(3)它适用于世界上通用的软件成果,便于系统与时俱进。便于网络资源编目的自动化;(4)DC的著录格式简单,大大减轻了编目人员的劳动强度。在发展网络环境下的数字化信息系统中有广阔的应用前景;(5)DC元数据是结构化的数据格式,它支持字段查询。因此,未经过培训的普通网络资源制造者也可以自己对资源做描述。
尽管DC仍然在发展,它的格式也需要更加标准化。但它作为网络资源描述的雏形,仍被国际广泛认可。这些计划在许多国家和不同的领域得到采用,包括文化资源、医学和科技资源,以及图书馆和政府信息部门。
4 网络信息资源编目的发展趋势
4.1 标准化
目前网络信息资源的数量急剧膨胀,对信息资源的处理标准也很多,许多可能是互不兼容的标准。要实现编目信息的共享,必须定义一个公认、彼此遵循的协议,这个协议必须具有可操作性,要简单、灵活、兼容,并易于被网络资源的创作者和信息专业人员所遵循。要制定一个国际通用的网络信息资源著录格式标准。目前的DC具备简练、易于理解、可扩展性,以及能与其他元数据形式兼容等特征,已经得到了许多国家的认可,因此有可能成为国际标准。
4.2 合作编目
在传统图书馆中采用联机编目已经成为世界各国图书馆的共识。联机编目节约了大量的人力和物力,并使资源共享成为可能。网络信息量之大是传统图书馆根本无法相比的。因此,网络信息资源的合作编目更是急待解决的问题,是未来网络信息编目的发展趋势。合作编目可以说是提高网络信息资源利用率的有效手段。
4.3 编目规则的树形结构
目前的DC是最基本的元数据结构,是通用的编目规则。但网络信息的内容是多种学科、多种专业的。一种通用的编目规则不可能适用于所有专业的网络信息。因此还需要制定一种以根级元数据为基础,以专业学科为枝的衍生编目规则——一种树形结构的编目规则。
4.4 编目规则易于资源发现
网络信息组织是网络信息资源发现的基础。科学的编目规则可以给资源组织提供标准的格式和规范,如DC提供一种简单的格式,使信息提供者的文件一经产生就可直接编目,并且易于修改,它的著录项目是非线性的,著录的元数据符合大多数人的思维习惯,用户可以自由检索,为用户提供简单、高效的检索界面。信息组织具有模糊检索的功能也是提高资源发现率的一种趋势。
4.5 可扩展性
为了适应全球网络资源共享,适应各网络终端不同信息形式处理的需要,编目规则必须具备一定的弹性。能随时加入新增项目以扩大其功能和应用范围,忽略不可识别的项目,以便灵活地处理数量庞大的网络信息。
4.6 可修饰性
编目规则要能同时满足图书馆专业和非专业人员的需求。编目规则能使非专业人员在创作的同时,很容易地对创作资源进行著录工作。
5 网络信息资源编目的发展对我国图书馆工作的启示
5.1 建立网络资源编目机构
目前国内的合作编目与网络资源的组织还处于起步阶段。在网络资源急剧增加的今天,应该加快我国网络信息资源编目机构建立的步伐,使之协调国内数字图书馆的网络资源编目工作,组织研讨国际编目工作的发展趋势,以提高国内的网络信息管理水平,使我国的编目工作跟上世界同行的发展。
5.2 加强理论研究
我国对DC和MARC856字段的研究尚处于初级阶段,缺乏深入研究,为了与世界网络信息的发展保持同步,信息专业人员应该对国际编目准则的发展保持高度关注,进行跟踪研究。
5.3 充分利用现有研究成果
加强同国外同行的交流,参加国际信息组织和数据库建设的工作,充分利用世界图书馆界已有的各种产品和研究成果,跨越式地提高我国目前的网络资源加工能力和利用水平。
5.4 提高图书馆人员的整体素质
信息技术的发展,使传统的图书馆管理方法和资源组织方法受到了很大的挑战。图书馆人员不能再仅仅局限于传统的分类编目工作和传统的藏书借阅模式,要不断更新传统的工作方式和传统的图书馆管理方式,要掌握计算机知识、网络知识、信息处理技术和提高外语水平,并具有使传统图书馆知识与现代网络信息处理相结合的研究能力,只有这样才能使信息工作者永远占在信息时代的最前沿。
收稿日期:2003-07-09