网络信息资源揭示及其优化研究,本文主要内容关键词为:信息资源论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]G254.36 [文献标识码]A [文章编号]1003-2797(2004)01-0007-05
对网络信息资源揭示的必要性进行探讨,全面总结网络信息资源揭示的现状,进一步探讨其优化措施,是信息管理科学研究的一个重要课题。
1 网络信息资源揭示与描述的必要性
1.1 目录的作用与用户检索行为的分析
目录在我国有着悠久的历史,最早的“目”是指篇卷的名称,“录”是关于一书的内容梗概、作者生平事迹、校勘经过、评价等简要文字的说明,又称叙录或书录[1]。通过目录能够提纲挈领地对资料进行整理和加以适当的描述,揭示与报道关于原始文献的基本特征信息,为读者提供准确辨认某一特定文献的条件,确定文献取舍依据的信息。通过分析用户对各种信息资源的检索过程与行为,可以得出:用户无论是通过书本式目录、纸质卡片目录、机读目录,还是通过搜索引擎查寻资料时,都必须经过两个阶段:一是依据所描述的信息,判别和决定取舍;二是查寻原始文献。所以,在网络环境下,为用户提供辨识资料的信息,对网络资源进行适当揭示与描述仍是十分必要的。
1.2 对搜索引擎工作方式的分析
搜索引擎的工作方式,并非是“需求发生时直接处理原始资料”的方式[2],它主要由两部分组成:一是自动上网收集网页的系统;二是利用全文检索的技术将所收集的网页来自动断字词,然后把所取得的字词建立成类似索引数据库的系统。因此当用户输入关键词检索时,搜索引擎直接查寻已建好的索引数据库,再来比对字词。由于搜索引擎很少对检索结果进行明确的揭示与描述,很难判断大量的命中信息资源中有多少是与用户所需主题相匹配的,因而人们越来越认识到有必要对网络资源进行适当描述与揭示。
2 网络信息资源揭示与描述的研究现状
2.1 以机读目录格式揭示网络信息资源
2.1.1采用MARC与AACR揭示
MARC是用于描述、存储、交换、控制和检索的一套机读书目数据的标准,许多图书馆界人士主张以MARC格式来描述网络信息资源。Vianne T.Sha提出的理由是[3]:①MARC具有标准的信息交换格式;②适用不同的描述层次;③弹性的呈现格式;④多种检索点;⑤完整的书目描述;⑥能够将不同的资源整合在一个目录中,便于读者从一个目录检索不同的信息资源;⑦图书馆有义务对网络资源进行编目,以便读者到图书馆检索、利用网络资源。
高柳宾认为USMARC、AACR用于网上资源组织的优势是[4]:①是历经多年不断修改、完善与合作的结果,极具严密性和科学性;②其著录格式严格遵循AACR2的有关规定,尤其是对检索点的选取原则,具有统一性,利于资源的交换;③允许对信息内容进行分析,从而强有力地支持检索和描述;④规范档可以成功地支持检索;⑤数据结构严密;⑥是一个普遍的元数据标准;⑦能最好地保证现有书目数据库的兼容。
2.1.2 MARC格式的修改
对MARC格式进行修改,主要有如下一些:
(1)采用5xx字段。为了提高对网络资源格式的标识能力并满足用户的检索需求,采用5-字段记录网络信息资源的格式。如用500、520字段分别记录一般附注和摘要附注,用516字段反映计算机文件类型或数据注释,用538字段指定所需的特定程序或程序的类型等。
(2)采用856字段。它是网络信息资源编目所特有的字段——“电子定位与存取”字段,专门用于记载网络信息资源定位与存取方式。Nancy B.Olson的《Cataloging Internet Resources:A Manual and Practical Guide》[5],对856字段的主要内容及子字段的编码与描述内容进行了详细的介绍。
2.1.3网络信息资源编目项目
目前,西安交通大学图书馆借鉴国外经验,为引进的国外全文数据库中的电子期刊进行编目,并将MARC记录纳入OPAC系统,实现电子期刊在OPAC中的链接[6]。国外图书馆界已进行多项研究和试验,如OCLC主持的网上资源编目项目有[7~8]:
(1)因特网编目(InterCat,1991~1992年)。为了检验USMARC/AACR对网上资源编目的适应性,OCLC主持了第一个因特网资源编目项目,得出的结论是:①MARC/AACR能够应用于网上编目;②需要一种将书目记录与被著录资源链接起来的方法;③应该提供因特网资源编目的相关资料。
(2)建立通过因特网可存取资料的目录(Building a Catalog of Internet-Accessible Materials,1994~1996年)。为了更好地解决1991~1992年计划中发现的问题,OCLC再次推出了第二个因特网编目项目,约有500个OCLC成员馆联合编制了1.6万条因特网资源的编目记录。
(3)联机资源合作目录[9~10](Cooperative Online Resources Catalog,简称CORC)。它是一个基于WWW的最优化元数据生成系统,用于为电子资源编制书目记录和主题指南。目前已包含有23万条高质量的、经过图书馆筛选过的记录。它具备以下特征:创建记录迅速且具有灵活性;能生成规范控制;提供OCLC的在线杜威分类(WebDewey);主题指南的动态生成;更加容易的链接检查;以各种格式输出记录(包括MARC、DC、RDF和XML);使用固定的工作单等。
笔者认为,尽管机读目录格式为适应网络信息资源描述的需要作了相应的改进,但是由于其格式与字段的复杂性,制作技术要求高、投入大,制作人员必须经过专门培训,因此以机读目录的方式对大量的网络资源进行描述与整理是不够现实的。
2.2 以元数据(Metadata)方式揭示网络信息资源
以元数据(Metadata)方式揭示网络信息资源,就是利用Metadata标准描述网上一次信息的特征,对其内容进行压缩,使网上一次信息进入二次信息,实现对网上一次信息的控制,从而在逻辑上序化和优化网络信息资源。在这方面的研究主要有:
2.2.1 元数据(Metadata)的定义与功能研究
(1)关于元数据的定义。元数据是应电子文献成为主流及管理与检索网络信息的需求而兴起的。最常见的定义是关于数据的数据(data about data),至今还没有完全统一的定义。人们从不同角度给出了不同的理解。如:元数据是关于数据的数据,它是指任何用于发现、描述和定位网络电子资源的数据[11]。元数据是关于数据的数据,存在于电子信息环境中,用于描述资源的属性,呈现其关系、支持资源发现、管理与有效利用[12]。元数据通常被定义为数据之数据,它包含用于描述信息对象的内容和位置的数据元素集[13]。元数据究其本义和功能,就是描述文献信息资源的著录数据,也可说是电子目录[14]。L.Dempsey和R.Heery认为:它是描述资料属性的数据,用来支持如指示储存位置、资源寻找、文件记录、评价、选择等功能,更为正式的定义是:元数据是关于资源的数据,有助于其潜在用户事先了解其状态与特征[15]。吴政睿认为:它是用来揭示各类型电子文件(或资源)的内容和其他特征,以协助对资料的处理和检索,其典型的作业环境是电脑网络的作业环境[14]。显而易见,在元数据用于描述信息资源这一点上已达成共识。就其本义和功能而言,可以说它就是电子目录(Electronic Catalogue)。
(2)关于元数据的功能。元数据具有传统目录的“著录”功能。刘嘉认为其在网络信息资源组织方面的作用是:描述、定位、搜寻、评估、选择[17]。张智雄对其功能作了较全面的描述[18]:描述网络数据的内容;使网络数据便于搜索;帮助用户决定某些数据是否为其所需;防止一些用户(如孩子)存取某些数据;让用户可以重新得到或使用的另一拷贝;指导怎样“读懂”数据;帮助决定利用什么样的数据实例;给出影响数据使用的一些信息;给出数据的历史过程;给出数据与其他资源的关系;对数据管理的控制;对某些缺少文本的数据进行文字说明。元数据扮演图书馆中类似目录的功能。吴政睿在对都柏林核心集(Dublin Core,简称DC)对减低检索失误率进行的研究中[19],设计了一个简单的实验,实验结果证实:DC可以作为判断文件是否符合检索需求的依据,检索失误率仅为2.9%。
2.2.2 都柏林核心集(Dublin Core)研究
在诸多元数据标准(或规范)中,最受关注且应用最广泛的是DC元数据。DC元数据格式是在1995年3月由OCLC(Online Computer Library Center)和NCSA(National Center for Supercomputing Applications)联合召开的第一次专题研讨会(即“OCLC/NCSA Metadata Workshop”)上产生的[20],其目的是寻求一套简洁有弹性,而且非专业图书馆人员也可容易掌握和使用的信息资源著录格式,以提高网络信息资源的开发利用率。DC比较全面地概括了网络信息资源的主要特征,既避免了搜索引擎著录过于简单而导致检索效率严重下降的弊端,也避免了MARC的过于专业化和复杂化。
2.2.3 中文元数据应用研究
20世纪90年代以来,元数据已有多种不同的资料格式,目前至少有20种以上的属于国际标准或逐渐形成标准的Metadata格式存在于各学科领域[21]。国内元数据的开发与研究与国外相比,属于起步阶段,已进行一些研究项目,有的已进入实用阶段。主要体现在两方面:
(1)中文全文通用格式与中文元数据标准的制定。从1997年起,广东省立中山图书馆历时1年多,完成“数字式中文全文文献通用格式”(文化行业标准)的格式设计与标准初稿。根据试用情况对标准进行修改,新格式由DC15个项目加上记录控制号(record)16个数据项目,并规定了中文数字化文献的文本著录格式[22]。该格式是中文化的DC元数据格式。其标准文本由引言、格式设计原则、术语定义、全文格式结构、全文著录规范格式和两个附录组成。2000年,国家图书馆专门成立“中文元数据标准”课题组,研讨基本架构,调研国内外元数据标准及项目,确定了中文元数据的设计原则、设计思想,完成了方案的草拟工作[23]。北京大学数字图书馆的中文元数据研究项目提出一套规范和指导各类元数据标准设计制定规则和方法,即《中文元数据标准框架》,在此框架下,北京大学数字图书馆已设计并应用了拓片元数据标准和古籍元数据标准[24]。中国试验型数字式图书馆项目组的《元数据实施意见方案》由上海图书馆数字化工作部提出,该方案由都柏林核心元素定义及其限定、资源描述框架(RDF)及其含义、实施实例及实施建议四部分组成,并在上海图书馆的数字图书馆项目中得到应用[25]。
(2)元数据在数字图书馆的应用。自20世纪90年代中期以来,国家图书馆在元数据的创建和应用方面做了有益的尝试,开展及参加的项目主要包括:SGML在图书馆的应用,基于特征的多媒体信息检索系统研究,中国数字图书馆实验演示系统,知识网络—数字图书馆系统工程项目,国家计委《中国试验型数字图书馆》,拓片数据库的研制等。通过探索,在数字资源的元数据研制和应用方面积累了一定的经验[26]。此外,元数据在上海数字图书馆、北京大学的古籍拓片资料库及中科院数字图书馆等中都得到了应用。
2.2.4 元数据标签(meta tag)的应用
(1)在搜索引擎中的应用。在页面文件(HTML置标)中嵌入关于该页面的元数据信息,是保证网络信息发掘和组织的有效措施。许泗洋、柳晓春采用抽样调查与阅读搜索引擎“投稿须知”栏目,调查元数据标签的使用情况,主要是被搜索引擎支持和在网页中的实际应用情况[27~28]。结果为:所选择的6种中文搜索引擎如新浪、搜狐、网易、263搜索、悠游搜索和中华网搜索均不支持“Meta Description”、“Meta Keywords”、“Meta Robot Tag”、“Meta Tag Refresh”、“Meta Tag Boost Rating”等重要的元数据标签。10种英文搜索引擎“Altavista”、“Excite”、“Lycos”、“Inforseek”、“Hotbot”、“Google”、“yahoo”、“Dogpile”、“Ask Jeeves”、“WebCrawler”对元数据标签,有的支持,有的不支持。
(2)在网页描述中的应用。网页采用元数据标签的情况是:平均每个中文网页提供的元数据标签数为2.18,网页提供最多的元数据标签为5个;平均每个英文网页提供的元数据标签数为2.93,网页提供最多的元数据标签为20个。
3 网络信息资源揭示与描述的优化
3.1 应用与借鉴目录学方法
(1)遵循文献揭示的基本原则。网络文献揭示一般应当遵循文献提示的基本原则,即:一是要正确处理好揭示文献外形特征和内容特征之间的关系,以揭示文献的内容为主。二是要正确处理好揭示文献内容的广度和深度的关系,重视揭示文献内容之间的联系。对于网络文献,要采用超文本链接方式揭示资源之间的联系,使文献揭示向广度和深度发展。三是要重视揭示文献的变化情况及其社会影响,使读者获得有关文献的全面信息。
(2)网络信息揭示的深化。文献揭示的深化,目的在于避免读者检索没有价值的资料,同时避免有用资料的漏检,这就必须力求准确揭示文献的主题以及与主题有关的基本思想和事实。由于计算机技术、网络技术、通讯技术、数据库技术及超文本技术在信息检索与组织中的广泛应用,大大改善了文献检索环境。对于网络文献,除要求能够提供篇名、著者、主题词、分类号等检索点以外,还应提供文摘,甚至全文中的每个词都要成为检索词,从化学反应式、时间等文献的内部特征到文献的语种、出版社、出版日期等外部特征都可成为检索单元。网络信息检索不仅要能提供文本检索,还要能够提供声音、图像、图表等非文本检索,这就必须揭示这方面的特征以提供检索标识。此外,还应建立功能强大的检索系统,为用户多途径检索、提高检索效率提供便利。
3.2 普及与推广中文元数据标签在搜索引擎与网页描述中的应用
目前,元数据标签在搜索引擎与网页描述中的应用范围十分有限,存在许多不够规范和统一的地方。因此笔者建议:采用元数据提交表单的形式,确保由著者产生的元数据质量。表单要列出记录所包含的必备元素:如出版者、版权标题、适用读者对象、著者、主题、创建日期、修改日期、URI、语种、类型及格式等,使著者创建的元数据具有完整性。
3.3 加强对网络资源描述的权威控制
权威控制是为保证书目资料检索标目的一致性、唯一性与准确性,建立并维护其各种参照关系的过程,以解决检索标目的规范与统一,提高检准率和检全率。权威控制具有查检功能及聚集功能,查检功能即查检是否有某一特定资料,聚集功能即在某一特定的著者或标题下是否有所有相关的作品。链接权威档与书目记录,进行权威控制,是提高网络资源编目质量与检索效率的有效措施之一。笔者认为:描述与揭示网络资源时,应保证其检索标目的一致性。可采用CORC模式,在建立或修改一个资源编目记录时,需要决定规范的人名、组织、会议名称等;当需要选用规范的标题时,可通过点击“Authority”子标,使用“Search”功能,选择“Browser Authority Index”或“Search Authorities”,在MARC或DC编辑状态下,将需要规范控制的字段名称及内容填好,选择“Functions”下拉框中的“Control”按钮,通过点击“Control”等步骤,完成规范控制工作。
3.4 广泛开展合作编目
网络资源本身的特点,决定了必须以合作方式对网络资源进行编目。这种合作指的不仅是图书馆内各部门间的合作,更是馆与馆之间以及不同学术领域间的合作。我们可以国内现有合作编目的基础为起点,开展网络资源的合作编目。如以中国高等教育文献保障系统(CALIS)为平台,借鉴CORC模式运作,由CALIS中心作为负责、沟通协调单位,集中参与网络资源合作编目的成员馆,确定各馆负责资源编目的学科主题,进行合作编目。
3.5 及时更新文献编目课程教学内容
现有文献编目教材,已不适应揭示网络信息资源的需求,必须及时对课程内容进行更新与充实,为当前网络文献的揭示与描述提供指导。有一篇《关于编目与元数据库教育的建议》(Proposal for A Cataloging and Metadata Education)的文献[29],以毕业生将来的工作以及在信息组织中所起的作用为基点来设计课程的内容,提出了目前至2005年间的教学模式。该模式主要由四个层次组成:
(1)第一层次为一般了解,主要是针对毕业后不准备从事信息组织的毕业生设计,作为入门课,学生应该了解信息组织的各种不同方式,学会利用信息工具与系统来检索与识别信息。
(2)第二层次为编目知识与技能,主要针对毕业后想从事编目工作的学生,教学内容除了增加电子资源编目内容和对元数据方案应用有更深入了解外,其他与当前的编目课程相似,包括编目规则、理论、概念、标准和工具等。
(3)第三层次A级:高级编目,针对毕业后要成为编目专家和元数据专家的学生设计,该课程至少包括一半以上的与编目相关的课程,为致力于从事图书馆编目工作的学生提供更多的帮助。第三层次B级:元数据专门知识,针对毕业后想成为元数据专家及从事各种载体的信息资源组织的学生而设计。
(4)第四层次为高级元数据课程,是针对学完第三层次A级或B级的学生而设立的。学生毕业后能够参加制订标准、实现元数据计划、评价元数据方案,以及胜任元数据的创建、交换、管理等工作。
另外,美国天主教大学图书馆与信息科学学院(School of Library and Information Science at the Catholic University of America)设计了三个阶段的网络资源组织课程:第一阶段为基础编目课程,以实例及讨论的方式提高对网络资源组织及元数据的认识;第二阶段为高级编目课程,运用编目标准及Dublin Core著录网络资源及其他类型资源,并对元数据标准的相关议题进行探讨;第三阶段为高级的网络资源组织课程,实际创建电子资源元数据及应用各种元数据标准如Dublin Core、TEI、EAD等。
我们应该借鉴国外图书馆信息科学对编目课程的改进经验,在文献编目课程中增加新的授课内容,或开设新的信息组织课程,大力加强实习环节教学与实验基地的建设,以培养学生揭示各类文献的基本技能。
3.6 实现标准化与兼容化
我们应采用和参照现有的国际规范,引进和利用各种成熟、规范的编码体系中的元素,加快中文元数据编码的标准化与实际应用进程。全国情报文献工作标准化技术委员会应组织中国图书馆学会与中国情报学会等有关机构、有关专家学者及实践工作者进行论证,尽早推出中文元数据标准,颁布相应的著录规则和著录格式,并联合有关中文搜索引擎进行实验,普及与推广中文元数据标签在搜索引擎与网页描述中的应用,鼓励开展一些标准化程度高、技术含量大、应用效果好的合作项目,提高网络信息的描述质量与检索效率。