数字信息资源管理的重要工具——分类法在构建元数据框架体系中的应用调查及建议,本文主要内容关键词为:分类法论文,信息资源论文,框架论文,体系论文,建议论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:G254 文献标识码:A 文章编号:1007-7634(2007)11-1601-08
数字信息资源具有的数量庞大、增长迅速、动态性强等特点使MARC难以满足数字信息环境下信息资源组织与管理的需要,都柏林核心等多种元数据得以产生。为了实现不同元数据体系之间的互操作,需要对其进行规范控制以促进数字信息资源共享,数字信息资源管理的重要工具—分类法的应用则是规范控制中重要的环节。本文拟调查分类法在元数据体系中的应用情况,并据此提出对《中国图书馆分类法》 (以下简称《中图法》)修订的建议。
1 不同元数据体系中与主题有关的元素及其著录要求
目前,世界上已开发出并付诸使用的元数据有多种,如艺术作品描述类目(CDWA)、都柏林核心元数据(DC)、编码文档描述(EAD)、美国联邦地理数据委员会/数字化地理元数据的内容标准 (PGDC/CSDGM)、政府信息查找服务(GILS)、文本输入创始计划(TEI)和美国视觉资料协会 (VRA)核心类目(VRA Core Categories)等。
无论在哪一种元数据体系中,“主题”都是一个十分重要的元素,而主题主要通过分类号或主题词来表示。因此,笔者调查了这些元数据体系中与主题有关的元素及其标引要求,调查结果如表1所示。
由表1可见,不同元数据体系对主题元素进行标引时对分类法与主题词使用的要求不同,且有的元数据体系没有对标引细节做出具体规定。另一方面,不同的元数据体系由不同信息群体根据其部门用户的需求而开发,它们之间的互操作和多种元数据体系的集成又依赖于规范控制。元数据的规范控制功能包括信息内容的规范化描述、规范标引和信息评估等方面,不难看出,分类法的应用对于整合和利用多种元数据体系具有重要作用。“从数字化信息资源组织现状来看,对信息的主题正向着受控和非受控两种方法并举的方向发展,特别是随着图书馆界的参与,利用受控情报检索语言来描述数字化信息越来越得到重视[1]。”
DC是使用最广的一种元数据,而MARC在图书馆界使用了近50年,下文将重点讨论DC和 MARC中应用分类法的情况。
表1 国内外重要元数据体系中与主题有关的元素及其标引要求
元数据名称
网址 与主题有关的元素标引要求
CDWAhttp://www.getty.edu/re-
Classification,且作为核心元素
采用正式的分类法,标明类目名称与分类号
search/conducting_research/Subject Authority,作为核心元素
standards/cdwa
DC http://purl.oclc.org/dcSubject 描述资源主题或内容的主题词、关键词,也包括分类编
码,建议采用DDC,UDC,LCC,LCSH,MeSH
EAD http://lcweb.loc.gov/ead/ Archival Description 建议作为必备元素,包括描述档案数据的内容、背景和
范围等
Controlled Access Headings
描述数据的关键检索点,可加上“控制查询标目”(control
access)的标签将关键词集中于一处,受控词汇主要用来
指出与MARC的1xx、6xx、7xx字段相关的术语,其子元
素中含有subject,最好采用国家或国际性的主题词表
Subject 描述数据相关或所涵盖主题的专有名词,包括人名、机
构名和地名
FGDC/CSDGM http://fgdc.er.usgs.gov/Identification
内含描述数据集的名称与专题分类
GILS
http://www.gils.net/over-
Subject Terms--Controlled可用受控的主题词表和本地定义的非受控词
view.html# discoverySubject Terms--Uncontrolled
TEIhttp://www.tei-c.orgcategory 标出使用者定义的分类法中单独描述的类目
dassCode 标出文本使用某种标准分类系统时的分类号
scheme
标出使用的分类法
classDecl标出文件在其它部分使用的一个或多个分类法中的类号
VRA Core Cate- http://www.gsd.harvard.
subject 标出主题词,可重复
gories edu/~ staffaw3/vra/corein-
fopage.htm
2 DC中应用分类法的情况
都柏林核心元数据元素集1.1版(Dublin Core Metadata Element Set,简称DCMES,Version 1.1)先后于2001年和2003年被批准为美国国家标准(NISO Z39.85-2001)和国际标准(ISO 15836:2003(E))。DCMES还被澳大利亚、芬兰、丹麦、英国等国批准为国家标准,DC元数据的各类推荐方案已经被翻译成33种语言。
DCMES有15个基本元素,包括:标题(Title)、作者(Creator)、主题(Subject)、说明(Description)、出版者(Publisher)、合作者(Contributor)、类型(Type)、格式(Format)、标识符(Identifier)、来源(Source)、语种(Language)、关联(Relation)、覆盖范围(Coverage)、权限(Rights)和读者对象(Audience)。
DC的维护机构——都柏林核心元数据创始计划(DCMI)网站规定,DC的“主题”元素指作品所属的主题,其标引可用关键词、关键词词组和分类号,建议采用受控词汇,用scheme注明出处,主题词表如LCSH,分类号如杜威十进分类号等[2]。美国国家信息标准组织(NISO)提出的对主题元素标引最佳做法是采用受控词汇与正式分类法[3]。 ISO 15836:2003(E)也做出了同样的规定[4]。
DCMI的用户指南也规定,每一个DC的元素是可选择和可重复的,各元素的著录顺序也不是固定的,而同一个元素的多次著录的顺序可由元数据创建者根据重要性确定,同时,元素顺序的确定还取决于采用的标记语言,如RDF/XML支持顺序的排列,HTML则不支持。该指南规定,对“主题”元素采用的标签(Label)是Subject and Keywords,其标引可用LCC,DDC等分类法的类号,也可用 LCSH等主题词表中的词汇,或者关键词,指南特别提到了采用受控词汇的重要性。指南还在DC限定词的“主题”部分的输入系统中点出了LCSH,MeSH,DDC,UDC和LCC[5]。
由于DC具有许多优点而被国际上许多元数据项目采用,基于DC开展的元数据项目主要有两种应用模式:简单DC(simple DC),即在15个元素的基础上扩展和缩减元素,不使用任何限定词;含有限定词的DC(qualified DC),即增加限定词。有的国家在DC基础上根据本国的实际情况做了一些改进,如澳大利亚政府定位服务(Australian Government Locator Service,简称AGLS)在DC的15个基本元素基础上增加了Mandate,Function,Availability等元素[6]。韩国的论文联合编目系统(Article Union Cataloging System,简称AUCS)则在DC的15个基本元素基础上增加了“馆藏(holding)”元素。
我国大陆地区的中国国家图书馆、清华大学图书馆、北京大学图书馆、上海图书馆、广东省立中山图书馆等单位根据DC在古籍善本、建筑资料、舆图、金石拓片、手稿等文献资源的组织方面提出了自己的元数据方案,并得到了应用。我国台湾省辅仁大学图书资讯系吴政睿教授研制了中文DC系统。
笔者在访问DCMI网站提供的DC项目清单时[7]发现,DC在不同学科和国家的应用是不平衡的,在书目、艺术、教育以及科学与技术等领域应用较多,应用DC的项目数量前四名的国家依次是美国、澳大利亚、德国和英国,法国和乌克兰并列第五。笔者在调查中还注意到,DCMI网站统计并不全面,我国大陆地区利用DC的项目均未列入其中。建议国内使用DC的应用项目利用该网站“Submit a Project”进行在线提交,借此扩大在国际上的影响。
笔者在对上述清单中的项目站点进行进一步访问后发现,许多在DC基础上发展起来的元数据在对主题元素进行标引时对分类法的使用有以下五种情况。
(1)直接采用DDC、UDC和LCC等国际通用的分类法。已并入免费在线最佳网络资源服务项目 Intute[8]的社会科学学科信息门户(SOSIG)采用 UDC,网上的商业与经济教育学科信息门户(Biz/ ed)和e-Prints UK采用DDC,艺术、设计、建筑与媒体学科信息门户(ADAM)采用DDC 21版。加拿大科学网(Science Net)用DDC为中小学生订购资源,并利用DC对该项目和虚拟参考图书馆项目 (Virtual Reference library project)收录的网络资源进行编目。
(2)采用本国(地区)的分类法。如中国国家科学数字图书馆(CSDL)学科信息门户系列采用《中图法》。
(3)采用某学科领域的分类法。如英国的组织网络化医学信息项目(OMNI)采用美国国立医学图书馆分类法(NLM),瑞典工程电子图书馆 (EELS)采用美国工程信息公司的工程信息分类法 (Ei),英国的爱丁堡工程虚拟图书馆(EEVL)则采用改编后的Ei。
(4)同时采用综合性分类法与专业分类法。如英国的生物医学学科信息门户(BIOME)同时采用 NLM,DDC和LCC。
(5)同时采用国际通用的分类法和各国分类法,综合性分类法与专业分类法。北欧元数据项目 (Nordic Metadata Project)是一个规模很大的区域性跨国合作计划,参与国家有北欧的挪威、瑞典、芬兰、丹麦和冰岛五个国家,是国外众多DC应用中规模最大的项目。该项目的“主题和关键词” (Subject)元素标引采用的分类法除了国际著名的三大分类法(LCC,DDC和UDC)外,还有:《美国国立医学图书馆分类法》(NLM)、《Colon分类法》、《芬兰公共图书馆分类法》、《SAB分类法》、《丹麦十进分类法》、《工程信息分类法》(Ei)、《数学主题分类法》(MSC)和《美国计算机协会计算机科学分类系统》(ACM CCS)等。其“主题词表(Subject scheme)”元素标引采用的选项有LCSH、MeSH、 Ei Thesaurus(EiT)和ACM CCS等近30种。可见,该项目除了有北欧诸国通用的区域性主题词表和分类法外,也包含常见的国际主题词表和分类法,如 LCSH和DDC,同时也有属于专门领域的分类法,如CCS等。此外,该项目对于MARC和DC间的相互转换与合作着墨颇多,可见此研究计划的重点之一,是研究如何将DC融入和应用于图书馆[9]。
3 MARC中使用分类法的情况
根据功能可将元数据划分为管理型元数据、描述性元数据、保存型元数据、技术型元数据和使用型元数据。其中,描述性元数据是指用来描述和识别信息资源的元数据,它支持资源的发现和鉴别。
机读编目格式(MARC)是关于图书馆描述性元数据的标准,是图书馆界编目格式的大家族,起源于美国国会图书馆的LC MARC,之后各国纷纷采用。该家族现在包含约50种不同国家(地区)的 MARC,如US MARC(美国)、UK MARC(英国)、 CAN/MARC(加拿大),由国际标准化组织制定、推荐给全世界各国使用的UNIMARC以及由UNIMARC演化而来并结合各国国情制定的CNMARC、JPMARC等。US MARC与CAN/MARC修订整合后形成 NARC 21。UKMARC逐渐注意与MARC21保持一致,决定不再对UKMARC(其最新版为2002年版)进行开发。MARC21也受到其他一些国家图书馆的赞成,如俄罗斯国立图书馆使用MARC21,《澳大利亚国家书目》(Australian Nalional Bibliography)的机读数据主要有两种格式,即澳大利亚机读目录(AUSMARC)和美国机读目录(USMARC)[10]。
大英图书馆开发的“用户控制的MARC转换工具”(USEMARCON)旨在促进不同MARC之间的转换,可转换目前世界各国采用的约50种MARC格式,并提供免费下载[11]。
为适应网络信息资源加工整理的需要,LC和 OCLC对USMARC进行了多次局部修改,LC网络发展与MARC标准办公室、ALA机读书目信息委员会和加拿大MARC委员会等机构关注和推动MARC的发展。国际上几种有代表性的MARC格式都为分类法设立了可检字段(见表2)。
*记载十进分类系统以外的其它分类系统代码,包括美国国立农业图书馆分类号、佛教图书分类号、何日章中国图书十进分类法、中国图书馆分类法、中国科学院图书馆图书分类法等
4 不同元数据集之间元素映射中使用分类法的情况
如果一个元数据集中的元素可以在另一个元数据集中找到相对应的元素,那么就可以认为这两个元素是对等的元素,彼此可以互相映射。例如:著名的学位论文数字图书馆项目NDLTD采用DC,其“主题”元素就可以与MARC21的653 a字段建立起映射关系;VRA Core Categories的“主题”元素可以与 MARC21的65X字段建立起映射关系[15]。在不同元数据体系元素映射的项目中,LC网络发展与MARC标准办公室推出的系列映射表影响最大,芬兰、丹麦等国也开发了映射系统,并参考了LC的成果。
如前所述,无论哪一种元数据都有表示信息资源内容主题的元素或字段,因而,映射中也涉及分类法的使用。不同元数据之间映射中,最受关注的是 DC与MARC之间的映射,这种映射分为两种情况:不含限定词的DC与MARC之间的映射;含限定词的 DC与MARC之间的映射。笔者对不含限定词的DC的Subject元素对应的MARC有关字段中分类法的使用情况进行了调查(见表3)。
在含有限定词的DC subject元素与其他元数据映射项目中,可使用更多的分类法,如在Dublin Core/MARC/GILS Crosswalk中,使用了LCC分类号、 DDC分类号和UDC分类号。
国内有不少学者研究了不同元数据之间的映射,提出了DC与MARC之间映射的设想,但是,目前尚未开发出DC与CNMARC映射的实用项目。
为了进一步促进元数据体系中分类法和主题词表的应用,已经出现了一些分类法与主题词表之间的映射成果。OCLC完成了DDC与LCSH的映射和 DDC与《加拿大主题词表》(CSH)的映射[16]以及 DDC与《医学主题词表》(MeSH)的部分映射等。
此外,美国Oregon州立大学的Terry Reese开发的基于Windows的免费的MARC编辑工具MarcEdit可自动地将MARC与文本相互转换,MARC转换成 XML或DC[17]。
5 元数据集成项目中分类法的使用情况
上文所述的不同元数据集之间的元素映射不能有效地将不同的元数据集整合到一个系统中,为解决这一问题,一些元数据集成项目得以出现,最有影响的是OCLC推出的三代集成系统,即第一代的 NetFirst、第二代的CORC和第三代的Connexion。
分类法在元数据集成项目应用比较早、也比较成功的例子是NetFirst。NetFirst数据库中对信息资源描述的元数据元素有:题名(Title)、链接(Link,即资源网址)、摘要(Summary)、联系方式 (Contact)、DDC类号(Dewey Info)和LCSH主题词 (LC Subjeot)、出版者(Publisher)、数据库记录号 (DB NO.)和域名(domain)。其中,Dewey Info处使用DDC类号进行标引,“域名”是其特色元素,例如,有一条网络信息资源的“域名”元素标为政府,而“主题词”元素标为“旅游”,组合起来则表示旅游类的政府网站,这样可以更充分地揭示关键词与DDC类号之间的关系。另外,NetFirst利用 DDC的层级结构和被补充的Dewey术语,允许用户从杜威的学科大类(如health,home,technology)、 LCSH主题词(health and medicine)和子主题词 (如health,preventive medicine)浏览按DDC类号组织的记录[18]。
合作联机资源目录(CORC)利用DDC分类系统对网络资源进行分类,并基于DDC创建元数据,还整合了MARC21和DC等其它的元数据标准。
集成化的编目项目Connexion允许用户进行 WorldCat检索、编辑和输出不同格式的记录(包括 DC和MARC),使用空白的工作表格或者使用原 MARC和DC(仅限Connexion浏览器端)编目时现有记录中的派生数据[19]。分类法在Connexion中提供了一个相当于表层搜索功能的引擎,即其网络浏览器中的交互提供基于DC元数据的WebDewey搜索功能。
上述项目采用DDC对网络信息资源的主题元素进行标引,提高了网络信息资源描述与发现能力,这些成功实例使图书馆界和IT界更加意识到分类法在网络空间的作用。
国内也有一些检索系统整合分类法与元数据,如TRSInfoBaser系统支持对信息对象按照分类标准进行分类描述,提供分类导航,内置《中图法》、《科图法》、地区分类法、学科分类法,并可自定义分类描述;支持MARC等记录数据以及文本格式数据等自动批量导入并转换为信息库标准格式[20]。
6 调查总结及对《中图法》修订的建议
分类法对传统文献的分类与标引一直起着重要作用,也可作为数字信息资源管理的重要工具,为此,国内外一些重要的分类法针对数字信息环境的特点,也纷纷作了一些改进,如DDC第22版推出网络版WebDewey等,而且,WebDewey及其节略本每季更新[21]。
传统分类法的改进有利于推动分类法在数字信息资源组织与管理中的应用,从而促进数字信息资源的描述与发现,如Internet Public Library,Blue Web'n,INFOMINE和LII都是利用分类法组织数字信息资源的典范,BUBLLINK同时利用DDC和 DC组织数字信息资源,把分类法与元数据有机地结合在一起。分类法的改进也有助于自动分类,如 Jean Godby和Jay Stuler提出将LCC作为主题自动分类的知识库[22]。
分类法在元数据中的应用有助于扩大索引词汇、在元数据的“学科”(主题)元素创建时自动分配分类号、为自动分类提供补充术语、为用户提供更多的检索选择(通过分类号检索)。前文的调查表明,目前分类法的应用主要有两种情况:在网站或数字图书馆项目中,主要用作网络信息资源或数字信息资源的分类系统;在元数据体系中,则是利用分类法作为对信息资源主题有关的元素或字段的编码体系,尤其是在国际上使用最广的两种元数据集——DC的“主题”元素和MARC的有关字段的标引中,分类法的应用已经引起了重视。
分类法在元数据体系中应用最普遍的是 MARC,因为MARC一直在图书馆使用,其次是 DC,因它面向一般公众。其它的元数据体系带有明显的学科倾向,即针对特定的学科或用户群体,如艺术类的VRA Core Categories、面向档案资源的 EAD、面向古籍善本的TEI、面向地理空间信息资源的FGDC/CSDGM、面向博物馆的CDMA,针对政府资源的GILS等。这些元数据体系中,有的使用综合性分类法,有的采用专门分类法甚至自编分类法。
笔者在调查中发现,分类法在元数据体系中的应用引起了许多机构的重视。OCLC负责DDC的维护与修订,并推出了一系列旨在推动分类法应用的项目;LC于2001年提出了《网络资源的书目控制:国会图书馆行动计划》;美国信息科学与技术协会(ASIS&T)的分类法研究专门兴趣小组(SIG/CR)每年都召开一次会议。这方面的研究成果也不少,如Jean S Mitchell等2006年出版的著作以 DDC为例,说明分类法的作用不应局限于内容展示层[23],还出现了一些刊文量比较集中的期刊,如International Cataloguing and Bibliographic Control,Journal of Internet Cataloging,Cataloging and Classification Quarterly等。
但总体而言,国内外对分类法的重视程度还不够,如澳大利亚著名的元数据体系AGLS在其“主题”元素著录时只要求使用主题词表,并不要求再著录分类号;国内外分类法的应用不平衡,DDC的应用最为广泛,其主要原因是它注意结合网络信息的特点进行不断改进,包括Dewey for Windows和网络版的问世,并注意利用自动化技术。笔者以为,《中图法》第五版在修订时要注意以下问题。
6.1 充分利用现代信息技术
文献分类法与信息技术的结合始于20世纪60年代,当时人们主要致力于分类法的机读化。20世纪80年代刘(Liu S.)与斯文诺纽斯(Svenonius E.)开发了采用杜威十进分类法(DDC)的杜威联机检索系统,将分类法的等级结构作为查寻主题词的辅助工具[24]。
国外关于分类法自动化研究的成果与有关项目有利于促进《中图法》自动化的研究与开发。 OCLC开展了自动分类的研究[25],有学者提出用 Java和DDC进行数字信息资源的自动分类[26],也出现了利用DDC进行自动分类的项目The Wolverhampton Web Library(WWlib)[27]。
《中图法》第四版电子版的问世是其机读化的一个里程碑,为它运用于自动化、网络化的信息环境打下了坚实的基础。《中图法》要注意方便元数据的应用。才能使其在整合数字信息资源、提高数字化信息服务的效率等方面拓展新的领域。因此,要加强自动化技术和可视化技术等新技术在《中图法》应用的研究与开发。可喜的是,这方面的问题已经引起了国内同行的关注[28-29]。
6.2 注意研究用户的需求
《中图法》第四版已开始注意更好地面向公众,如《中国分类主题词表》采用了“分类法—叙词表对照索引式”的分类主题一体化检索语言体系结构,由“分类号—主题词对应表”和“主题词—分类号对应表”两个部分组成,这样,将《中图法》分类号与《汉语主题词表》相应的主题词结合在一起,比单纯的分类检索入口更受一般用户的欢迎,也方便了用户的使用。可利用用户的网络日志,充分发挥《中图法》网站“用户信箱”和BBS站的作用,设立在线调查问卷,征求用户使用《中图法》第四版的反馈意见和修订建议。
6.3 注意了解国际分类法的最新动态
《中图法》第四版吸取了国外分类法先进的编制理论和技术。以后仍要注意国际三大分类法最新的动态,要在保持自己特色的基础上,借鉴其成功的经验和好的做法,欧盟项目Renardus(2001-2002)也曾提出需要注意DDC与本地分类法浏览之间的参照。
6.4 加强对《中图法》的宣传和网站建设
虽然《中图法》是我国使用最广泛也最有权威的分类法,已普遍应用于全国各类型的图书馆,国内主要大型书目、检索刊物、机读数据库以及《中国国家标准书号》等都著录《中图法》分类号。但从上文调查不难看出,它在组织网络信息资源中的应用还远远不够,只有CSDL等有限的几个数字图书馆项目以及超星数字图书馆等很少的网站使用它作为分类依据。说明《中图法》在图书馆界以外的网络资源组织方面所具有的显著优势还没有被广泛认同,更没有得到应有的利用,也说明《中图法》的宣传亟待加强。
《中图法》电子版只有单机版,网络版尚未问世。《中图法》可借鉴DDC、LCC和UDC的做法,尽快推出网络版,这将有利于促进分类法在数字信息资源管理中的推广应用。网络版不仅应包括印刷版的所有内容,还应设立相应的栏目不断推出对印刷版更新或补充的内容,如WebDewey包括了完整的主表、复分表、相关索引(Relative Index Terms)和LCSH的一部分;《中图法》虽已建立了专门的网站[30],但网站关于《中图法》介绍的内容不够丰富,可在网站增加《中图法》使用手册等内容,最好能针对不同类型的用户提供不同版本的使用手册甚至交互式演示系统,对授权用户提供“分类号—主题词对应表”和“主题词—分类号对应表”等增值服务;网站提供的功能也十分有限,可在现有的《中图法》简表基础上,增加分类号检索功能,以方便用户查找某一个学科或主题相对应的分类号;增加浏览功能,便于用户了解知识分类的层级关系;增强网站与用户的互动。在网站功能方面, DDC网络版的有些做法值得借鉴,如允许用户利用布尔逻辑“与”、“或”、“非”和邻近检索以及截词检索进行高级检索,将分类号连结至LC权威记录;具有使用者批注功能(包括机构批注和馆员个人的批注)。要注意网站的更新与维护。
此外,要在不断完善《中图法》简体中文版基础上,尽快推出繁体中文版和英文版,以便于海内外同行了解和使用。根据UDC联盟咨询委员会 (UDC Consortium Advisory Board)的最新统计数据表明,UDC已在全世界124个国家使用,被翻译成 39种语言。还要加强对《中图法》的研究。
收稿日期:2007-08-05