CALIS虚拟咨询知识库元数据规范的设计与应用_元数据论文

CALIS虚拟咨询知识库元数据规范的设计应用,本文主要内容关键词为:知识库论文,数据论文,CALIS论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

【分类号】 G250.76

1 概述

1.1 元数据基本定义

元数据是关于数据的数据,是专门用来描述数据(数字对象)的内容、特征和属性,并对数据进行管理和结构化的数据[1]。

根据元数据描述、管理内容和作用的不同,元数据可以分为多种类型。从功能角度来说,可以分为描述元数据和管理元数据。描述元数据是对资源本身的内容、属性、外在特征的描述,是整个元数据体系中最主要的元数据。管理元数据是对资源的加工、存档、结构、技术处理、存取控制、版权管理以及相关系统等方面信息的描述[1]。

1.2 虚拟咨询知识库元数据的意义

随着网络技术的发展,高校图书馆的虚拟参考咨询服务已成为各所高校研究的热点课题,而且为了实现资源的共享,现在多个图书馆或者信息机构联合起来,进行分布式合作虚拟咨询服务(Collaborative Virtual Reference Service)。合作虚拟咨询最主要的特点就是资源共享,在咨询的过程中会把一些有价值的问题和回答收集起来,经过编辑人员按照一定的规范标准编辑整理,逐渐形成知识库,以供日后检索。在合作虚拟咨询服务系统中,知识库是可以供所有成员馆检索的,每个成员馆在回答问题的时候,可以先检索知识库中是否已经有类似的问题,如果有,则可以参照该问题的答案进行回答,节省了人力和时间。比如像QuestionPoint[2](QP)和Virtual Reference Desk(VRD)这样大型的合作项目,系统具有转发问题的功能,在转发问题之前会自动对知识库进行检索,看看是否有匹配的回答,如果没有,再将问题进一步转发给适当的成员馆请求回答。

虚拟咨询知识库是用来保存虚拟咨询服务过程中有价值的问题和回答,因此,虚拟咨询知识库元数据是对问答记录的内容和属性进行描述,并且对问答记录进行管理的元数据。当前,各高校采用的虚拟咨询服务系统并不统一,其知识库的建设也是各自为政。为了能够实现合作式的虚拟参考咨询,有必要对知识库的元数据记录进行规范化,以便各高校图书馆的知识库内容能够共享。

1.3 虚拟咨询知识库的元数据标准现状

目前,国外有关虚拟参考咨询的知识库元数据标准主要有Question Interchange Profile[3](QuIP)和KnowledgeBit[4](KBIT)。QuIP是美国VRD项目组于1998年提出的,该标准是一个联合数字参考服务共享与交换提问和回答信息的元数据描述标准,主要提供了一种在多个个人或组织之间,跨平台、跨媒介地交换类似讨论信息的通用表达方法。KBIT是一种存储和检索虚拟咨询服务问答内容的数据格式。2000年在VRD的年会上提出,由Answerbase公司、美国国会图书馆和美国农业图书馆共同制定。KBIT的出现,是因为虚拟咨询服务的数量急剧增加,需要有一个标准的格式能够将大量的虚拟咨询问答数据存储起来,便于有效地检索和利用。

国内对于虚拟参考咨询的知识库以中文问答记录为描述对象的元数据标准目前还尚未出台。由于国内虚拟咨询主要是以中文为主,因此知识库的元数据主要是以中文问答记录为描述对象,并且用中文对问答记录进行描述。北京大学图书馆参与了CALIS分布式合作虚拟参考咨询服务(CVRS)项目的建设,根据自提供虚拟咨询服务以来所积累的经验,参照国外的标准,遵守国家科技部“中国数字图书馆标准规范建设”项目之成果“专门元数据规范设计指南”[5],针对中文问答记录元数据的特点,提出了CALIS虚拟咨询知识库元数据规范(以下简称CVRS元数据规范)的设计想法,为国内图书馆界发展自己的合作虚拟服务项目提供一些参考。

2 CVRS元数据规范的特点

2.1 著录对象及著录单位

由于虚拟咨询知识库是用于保存虚拟咨询服务过程中有价值的问题和回答,因此,其元数据的著录对象为问题与回答的内容。

存入知识库的问题与回答是一一对应的,并且每个问答记录只能有一个问题代码。因此,要把一个问答记录作为一个著录单位,并且以问题作为判断著录单位的最终根据。例如,问题相同,答案不同,作为一个问答记录处理;问题不同,答案相同,则作为不同问答记录处理。

2.2 著录对象之间的关系

不同的问答记录之间会存在一些关联,这些关系会影响著录对象、著录单位的确定,进而涉及到元数据规范的设计。这方面的问题主要表现为这些相关的问题是否是单独著录,是否需要描述它们之间的从属、并列以及相关关系等。

本文通过以下解决方案的确定,包容了问答记录之间的各类相关关系:

(1)问题相同,但答案不同

造成这种情况的原因,可能是回答随着时间的改变而改变的,也可能是不同的人依据不同的资源给出的答案不同。解决方案:

①不单独著录,而是依照原问题代码,补充修正;

②不单独著录,但把答案同时列出,分为答案1、答案2,依此类推。

(2)对于在原问题基础上进一步提出的问题

①如与原问题不同,可以单独著录,并在“相关问题”中说明;

②如果被包含在原问题中,或者包含了原问题,可与原问题合并;

③对于不同的问题,答案相同,则作为单独的问题著录。

3 CVRS元数据规范的结构与内容

按照元数据的属性,笔者把CVRS元数据规范的结构分为描述元数据和管理元数据两部分,其中描述元数据有16个元素,管理元数据有3个元素,其元数据结构如图1所示:

图1 CVRS元数据规范结构图

(1)描述元数据

CVRS元数据中描述元数据之间的关系,如表1所示。

由于CALIS虚拟参考咨询项目需要建设本地知识库和中央知识库,因此,本文设计的知识库是从两个知识库的角度出发的,从表1可以看出,中央知识库和本地知识库的区别只是一些元素的必备性与否的区别。下面介绍几个重要元素:

①问答记录代码:此项是问答记录的唯一代码,由系统自动生成数字标号。同时作为相关问题的链接标识之一。

②问题:此项著录问题的具体内容,可作为检索入口使用。例如:请问在《说文解字》当中,“熙”字是如何解释的(字型和意思)?“熙”字下面的4点代表的是什么意思?

③提问用户:此项著录提问人的相关信息,子元素为:用户名、用户机构、教育程度、电子邮件地址,其中教育程度的限定词有本科生、硕士生、博士生、教师、科研人员、图书馆员/信息专家、其它。

④回答:此项著录答案的内容。可作为检索入口使用,也可考虑在多个答案的情况下,设立属性:答案1、答案2、答案3……例如:《说文解字》210页对“熙”字的解释为——“燥也从火”;“熙”字下面的4点代表的是“火”。另外,还可以参考《说文解字》250页和311页的有关注解。

⑤回答程度:此项著录对问题回答的完整程度。通过下拉菜单,对回答内容的程度进行选择,分为“完全”、“部分”或者“拒绝”。如果选择“部分”,说明回答问题的馆员已经尽力,并且已经回答了其中的一部分,但是这个问题并没有被完整地回答,便于以后重新编辑、添加。回答程度是“部分回答”的问题,不能提交到中央知识库中。

⑥回答专家:此项著录回答问题的专家。包含的子元素有专家代码、专家姓名、专家所在机构。专家信息通过填写《咨询专家档案规范》建立专家库,每次使用此元素时通过专家代码或专家姓名直接从数据库中提取。

⑦答案引用信息:此项著录答案中的引文描述,其元素修饰词有作者、题名、来源、出版社、出版地、出版日期、卷/期、页数、文件格式(可以选择:盲文、计算机文档、图像、地图、缩微胶片、电影、音乐、图画、录音、录像、多媒体)、URL。由馆员添加标准化的书目信息,子元素的各项可以不必全填,如果参考的是书目,可选择“标题、作者、出版社、出版地、出版日期”等,对于期刊,则选择“题名、作者、来源、卷/期、页”等等。“文件格式”指特殊载体的来源信息,可列表选择。

⑧主题/关键词:此项著录即对问答记录进行概念描述的主题词或关键词,允许吸收用户和著录人员的关键词,建成词表规范档。

⑨学科/分类:此项著录问答记录涉及的学科或主题分类,可列表选择见“学科/分类表”,分为一级类目、二级类目、三级类目,通过列表选择的方式来填写,可以实现多选。“图书馆常规服务咨询”一项,仅供本地知识库使用。允许根据各个成员馆的特点,自行增加一些类目。通过本分类表的使用,建立知识库的学科/分类浏览体系。

⑩相关问题:此项著录对相关问题的参照,对相关问题的标识,采用“问题代码”和“问题”来链接。允许著录人员自行与其它问题做相关链接。例如,原始问题是“康熙年间的兵部尚书是谁?”,著录在“问题”元素中;相关问题是“清代的六部尚书是指哪六部?”,著录在本元素中。

(2)管理元数据

问题状态:此项著录问题在知识库建设流程中的不同状态描述,其属性有未答复、答复中、已回答、已整理、已校对、可检索、可提交、有重复、未审核、完全级。同时,根据本地知识库和中央知识库的功能特点各自设定属性。

4 CVRS元数据规范应用实例

以北京大学图书馆从2002年开始使用QP的知识库中积累的问题,应用本元数据规范,以提交到CALIS虚拟咨询知识库的中央知识库为例,数据供参考。为了直观起见,以表格形式表示,如表2所示。

5 设计CVRS元数据规范的相关问题

5.1 与国外虚拟参考咨询元数据标准相互映射

建立CALIS虚拟咨询知识库是为了供各个成员馆共同利用,它的发展应该与国外的虚拟咨询同步,能够与国外的虚拟咨询系统的数据相互转换,因此,本规范的元数据设计参考了QuestionPoint[2] 和QuIP[3] 的相关元数据标准,它与QuIP、QuestionPoint、DC[6] 元素的映射如表3所示。

5.2 CVRS元数据规范的扩展

元数据的扩展规则,对于元数据的灵活应用具有很大的作用,因此,在制定元数据的时候,都要制定相关的扩展规则。由于CALIS虚拟咨询知识库应用于全国高校图书馆,而高校图书馆本身有综合性和专业性之分,同时,各馆还有各自的特色之处,因此,在建设知识库的时候,可对本元数据规范作适当的扩展,但必须要遵照国家科技部“中国数字图书馆标准规范建设”项目之成果“专门元数据规范设计指南”中规定的扩展原则进行。比如医学类的图书馆,专业性比较强,其中的学科分类可以作进一步的纵向扩展,以满足知识分类的需要。

5.3 CVRS元数据规范的著录规则

对元数据的著录,要制定相应的著录规则,即CVRS元数据规范的应用指南,包括元素、元素修饰词的内容和属性的具体设置、取值和特征,即要给出对信息资源著录时各元素应著录哪些内容,取值范围(数据类型在元素定义中已规定),如何处理各类特殊事项,有何著录范例等。具体的制定方法,同样需参照国家科技部“中国数字图书馆标准规范建设”项目之成果“专门元数据规范设计指南”的规定。

6 结语

中文问答记录知识库的积累,对国内高校图书馆进行虚拟参考咨询及其共享具有重大的意义。知识库元数据规范正是为知识库的积累和应用提供一个既能遵循统一的元数据基本结构,又能够适当扩展的规范。但是当前国内还缺乏这样的知识库元数据规范,而本文提出的CAUS虚拟咨询知识库元数据规范,正好弥补了这一空缺,这将有利于国内高校合作虚拟咨询服务的进一步发展,希望对高校的虚拟参考咨询服务有借鉴意义。

标签:;  ;  

CALIS虚拟咨询知识库元数据规范的设计与应用_元数据论文
下载Doc文档

猜你喜欢