分布式组织图书馆的质量控制_元数据论文

分布式组织图书馆的质量控制_元数据论文

分布式机构库的质量控制,本文主要内容关键词为:分布式论文,质量控制论文,机构论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

〔分类号〕G258

基于开放获取理念的机构库(institutional repository,IR)作为一种新的学术交流和出版模式,正在被越来越多的国内外学术机构、图书馆和科研人员所支持。毫无疑问,机构库有利于促进学术交流、提升机构的影响力、保存学术资源以及拓展图书馆的发展空间。然而,在机构库建设中会遇到很多问题,诸如版权政策、资金问题、技术平台的选用等。其中,质量控制问题是机构库建设必须考虑的首要问题,例如机构库中所包含学术资源的质量优劣,会直接影响机构库大众信任度的建立、机构库作用的发挥以及学术机构的声誉。因此,对机构库的质量进行严格控制,是保证机构库得以良性发展的重要手段。

1 国内外研究现状综述

2000年,惠普公司(HP)斥资与麻省理工学院(MIT)联合开发机构库软件平台DSpace,拉开了机构库研究和建设的序幕,机构库得到了出版界、图书馆界、教育界等众多学者的关注,各国纷纷开始开展机构库理论研究和实践。但是,由于机构库的理论与实践研究尚处于初级阶段,研究重点主要集中在系统构建、版权政策和内容建设等方面,对建设中的质量控制问题关注不多。在机构库的实际建设中,也大多采取简单方式对质量进行初步控制,如DSpace不收录学生的研究成果、机构记录、非MIT教师的研究成果等。仅通过对资源提供者进行资格审核的做法并不能够真正控制机构库的质量,而一部分有价值的信息却被排除在外,不利于真实反映一个学术机构的整体实力[1]。

传统学术期刊在长期的发展过程中已经形成了一整套的质量控制与评价机制,如专家评审或同行评议制度,这些机制对机构库中学术资源质量的控制有一定的参考价值,但机构库收集的学术资源不仅包括已在传统学术期刊上发表的学术性论文,还包括大量未发表的预印本、学习资料、工作文件等灰色文献,故完全借鉴传统学术期刊的做法是行不通的。国内介绍机构库的论文,大多是介绍DSpace的技术特点和机构库的发展概况,而针对机构库质量控制问题的论述不多。有的学者只是在研究机构库时涉及到了质量控制问题,如文献[2]将机构库的质量控制作为机构库建设中的诸多问题的一个方面来阐述,将机构库内容质量分成元数据级和内容级,分别从这两方面来对机构库的内容质量进行控制;文献[3]从预先控制、过程控制、事后控制三个方面对作者自存档学术资源进行了内容质量控制和评价。通过对国内相关文献的分析发现,目前关于机构库质量控制问题的研究仅停留在内容质量方面,而且缺乏全面、系统的质量控制评价体系,但是这些研究成果对机构库的质量控制有着一定的借鉴指导意义。

综上所述,目前国内对机构库质量控制问题的理论研究刚刚起步,还没有比较系统的论述,需要我们不断地探索和深入研究。

2 机构库的学术资源收集模式

机构库是一个学术知识资源库,其保存的资源类型与一般的学科或专题数据库有所不同。机构库反映本机构动态的科研过程,故国内外学术机构在机构库的建设中所收录的资源范围涵盖该机构成员在科研过程中所创造的一切智力产品,而不论该产品是以什么样的形态出现。具体而言,机构库保存、管理与利用的数字化资源包括:研究人员和教师已被学术期刊录用但未发表的论文预印本、已发表论文、技术报告、科研进展报告、硕博士论文、图书或其章节、科研数据库、会议录、教学资料、课件、计算机软件、其他灰色文献,等等。上述数字化资源可以文本、图像、音频、视频等不同格式在机构库系统中保存与利用。

因此,英国Southampton大学认知科学教授Steven Harnad认为机构库有5个收藏目标[4]:①本机构研究成果的存贮,如文章的预印本(preprints)、后印本(postprints)、学年论文(theses)、学位论文(dissertations);②数字资源的管理;③数字资源的长期保存;④教学资源的收藏,如教案、笔记、手稿、图片等;⑤图书期刊的电子出版。

机构库中的资源由机构内的成员提供。如何为资源提供者服务,将各种研究成果准确无误地提交到机构库中,是机构库建设中必须考虑的问题。根据国外机构库的实践,并结合我国的实际情况,目前机构库学术资源的收集模式可划分为三种[2]:①分布式,指完全由资源提供者对自己的研究成果进行上传和管理,资源提供者可从任意一台联网计算机进入机构库的提交平台,自行选择并输入一些描述研究成果的元数据,将元数据连同成果一起提交到机构库中;②半分布式,指由机构内的各个部门分别负责协助本部门资源提供者上传并管理研究成果;③集中式,指由机构内指定的人员或组织负责资源的上传。

3 分布式机构库的质量控制问题

通过分析比较可以发现,机构库的三种学术资源收集模式与其质量控制有着直接关系。半分布式由于采取部门集中审查、集中提交的方法,可以避免部分人不负责任或恶意提交;而且由于一个部门内的研究成果往往属于同一个学科,审查人员一般也具有该学科的专门知识,使得元数据标引质量和研究成果的内容质量都能得到保证。集中式中由于机构图书馆的参与,大大提高了机构库学术资源的内容质量和标引质量,但与半分布式类似,资源提供者对已入库成果的每一次修改,甚至是极小的改动,都要经过相关部门审查,对资源提供者很不方便,因此对资源的更新速度比较缓慢。对于分布式而言,资源提供者采用自存档方式提交研究成果,其中包括数字对象的基本元数据信息和内容信息[5],由于要经过非专业人员对自己的研究成果进行标引并上传,因此元数据质量和内容质量难以保证。同时,分布式资源提交方式的高度分散性,也给某些恶意数据提交制造了机会。

另外,机构库允许用户通过Web方式进行各种方式的检索和查询,允许用户按照机构或学术资源类别等来浏览整个机构库资源分布结构,支持特定数字对象或文档的访问控制,允许有权限的用户直接下载数字对象的内容信息等,因此,机构库的性能及设计方面的因素也会影响用户的数据访问质量。

基于以上考虑,本文主要讨论分布式机构库的质量控制问题,并将其质量控制分成元数据质量控制、内容质量控制和数据访问质量控制三个级别,从这三个方面寻求质量控制解决方案。

4 分布式机构库的质量控制解决方案

4.1 元数据质量控制

4.1.1 元数据质量控制的指标 元数据是结构化的编码数据,用于描述有关信息实体的特征,从而标识、发现、评估和管理这些被描述的实体,它是描述数据的数据,是揭示信息资源的基础[6]。在分布式机构库的内容建设中,资源提供者在将自己的研究成果提交至机构库的过程中,需要利用元数据对提交资源进行标引,从而达到提示资源内容的作用。用户对机构库中各类资源的检索和利用则有赖于元数据标引的质量。

元数据标引质量可以由数据质量定量元素来描述。数据质量定量元素用于描述数据集满足预先设定的质量标准要求及指标的程度[7],并提供定量的质量信息。通过对国内外机构库建设中元数据标引方面所出现的问题进行对比分析,本文认为元数据质量控制指标主要有以下几种:

●数据的正确性。这是分布式机构库元数据标引方面最容易出现问题的指标之一。如:数据填写过程出现的拼写错误;在分类标引或主题标引时,如果不让用户从已有词表中选取,则很少有用户能填写准确的号码或词汇;在要求填写主题词的字段输入了分类号;出版项要求填写所发表的期刊或论文集,而被作者填写了图书的出版情况等。

●数据的一致性。各个提交者根据自己的主观判断填写关键词、主题词、分类号等,以至于对同一类主题资源在标引用词、标引专指度和标引深度上都不一致,并因而妨碍检索效率。

●数据的完整性。例如提交表单中要求必须填写的内容被漏掉或没有填写完整,漏掉一部分。

●数据的唯一性。机构库经修改后的版本被作者再次提交,得到了系统分别赋予的两个不同的唯一识别号。

●数据的有效性。如:姓名、单位名称、研究项目名称等填写了缩写形式,使用户在离开语义环境后无法识别和理解等。

4.1.2 元数据质量控制策略 由于资源提供者是在线利用元数据对其研究成果进行标引,因此可以通过系统的自动监测、纠正和提示功能,自动地、交互地、及时地帮助作者纠正一些拼写、选词、越界等方面的数据质量问题,但需要系统在设计时充分考虑到可能出现的问题,结合元数据质量控制指标予以解决。

●设置完善的元数据元素表。在设置元数据元素表之前,先进行用户调查,确定一个较为完善的、符合某些通用元数据标准的字段集合;在此基础上,再设计完整的分布式机构库元数据库结构,而且为机构库添加一些管理元数据的字段。

●强大的平台控制功能。分布式机构库提交平台的功能越强大、越完善,就越能有效地指引资源提交者完成对自己研究成果的元数据标引过程,同时也可起到一定的质量控制作用。因此,机构库在平台设计方面应尽可能考虑到资源提交者在元数据标引方面可能出现的问题,通过一些便捷的功能设计达到元数据质量控制的目的:①在提交者注册时,向其说明与机构库元数据填写相关的基本要求。例如除标题外,不准许在有关字段中填写机构名称等的缩写;对容易越界的字段,详细说明哪些内容应该填写,哪些内容不应该填写等。此外,还需要对关键词的标引技巧和摘要编写技巧进行说明,培养用户的编写技能。②通过设计元数据提交表单,在线帮助作者完成机构库元数据提交。例如用准确的、不会产生歧义的通用词语说明每个字段需填写的内容;对越界、禁止、希望填写的内容进行提醒;对用户不容易理解的词汇或专业术语进行解释。③设计自动检测系统,根据系统预先设置的标准,在作者自存档的同时,系统实时给出反馈信息,使元数据录入质量问题得到及时纠正。例如扫描和检验是否有越界数据、不符合要求的数据、前后矛盾的数值等。④对于一些非规范化的项目,如姓名、资源的中英文名称、关键词、资源描述等宜采用示例并结合字段控件等形式进行同步控制。在机构库元数据提交程序中应尽量减少作者手工输入的项目,如对于国别、语言、学科分类、资源类型、格式等较规范化的项目,尽量采用从列表框中选择数据的方法。

●词表控制功能。与文献数据库相比,分布式机构库资源提供者利用元数据对自己的研究成果进行标引时,对内容的了解程度及主题分析方面优于专业标引人员,在关键词选择上其专业化程度也优于专业标引人员,但是提交者在标引过程中却无法控制主题词、分类号、关键词等的标引深度、专指度、标引一致性和摘要等的编写质量。因此在主题标引、分类标引项目旁边,可以采用提供分类表和主题词表链接的方式,使资源提供者通过点击进入分类表或主题词表后,可以比较并直接选择合适的类目和主题词进行标引,这样在一定程度上可以达到质量控制的作用。

4.2 内容质量控制

4.2.1 内容质量控制的意义及指标 在机构库中,资源是内容建设的核心,它支撑着学术资源的开放获取。一直以来资源内容质量被认为是资源本身的概念,提到学术资源的质量,人们首先想到的就是控制错误数据的输入,即在数据输入程序中加入检查和防范机制,以保证进入机构库的输入都是合法的数据。然而在机构库内容建设中,资源质量的定义并非如此。学术资源质量不仅反映机构库内容建设过程中,数据具有合法性,还要求机构库中的资源具有完整性、正确性、学术性、创新性等。

实际在机构库建设中普遍采用较低的质量评价指标,例如:CryPtology ePrint Achive[8]只要求所有提交的预印本必须是密码学研究领域内的研究成果,要清晰可读,内容新颖且有意义,对所申明的观点要有证据或令人信服的论证。这是因为:①机构库定位在灰色文献交流;②加快机构库的学术资源发布速度,实现专家学者之间快速、直接交流;③以质量评价为筛选手段的期刊,人为造成专家学者及其作品的等级序列,妨害了民主、自由科学交流活动的开展。机构库放松评价标准,是要使更多想法和成果都能被平等地传播和利用。

但是,机构库也并非完全没有质量要求,为了不使冗杂信息、错误信息无控制地蔓延,影响科学交流效果,不同类型的机构库都有自己的质量控制标准。一般情况下,机构库都具有基础的质量控制标准,如机构库要求所提交的学术论文是经过作者精心准备或已经评审过的成果,并有一定完整性和创新性;机构库对提交预印本具有较高的质量要求,如正确性、学术性等方面,因为它要体现该研究机构的总体科研实力,籍此扩大学术影响力,因而对提交者的身份、职称、研究能力等也会有严格的要求。

4.2.2 内容质量控制措施

●资格审核。分布式机构库建设者可以通过发布一系列规范文件,对资源提供者的资格进行审核,以确保提交到机构库的研究成果的学术质量。规范文件可以包括:①对作者身份、专业背景进行规范;②对权限进行控制,包括IP限制或口令限制,明确所收录的成果类型和格式;③对系统功能进行解释,如注册、登陆、提交过程、浏览、查询、修改等的说明;④对知识产权的说明,如是否允许上传预印本,是否允许上传其他人的作品等。

如QUT ePrints对其内容质量的各个方面都进行了明确规定[9]:注册QUT的用户只能是本机构的教职员工和研究生;其收录的必须是评审过的学术论文,只有已经通过同行评审并决定出版的论文预印本才能提交,没有经过评审的论文会被打上未评审标记等。通过对资源提供者的资源审核进行控制,能促使作者对自己预提交的研究成果和已经提交的资源的合法性、学术性、完整性、正确性、创新性负责,以达到对资源内容进行控制的目的。

●内容审核。资源提交至机构库之前,专家评审或同行评议对机构库中学术资源质量的控制有一定的参考价值,不失为一种很有效的质量控制措施。另一方面,也可以借鉴集中模式机构库的质量控制方式,如作者通过授权代理进行提交,这种方式对机构库内容质量的控制实际上也起到了专家评审的作用,一般有三种情况:①由研究机构收集论文预印本、技术报告、工作论文等,经过本机构专家或科技管理人员评审,然后提交至机构库;②将一些学术会议的全部论文集体提交至机构库,论文一般由会议专家组进行评审,有的还有标准编辑格式;③由专职图书馆员代理提交,能达到非常不错的质量控制效果。

资源提交至机构库中以后,同样可以采取一定的措施对其质量进行控制。实施这种控制的主体范围很广,可以是资源提供者、机构库管理者,也可以是用户。首先,机构库管理者通过对库中资源进行定期审查,发现其中存在的问题,如数据重复、格式不够规范等,而后要求作者进行及时修改、完善。其次,作者在上传资源后,随着研究的进一步深入或出于其他原因,对现有的结论不甚满意,需要进行修改或完善。再次,用户在利用资源时,可以对资源的学术性、创新性等方面进行评价,这也是一种较为有效的质量控制方式。

4.3 数据访问质量控制

4.3.1 数据访问质量指标 机构库数据访问质量的优劣,直接影响着用户对其中学术资源的检索和有效利用,从而影响机构库开放获取的价值。影响分布式机构库数据访问质量的因素主要有以下几种:

●软硬件性能。机构库设计的软硬件性能高低对用户是能否快捷获取资源有相当大的影响。如机构库因数据量不断增加,而导致数据检索和处理速度逐步降低,访问数据的响应速度减慢,用户在需要数据时却无法快速获得;机构库中包含有占据空间较多的图像,或文本本身规模很大,使读者不容易在短时间内下载或打开,从而妨碍即时利用。

●检索性能。标引不一致、错误的或不适当的检索词等是造成漏检和误检的重要原因,但机构库对此几乎无法进行严格控制;公式、方程、图表等无法嵌入机构库主文档,或者一些重要参考资料,没有作为附件与主文档一起提交,因此影响用户对资源的检索和利用等。

●平台友好性。分布式机构库的检索界面是否按用户习惯的或易于操作的形式设计,对用户利用资源有很大的影响。如:是否提供多语种的检索界面,因为单一语种的界面和机构库摘要会影响持其他语言的专家学者利用;是否以本国研究者熟悉的语种设计界面和收集学术资源,检索界面是否简洁等。

●网络稳定性。网络如果稳定性差,会在用户访问机构库网站的过程中,影响网络应答效率。

4.3.2 数据访问质量控制措施 通过对影响数据访问质量的指标进行分析,寻求对此问题的解决措施:

●网络稳定性和软硬件性能方面,可以通过采用分布式数据库、选择性能更好的计算机硬件设备和通讯设备来解决,有时还可以更换数据处理软件。

●检索性能方面,较好的方法有:①为不同类型用户创建个性化检索门户,根据每类用户的具体特点,提供检索词汇表、主题词表和分类表等;②建立用户互助型社会导航机制,使其他专业领域用户和普通大众能从专业用户那里得到这方面的帮助;③提供专业词典的简略版,供用户从中挑选标准专业词汇;④通过提交过程的自动监测软件,检验和督促作者提交完整数据至机构库。

●平台友好性方面,机构库在检索平台设计时可以充分考虑用户的检索习惯,在平台设计方面用简洁易操作的方式进行,同时还可以预先设计多语种的界面和帮助文件,供用户选择,并利用用户端的Cookie记忆下来,这样,当用户再次使用时就可以进入其熟悉的用户界面和帮助文件。

收稿日期:2008-01-02修回日期:2008-02-15

标签:;  ;  ;  ;  

分布式组织图书馆的质量控制_元数据论文
下载Doc文档

猜你喜欢