机构知识库建设模式研究,本文主要内容关键词为:知识库论文,模式论文,机构论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[分类号]G250.7
在学术研究与实践推动下,机构知识库犹如雨后春笋般发展起来。据不完全统计,截至2010年1月19日,OpenDOAR中注册的机构知识库已达1261个[1]。虽然机构知识库应用范围不断扩大,但实践中,机构知识库建设却面临着诸多问题,而建设模式是其需要认真考虑的基本问题之一。正确选择机构知识库建设模式对机构来说可以起到节约成本、有效制定政策、提高管理效率的重要作用。根据机构知识库建设的多样性,笔者认为目前机构知识库建设模式主要表现为自主模式与联盟模式。
1 自主模式
自主模式是指个体独立机构以本机构为核心建立发展机构知识库的模式。在这种模式下,每个独立机构以其下属院系部门为基础,构建属于本机构的知识库。目前许多机构都是以本机构为主体建立标志本机构品牌的机构知识库。例如英国南安普顿大学机构知识库[2]、美国麻省理工学院(MIT)机构知识库[3]、加利福尼亚大学机构知识库[4]等。本文以MIT建立的为其机构教师与研究者提供教学科研成果保管以及开放利用的知识传播与知识服务系统DSpace@MIT为例进行阐释。
1.1 DSpace@MIT技术选择
DSpace@MIT采用MIT图书馆与HP实验室共同开发的以内容管理为目标的DSpace为技术支撑。DSpace遵循BSD协议,可以收集、存储、索引、保存以及重新发布任何数字格式、层次结构的研究数据,并赋有唯一标识符,以确保存储内容链接的有效性。
1.2 DSpace@MIT管理
DSpace@MIT由MIT社区、MIT图书馆以及MIT行政管理部门共同合作管理。三者在了解并支持建立知识库相关政策、规划指南以及程序的基础上,各负其责,相互协调管理。
1.2.1 MIT社区 MIT社区负责对社区与集合做出界定,安排内容提交与描述,了解并研究与DSpace相关的学院政策,当版权所有者不是作者或MIT时,社区负责澄清提交条目的版权,并为每个集合制定提交流程;MIT社区可以在DSpace指南下,决定与提交内容相关的政策,设定提交者的权限,限制机构知识库中条目层次的内容获取权限,并根据知识库内容撤回政策,移除已存在的条目与集合,可以个性化社区内容的界面,并负责所属分社区的增加与消除,如图1所示[5]。
图1 DSpace社区基本组织结构
1.2.2 MIT图书馆 MIT图书馆是系统主要管理者,负责保管并维护提交到系统中的内容,根据社区规定设置存储内容的访问权限,负责监控技术过时与格式迁移,决定每个社区存储容量配额,确定免费与增值性收费服务内容,并负责管理主社区建立的所有过程,包括:①规划与调度新社区与集合的建立;②为内容提交过程实施个性化流程;③在一定条件下,拒绝或交换条目或集合;④重新发布或修改系统中条目的元数据;⑤负责将非继续存在于社区中的集合移交到MIT档案馆进行存档;⑥培训社区用户与协调者。此外,图书馆还负责对知识库提供广泛的技术支持。
1.2.3 MIT行政管理部门 行政管理部门是DSpace@MIT主要政策制定方。通常情况下,行政管理部门在学院层面制定影响DSpace@MIT发展的相关政策,例如版权与提交内容相关政策等。
2 联盟模式
联盟模式是指两个以上机构联合构建机构知识库,通过合作方式,实行机构间资源共享,统一提供知识传播与知识服务。由于机构知识库在建设中受到主体与资金成本等影响,许多机构都感觉到自主模式发展使其无法承受运行成本与内容收集等方面之重,因此联盟合作成为一些机构建立知识库的主要模式,同时联盟模式也更好地体现了“图书馆界所提倡的共建共享的合作精神”[6]。根据已有联盟模式中数据存储管理方式,笔者认为机构知识库联盟模式可以分为集中存储式与分布采集式。
2.1 集中存储式联盟机构知识库
集中存储式联盟机构知识库是指多个机构只建立一个服务器,各个联盟机构内部成员直接将元数据与内容提交到集中的服务器上,然后通过统一服务界面提供服务或作为数据提供方,允许其他服务提供方采集其元数据提供服务,如图2所示。
图2 集中存储式联盟机构知识库
从内容提交到开放利用,所有管理与维护功能都实行集中化管理,每个联盟成员都有固定的联络员负责协调机构知识库的统一管理与运行。
集中存储式联盟机构知识库主要代表为白玫瑰知识库联盟(The White Rose Consortium ePrints Repository)[7]。它是由英国利兹大学、设菲尔德大学与约克角大学作为SHERPA项目一部分而共同合作建立的,负责保存该联盟团体已经发表的研究成果,知识库开放性较强,利用率也比较高。
2.1.1 合作背景 利兹大学、设菲尔德大学与约克角大学一直拥有良好的合作历史,三所高校在科学技术领域合作展开的研究已经形成了较好的默契,并且在文献资源管理与传递方面也一直具有合作历史。因此,三个机构将其广泛的战略合作基础作为共同建立白玫瑰机构知识库的基本框架,构建白玫瑰机构成员科学研究联盟共享网络。
2.1.2 技术选择 由于白玫瑰机构知识库是英国SHERPA项目的重要组成部分,所以白玫瑰机构知识库选择了英国南安普顿大学电子与计算机科学学院开发的EPrints作为构建平台。
2.1.3 管理 EPrints软件安装在利兹大学服务器上,由利兹大学图书馆系统工作小组成员负责技术支持。该联盟机构知识库建立之初是以利兹大学UPL为链接,后来为体现联盟合作特点,已转换为比较中性的白玫瑰URL,用户可以通过指定学校进行限制性搜索或者通过指定学术单位树状结构图进行浏览,如图3所示[8]。
图3 白玫瑰集中存储式联盟知识库组织结构
白玫瑰机构知识库主要由三所大学负责人统一进行管理,指派专门项目负责人宏观掌握知识库运行与发展。该知识库管理小组是由每个参与机构图书馆高级工作人员共同构成,管理小组成员定期会面,监督知识库发展,制定知识库发展的重要决策,同时这一联盟知识库也要受到白玫瑰联盟成员图书馆主任的监督,他们每个月定期浏览知识库进展报告,在机构层面保持对知识库的密切关注与支持。此外,知识库发展的月度报告也要向SHERPA项目的牵头机构—诺丁汉大学汇报。
2.2 分布采集式联盟机构知识库
分布采集式联盟机构知识库是指机构知识库联盟成员分别建立属于自己的知识库,在实现独立搜索的基础上,在联盟项目指导下,构建统一检索平台,元数据被采集并存储到一个集中的搜索数据库中,原始数据仍然保留在本地知识库之中,数据与资源本身都是分布式的,如图4所示。
图4 分布采集式联盟机构知识库
在这种模式下,每个联盟成员都具有独立性,负责对本地机构知识库管理,但必须保证知识库遵循相关开放协议,实现分布采集式联盟机构知识库项目提供的统一元数据搜索。
根据对国外一些重要机构知识库联盟项目的调研与深入分析,笔者认为分布采集式联盟机构知识库可以澳大利亚ARROW(Australian Research Repositories Online to the World)项目为典型代表。ARROW联盟机构知识库项目由澳大利亚联邦教育、科学与培训部资助,是在澳大利亚高等教育研究信息框架下的一个项目,联盟成员包括莫纳什大学、澳大利亚国家图书馆、新南威尔士大学等,成员数量在不断增加中。
2.2.1 技术选择 ARROW联盟小组选择Fedora软件作为知识库技术基础,选择TeraText软件作为资源发现技术支撑;为了更好管理资源,ARROW应用VTLS公司以Fedora作为存储层的管理图片集合软件VITAL作为内容工作流程管理层,同时将英国哥伦比亚大学公共知识项目研发的开放期刊系统(OJS)集成到联盟机构知识库系统之中,与VTLS共同纳入到内容工作流程管理层。在此基础上,ARROW开发设计了符合自身发展需求的管理软件系统,如图5所示[9]。
图5 ARROW架构与软件系统
目前,ARROW联盟中有8个机构安装了这一系统,还有两个机构正在协商之中。联盟其他成员根据机构特点选择其他的应用软件。
2.2.2 管理 基于分布采集这一模式特点,宏观调控职责分配是ARROW联盟的核心。ARROW联盟机构知识库中设有知识库管理小组、ARROW发展小组以及澳大利亚知识库元数据咨询委员会[10]。在ARROW联盟机构知识库管理小组中,莫纳什大学是领导机构,国家图书馆提供专家支持以及资源发现服务。南昆士兰大学已经同意作为电子研究资源项目标识符管理框架的伙伴。澳大利亚知识库元数据咨询委员会主要负责元数据标准的选择应用。ARROW发展小组根据项目发展情况确定项目后续研究与应用。ARROW联盟机构知识库虽然由澳大利亚图书馆统一提供搜索服务,但各个联盟成员仍然都保持着独立性,用户可以分别进入到各个联盟成员的本地机构知识库进行定题、定范围搜索。每个联盟机构负责制定本地机构知识库提交政策与管理。
3 机构知识库建设模式比较
由上述分析看到,目前机构知识库建设模式以独立的自主模式和合作共享的联盟模式为主,而联盟模式根据管理方式又可以分为集中存储式与分布采集式。从机构知识库运行实践看,自主模式与联盟模式都有自己的发展空间,具有一定优势,但也存在着弊端。基于此,笔者对其优缺点进行详细的分析,如表1所示。
3.1 自主模式机构知识库利弊
3.1.1 优势 从自主模式实践看,这是目前许多机构都应用的基本模式,也是机构知识库建设初期的一种选择。在这种模式下,机构主体在建设知识库前的项目评估、管理以及成本投入都可以集于一体,在政策实施中可以完全由知识库管理者根据本机构发展现状来制定,对知识库软件系统进行选择,并对应用的协议与元数据实行标准化,完全独立规划本地知识库发展,体现机构特色,这对机构知识库快速高效运行无疑带来推动力。
3.1.2 弊端 从客观方面看,这种自主模式也具有弊端:首先,机构知识库所有投入,尤其是资金投入与维护都集于机构本体,成本比较昂贵;其次,就内容收集而言,除了一些具有较高开放获取意识的大型机构之外,绝大多数机构知识库存储内容的数量都特别少,这一方面是由于机构成员意识低;另一方面也是机构规模比较小引致的,因此对于中小型机构,特别是小型机构来说,自主模式构建并不是最佳的选择。
3.2 集中存储式联盟机构知识库利弊
集中存储式联盟机构知识库与自主模式机构知识库虽然从形式上看都是集中的,但是仍然具有一定的区别,主要在于内容与管理来源不同,集中存储式联盟机构知识库来源于多个联盟机构;自主模式机构知识库来源于一个机构,这决定了两者在建设模式上的差异。
3.2.1 优势 从实践看,这一模式有效解决了自主模式建设中存在的弊端:多个机构共同建立一个机构知识库使每个机构参与建设的成本大大降低,收到“规模性”的经济效益,机构知识库运行成本与利用规模效益也可以实现,“又可以避免技术体系的重复建设”[11];同时,内容数量也具有发展丰富的潜力;此外,由于实行集中管理,可以在技术标准应用方面具有统一性,便于内容元数据管理与开放。因此对于一些小型机构来说,加入已有的集中存储式联盟机构知识库不失为一个节约成本的最佳选择。
3.2.2 弊端 从不利因素看:首先,该模式虽然实行集中管理,但是在政策制定上并不能像自主模式那样具有高效性,因为在制定政策时必须考虑到联盟机构各自的发展历史与现状,也必须考虑到联盟机构不同文化学术传统与管理传统的差异性,机构知识库管理发展政策制定过程需要联盟机构成员负责人相互协调,统筹规划;其次,本地机构成员归属感低,集中存储式联盟知识库由于只建立一个服务器,或者以某一机构品牌为标志,或者以联盟品牌为标志,不能体现每个独立机构的品牌,所以使其成员无法感受到归属感,甚至可能成为制约机构成员提交内容的一个因素;再次,该模式还存在着其他可能引发联盟管理矛盾的因素,例如当联盟机构成员对机构知识库贡献率或利用率不均衡时,是否会引起行政管理层面的问题;如果某个联盟机构成员被其他机构合并而合并者并不属于该联盟成员或想建立标有自己品牌的知识库时,是否允许这一原始联盟机构成员将属于自己机构的那部分数据提取并输出,或提交到合并机构知识库或存储到独立知识库之中,这些都需要在以后发展中逐步摸索解决;最后,对于建立全国范围或全球范围内多个机构的集中存储式联盟机构知识库,从文化以及管理角度来说,是不切实际的。从某种程度上说,集中存储式联盟机构知识库在具有良好合作历史或者具有共同隶属关系的机构中具有较好的应用前景。
3.3 分布采集式联盟机构知识库利弊
3.3.1 优势 分布采集式联盟机构知识库虽然并未占有主导地位,但仍然有其不可替代的优点:首先,联盟机构成员在采用同一软件基础之上可以共享技术与管理经验,如果建设过程中遇到技术问题,可以向其他联盟成员寻求合适的解决方案;其次,联盟成员在政策制定与管理方面具有高度自治性,这是与集中存储式联盟机构知识库相比最大的优点,分布采集式联盟机构知识库虽然提供统一检索界面,但各个联盟成员拥有各自独立的知识库,每个联盟成员都可以在宏观政策指导下具有“更多的政策自主空间”[12],根据本机构发展特点与学术管理传统,制定符合本地机构知识库发展的政策与管理规划;再次,联盟机构成员可以个性化本地机构知识库,“每个成员机构都负责对自己的文档进行配置,以实现本机构特殊要求的功能”[12],体现本地机构知识库特色,保留本地机构品牌标志;最后,联盟机构成员成本资助来源扩大,中小型机构财政收入有限,又很难得到私人或国家资助委员会资助,如果加入到统一的联盟,就会通过联盟团体获得更多的资助与支持,既使不同机构建立有效的长期“共享利用机制,实现资源共享”[13],又减缓了机构有限经费投入的压力。
3.3.2 弊端 联盟机构成员具有高度自治性,致使联盟机构成员在本地机构知识库建设中存在着不一致性:首先是应用软件系统选择的不一致性,该模式强调联盟成员高度自治性,并不强制其成员采用同一软件,只是推荐推广应用;其次是元数据标准应用的不一致性,该模式是建立在对各个联盟成员本地机构知识库元数据采集基础之上的,软件选择不一致性导致了各个联盟成员机构知识库应用的元数据标准存在着不一致性,这就需要统一跨库检索时进行元数据转换;再次,政策制定与管理方面的不一致性,联盟领导机构并不能统一制定联盟成员政策与管理模式,每个联盟机构都对本地知识库实行自治管理,例如内容提交政策方面,有的机构可能将行政管理文件、档案纳入到内容提交范围,而有的机构则可能将这些内容拒之库外,这就导致联盟机构知识库内容性质存在差异,同时,每个机构制定的质量审核标准不同,也会使联盟机构知识库内容质量受到影响。
4 结语
综上,不同建设模式机构知识库都具有自身的优势与劣势。每个机构都有自己的特色,我们不能强求每个机构都采用同一个模式。每个机构可以根据机构传统以及与其他机构合作历史、地域特点或学科特色,选择适合自己的建设模式。对于那些机构规模较大、资金充足且机构品牌效应尤显重要的机构来说,建立属于本机构品牌的自主模式机构知识库不失为一个较好的选择,例如我国的清华大学、北京大学,但要保持元数据的开放性,纳入到全球信息共享网络之中;对于那些中小型机构来说,如果具有良好的合作历史,或具有共同的隶属关系,例如一个地域、一个学会或图书馆联盟,可以通过建立集中存储式联盟机构知识库实现资源共享,并可以不断吸收新成员参加,既节约成本,又共享技术与资源,避免不必要的技术系统重复与资源浪费;而对于国家层面的科学资源共建共享规划来说,建立集中存储式联盟机构知识库不具有可操作性,可以像ARROW联盟机构知识库那样建立分布采集式联盟机构知识库,既将管理压力分散到各个本地机构知识库,同时又可以实现联盟机构成员内部技术、资源、人力、资金的共享,例如我国的中国科学院,构建以国家科学图书馆为核心,基于各大分支机构的分布采集式联盟机构知识库应是一种优化选择,这既能体现出中国科学院各分支机构的共同隶属关系,又能保证在统一管理集中检索的基础上保持各个不同分支机构的特色。然而,机构知识库作为一种新生事物,每种模式建设都要面临着不同的挑战与困境,未来需要在实践中不断探索与解决。
收稿日期:2009-12-10
修回日期:2010-01-18