从数据监护看美国高校图书馆的机构库建设新思路——来自DataStaR的启示,本文主要内容关键词为:美国论文,新思路论文,启示论文,图书馆论文,高校论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
随着计算机技术的大量应用,许多科研过程会产出海量科学数据,科学数据是信息时代最基本、最活跃、影响面最宽的一种战略性资源,对于科技创新具有显著的支撑作用,从一定角度来说,未来的科研活动将是科学数据驱动的科研活动。近年来,数据监护(Data Curation)服务在美国高校图书馆中日益兴起,此处的“数据”专指科学数据而非计算机科学中所指以数字化形式编码的数据,美国国家科学基金会在专门扶持数据监护服务的数据网(DataNet)计划中,将数据定义为“所有能以数字化形式存储并能以电子方式获取的信息,包括数字、文本、出版物、感应器读数流、视频、音频、算法、软件、模型、模拟、图像等。”[1]数据监护不是单纯对这些数据进行存储,而是在数据供学术、科学及教育所用的生命周期内对其进行持续管理的活动,通过评价、筛选、重现及组织数据以供当前科研活动获取,并能用于未来再发现及再利用。
数据阶段型存储库(Data Staging Repository,DataStaR)是康奈尔大学图书馆的一项主要针对本校学者的数据监护服务,其以机构库为基础,力图扮演学术界共享数据集时的一个暂时的、过渡性质的存储节点,其设想是建设成为一个数据监护平台及一套完整服务方案,拥有可产生多种格式的高质量元数据的工具,由图书馆员负责操作,通过协助学者完善数据和元数据来促进共享,最终积极帮助他们向各自领域的学科库发布数据成果,供长期使用和保存[2]。DataStaR不但是具体数据监护服务的典型案例,还体现出当前美国高校图书馆对机构库建设的一些新思路,非常值得了解。
1 DataStaR面对的学科服务新形势
1.1 高校图书馆运作的机构库遭遇发展瓶颈
作为校园信息基础的有机组成元素,机构库(Institutional Repository)已发展多年,在最初的愿景中,图书馆界普遍希望机构库可以完成两大任务:一是实现研究成果的开放存取,克服现有学术交流模式的弊端,二是长期保存机构的研究成果,借此体现机构学术声望、学术水平和社会价值。
到2011年7月,OpenDOAR上收录的机构库突破2000个。然而在数量不断增加的同时,不少研究者也发现最初美好的构思并没有获得用户充分认同,与频频受到学者青睐的学科库、协会库相反,萨洛(Salo)形容机构库是学者不在意,图书情报专业不教学,甚至图书馆员也不了解[3];机构库定位模糊、服务缺失、用户参与度不高等问题对人们的信心造成了严重冲击,甚至有人表示“没有什么建设像机构库一样,承诺如此多,效果如此差”[4]。面对严峻的现状,如何发展机构库,如何使机构库在学术界获得认可,将是对图书馆智慧的考验。
1.2 高校科研的数据监护需求日益凸显
目前,类似人类基因组计划的大型科学研究项目由于组织缜密,都有完善的数据保存利用政策,基因库(GenBank)就是其成果之一。在国家层面上,对专业科研系统获得的数据也有对应机构进行处理,中科院自1982年便开始了“中科院科学数据库”项目,现已经成为国内信息量最大、服务层次最高的综合性科学数据系统;中国科技部也于2002年启动了“国家科学数据共享工程”建设,引发了科学数据共享研究的热潮。
与之形成鲜明对比的是,大量高校学者所承担的“小科学”(Small Science)却因分布散、规模小而长期是数据管理的盲区,这些项目通常只有数名学者参与,产生的数据存放在个人电脑里,既没有统一标准,也没有分享机制,更缺乏长期利用策略。海登(Heidorn)对2007年美国国家科学基金会批准项目的调查显示,当年共拨款28.7亿美元资助12025个项目,其中获拨款排名前20%的项目占据六成经费,剩余四成经费资助了多达9621个项目,最小一项只获得591美元。这些小项目根本不可能有充裕的人力财力来处理产生的数据,海登称其为“暗数据”[5]。小科学是人们认识和了解特定局部事物的重要手段,长期忽视小科学的数据是非常不合理的,随着计算机技术、互联网技术、数字化存储技术的发展,海量科学数据的数字化和网络化成为可能。美国越来越多的基金机构要求资助的项目发布数据,如国立健康研究院就从2003年起规定年度预算达到50万美元的项目在申请时必须制定数据发布方案。
1.3 高校图书馆纷纷推出数据监护服务
金融危机以来,美国不少高校和基金会纷纷削减开支、减少资助。图书馆作为服务大户,受到了很大冲击。面对严峻的形势,通过更新服务内容、提升服务效果体现自身存在价值,避免被学术圈边缘化成为许多高校图书馆的当务之急。小科学日益高涨的数据监护需求与服务缺失的矛盾使高校图书馆看到了机会:作为一个长期稳定的信息机构,图书馆通过数据监护服务,可以为小科学提供一整套可靠的数据交流、发布和保存解决方案。2007年后,美国多家高校图书馆陆续开始了数据监护服务的探索:除DataStaR外,新墨西哥大学图书馆主持的地球数据观测网(Data Observation Network for Earth,DataONE)项目关注地球影像数据,约翰·霍普金斯大学图书馆主持的数据保育(Data Conservancy)项目关注天文数据,这两个项目各获得国家科学基金会高达2000万美元的资助。还有调查数据监护需求的伊利诺伊大学数据监护基础信息(Data Curation Profiles)项目;设计数据监护课程的北卡罗来纳大学数据化监护课程(Digital Curation Curriculum,DigCCurr)项目;探索“数据馆员”职业规划的普渡大学图书馆的分布式数护监护中心(Distributed Data Curation Center,D2C2)项目等。
2 DataStaR的可行性
2.1 图书馆理论支持和实践经验积累
早在2003年就有调查指出,许多学科没有数据存储库,研究人员无法很好地存储、分享、发布数据,而即使如天文学、物理学等少数已经有较完善数据存储库的学科,学者仍不善使用,甚至完全不会用[6]。
在DataStaR前,康奈尔大学图书馆已经有一些较成功的数据发布项目,如康奈尔地理空间信息库(the Cornell University Geospatial Information Repository,CUGIR)和美国农业部经济、统计与市场信息系统(the USDA Economics,Statistics and Marketing Information System,USDA-ESMIS),两者都是由国家科学基金会全额资助的学科数据存储库。图书馆通过这些项目可评估自身协助学者进行数据归档和整理的可行性,尤其在USDA-ESMIS中,图书馆员需要处理的数据往往是少量多批的,这就使得每次任务都比较个性化,需要跟学者反复沟通。为了提高效率,图书馆员开始萌生出摸索一套更规范、更便捷也更具可持续性的标准化解决方案以协助跨项目组、跨专业交流。澳大利亚莫纳什大学图书馆的全局式监护(Curation Continuum)项目曾论证过数据的使用可以分为发布前共享环境及更正式的发布后长期保存环境,这两个环境间的交互阶段有一个素材传递的过程[7]。这个交互阶段也被康奈尔大学图书馆所意识到,并将其作为DataStaR的切入点,利用机构库这个成熟的平台探索图书馆员—学者互动规律,以及机构库如何在实现数据监护中发挥作用。
2.2 学者普遍具有数据监护需求
康奈尔的图书馆员通过调查发现,合作过的学者对数据监护确实有不少需求,这使得图书馆确信主动开展合作能给双方都带来切实收获。从调查结果来看,学者对数据监护的需求五花八门,最常见的几点有:
·需要一个协作空间以便科研过程中分享数据;
·需要协助确认共享时应该分享原始的还是加工后的数据、是完整的还是重点的数据;
·需要在期刊不提供发布途径时,依科研资助者要求完成数据发布;
·需要了解下阶段用户如何使用数据,避免误读、误用。
还有些学者干脆想知道别人使用他们的数据后做出了什么新成果,有些人希望后继使用者能在发表成果时注明原始数据源及其所属资助项目名称等等。当然DataStaR也许无法满足所有要求,但这些需求也确实反映出学者普遍觉得靠自身去处理数据有些力不从心,发展一个本地的、阶段型的数据发布方案是很值得研究的事情[8]。
3 DataStaR的运作模型
DataStaR系统主要由4部分构成:
·基于Fedora的数据集存储库;
·基于Vitro的语义元数据存储库;
·用于对文件格式进行批量自动识别的开源工具:数字记录目标识别程序(Digital Record Object Identification,DROID,由英国国家档案局开发);
·用于向外部永久存储库传输文件的内容转移协议——面向存储的简单网络服务协议(Simple Web Service Offering Repository Deposit,SWORD,由英国JISC资助开发)。
以一位生态学者研究某物种的分布为例,操作流程大致如下:用户首先将野外观测数据汇总,然后录入一个电子表格成为数据集。她将电子表格上传到DataStaR,此时系统会根据用户注册时填写的信息以及检测到的文件格式自动生成一些基本元数据,用户只需补充一项描述信息的元数据并设定他人访问权限。
上传时,用户选定一个未来发布的目标库,系统会根据目标库的要求,生成合适的元数据表单供用户填写;若选择“待定”,则要填写一些额外的元数据供备用。随着数据集不断丰富,最终还可生成显示物种分布情况的地理信息系统(GIS)数据集,DataStaR的图书馆员在这一过程中根据生态学及GIS数据存储库的不同标准,协助学者决定应该共享哪些数据,整理和格式化数据,创建高质量元数据等。
决定哪些数据应该共享以及如何组织,在一定程度上根据预期用户而定。就生态学来说,一般预期数据将会用于反复分析,或集合多位研究人员的数据进行对比,故加工后的数据集就比原始观测数据更有用。至于元数据,一些元数据很容易理解和完成,另一些则可能需要专业知识或对具体要求进行仔细研读才能完成。目前图书馆员协助学者创建元数据中最重大的作用就是准确赋予受控词和主题词、知识产权申明的书面表述、撰写地理坐标等特殊元素的规范表达等。DataStaR虽然不承担数据集长期保存任务,但它会对数据集的元数据进行备份,这些高质量的元数据可供学者未来反复使用,也是其提高用户忠诚度的重要手段之一。
科研结束时,用户和图书馆员一同核对元数据和数据,将整理好的数据集发布到一个生态学的学科库,如CUGIR;将相应的GIS数据集发布到纽约州立GIS数据交流中心,最后将两个数据集的备份存储到康奈尔大学图书馆自己的机构库eCommons里。数据从DataStaR流动到外部学科库的机制可自动亦可手动,视目标库的结构和要求决定。当向eCommons发布数据集时,系统可从早前提交的学科记录中提取必要元数据并自动生成到机构库中,然后将数据集和作为支撑材料的学科记录一起存入;向生态学科专门数据存储库发布的工作也是自动完成,但向纽约州立GIS数据交流中心提交时则由于政策规定,必须由图书馆员人工操作[9]。DataStaR的构成和运作流程见图1。
管理界面
用户入口 参与者/项目元数据 文件元数据 程序打包器
文件上传 DROID 数据集元数据 语义元数据存诸(Vitro) SWORD
文件 数据集存储(Fedora) 外部学科库
4 DataStaR的特色
DataStaR最主要的服务对象是康奈尔大学的学者,这一点跟传统的机构库类似。但是,其主要任务是促进数据向长期存储库(如学科库)流动,对自身的定位是一个短期的、暂时性的数据集存储点和可靠的服务伙伴。这种阶段型定位使DataStaR兼有一般机构库和学科库的特征,具体见表1。
DataStaR与机构库一样,重点服务于本地机构;没有提供过多的数据分析、使用方面的工具,比如可视化统计软件、数据抓取软件等;没有为终端用户提供存储内容方面的服务;没有针对学者的强制性存储要求。在其他方面,DataStaR又具备一些学科库的功能:机构库的初衷是管理文档而非数据,一些学科库则一开始就把目标对准了数据。学科库通常都有各自特定的元数据标准,而DataStaR由于面向多学科的用户,所以可以支持好几种元数据标准。学科库都要求发布的数据格式化,DataStaR就会主动帮助数据提供者根据那些要求来完善并提交数据。
5 DataStaR体现的机构库建设新思路
5.1 调整开放获取战略,承认当前学术交流圈
在机构库兴起时,许多人将机构库和开放获取等同起来,视其为变革学术传播方式的利器,哈内德(Harnad)早在1994年就发出过颠覆性的论点,呼吁所有学者都应该把他们的论文在开放存取库中发布,通过共同努力打破出版商利用经济手段设置的信息壁垒[10]。但随后的机构库实践却显示了用户和图书馆员在这一认识上存在差异,戴维斯(Davis)描述到:“在康奈尔大学,一些被图书馆员看得心急火燎的学术交流问题,例如文献开放获取,许多学者却觉得无关痛痒,每个学科都有自己的学术小圈子,很大程度上取决于科研激励机制以及传统。”[11]如果机构库希望解决的问题在学者看来不感兴趣,那关注度如此低也就不足为奇了。学者在长期形成的学术圈中有各自的交流渠道,如参加协会、出席会议、出版商赠阅等,至少现阶段对全面开放获取的需求尚不很迫切。乔赫利(Choudhury)指出,学者愿意向美国国家生物技术信息中心(NCBI)的PubMed Central数据库提交文献,却忽视自己学校机构库的原因,不仅因为NCBI是重要的科研资助机构,更重要的是向PubMed Central提交就意味着进入了当前运作中的学术出版流程,在学术圈内获得了认可[12]。
其实,机构库和开放获取互为部分,开放获取只是机构库服务的一部分,其最终实现有赖于整个学术体制的变革,这将是一个较为长期的过程,寄望短期内以机构库去挑战已确立数个世纪的学术发布和交流圈,无异于堂吉诃德对阵风车,这样过于急切的愿景反而使机构库不堪重荷。DataStaR就体现出图书馆这种思路转变:不再将强硬的开放获取作为核心战略,用户对上传的初始数据集可以自行调整甚至删除,可能永远也不会用于正式发布;用户也可以根据个人需要和意愿自行设定共享范围,可以是课题组成员、本校用户,也可以对公众公开;最重要的是,在数据发布时,DataStaR也不承担开放获取任务,而交由为学术圈普遍认可的学科库完成。
5.2 制定富有弹性的存储政策,与学科库共赢
自机构库建设开展以来,学者参与度偏低的问题始终困扰着建设者,麦克道尔(McDowell)表示:“在大多数机构库都是每天仅一件的增长率下,估计可预见的未来里美国机构库都无法显著促进开放获取,也难以改变学术传播模式。”[13]。为了促使学者使用机构库,相当一部分人认为要狠抓强制提交制度,例如哈内德(Harnad)就不客气地指出只要康奈尔大学图书馆规定强制提交就能解决所有问题[14]。笔者认为,此类观点实际上是在回避关键问题:为何自愿提交率如此之低?当要学者们自己选择时,很多人并不情愿花时间向机构库提交资源。
约翰逊(Johnson)指出:学者的个人发展与当前出版体系紧密关联,在他们认可的交流圈中发布成果远比机构库效果好[15]。马克(Mark)的调查也支持这种论断,他对康奈尔大学早期的机构库DSpace进行过使用调查,发现几乎未被本校学者了解,收集的论文数量非常少,有些院系板块甚至没有任何实质内容。多数学者还是习惯于使用自认为比机构库更具学术价值和更高认知度的学科库[16]。一味强硬不可能使机构库成功发展下去,重要的是认真研究用户需求,灵活调整存储策略,使机构库成为整个学术环境中的一分子,而不是一个被边缘化的孤立实体。机构库应当尊重学者的使用习惯,改变视学科库为“对手”的传统观念,化竞争为合作,建立一种更实际的伙伴关系。DataStaR就显现出一种富有弹性的存储政策:它没有强制学者提交数据,也没有规定数据集只能发布到康奈尔大学图书馆的eCommons中,而是在完成数据监护后,恳请学者同时在学科库和机构库中都发布成果。通过数据监护,用户享受到了图书馆实实在在的服务,也顺利地在学术圈中发布了成果,毫无例外地都乐于在eCommons里对数据集进行二次发布和备份。这一柔性政策既避免了强制提交的不愉快,又丰富了机构库藏品,充分体现出对学术圈和学者个人的尊重,博得了用户好感和忠诚度。
5.3 开展数据监护,推出“回到科研流程中”的服务
近年来机构库热潮席卷美国高校图书馆,但其中不乏视其为一种馆藏或纯粹争取经费之举,许多机构库只是一味收集校内学术成果,至多是个“网上文库”而已。康奈尔大学图书馆也称自己的旧机构库DSpace“像个乡村图书馆的地下室,堆积着落满灰尘的旧文件。”[17]乔赫利(Choudhury)认为学者对机构库不感兴趣的一个重要原因是机构库提供的存储功能只涉及科研过程终端产品,用户实际上已经完成了自己的工作。为此他倡议机构库要推出能切入到科研起点,进而惠及整个科研流程的新服务[18]。
DataStaR正是机构库“回到科研流程中”的一次尝试,它关注的不是改变学术出版体系,而是机构库如何能成为支持数据密集型学术的新形式。图书馆已经意识到数据对科研的重要驱动力和再利用价值,开展数据监护正是面向科研流程的新服务。美国国家科学基金会在考察提交申请的数据监护项目时,指明收藏数据只是服务切入点,对数据进行监护,使之可供再利用或跨学科新利用才是最根本目的。这要求图书馆必须从“以藏为主”转变为一个活跃的科研代理人,为科研数据交流、知识共享提供机会和桥梁。学者改变学术交流习惯的动力并非机构强迫,而来自于数据监护的新需求,这对他们来说是个紧迫的问题。机构库可以成为容纳数据的仓储,更进一步说,机构库可成为整个数据监护战略的一个重要部分。
5.4 构建网上社区,提高学者参与度
随着科研项目规模扩大和内容深入,许多问题需要多方参与者共同处理。互联网正是当今协同工作的优良载体,学者利用网络交流知识、传输文件,逐渐形成所谓的“虚拟社区”。社区可以为分享信息和解决问题提供便利,凸显出协作网络在将原有那种松散的耦合系统发展为有序的跨界网络中不可或缺的地位。图书馆在总结过往机构库建设的经验教训时,体会到人气的重要性,而为学者创造稳定的网上社区无疑是凝聚人气、提高机构库认同感的好方法。
就数据监护服务来看,前述DataNet这类受国家资助的数据监护计划都有大型社区,其他区域性、中小型社区也如雨后春笋般在许多图书馆项目中出现。在康奈尔大学,为了进一步推广DataStaR和数据监护,图书馆于2008年7月创建了一个研究数据管理服务组(The DISCOVER Research Service Group,DRSG),成员包括学者、计算机专家、图书馆员和来自Fedora Commons社区的机构库建设者,DRSG通过开发用于数据监护的软件,为学者们提供方便的数据监护、保存方案,推动项目组之间的协作、促进数据的跨学科利用,最终在康奈尔校园内建设一个繁荣的数据监护虚拟平台。目前DRSG已经和天文学、物理学、信息科学、农学和鸟类学等多个学科院系建立了联系并在不断扩大中[19]。
从全美高校的高度看,甚至有一些更可喜的进展,一些机构库的用户在认识到数据监护的重要性后,组成了“自下而上”的自发性社区,如约翰霍普金斯大学DuraSpace项目中产生的数据监护处理社区(Data Curation Solution Community)便是一个,其组织格言为“复杂系统在适当条件下自会产生规律”。并进一步指出:“数据监护应支持自然科学及人文科学中产生的新形式研究与学习。在推广数据监护时,要广泛调研专业学者及普通用户的需求。”[20]另一个属于北卡罗来纳大学的DigCCurr项目的数字化监护交流社区(Digital Curation Exchange)也有类似的组织目标:“为参与者、研究者、教育者、学生构建数据监护活动中心。”[21]图书馆通过积极参与和引导这些自发社区,在推广机构库和数据监护方面取得了良好的进展。
6 结语
目前,DataStaR已经和康奈尔大学内多个项目组、科考站和实验室建立了良好的长期合作关系,还为不少学者创建了个人数据空间,截至2011年9月,已有多个项目的39个数据集经DataStaR完成高质量元数据并成功发布。DataStaR不仅成为美国国家科学基金会资助的数据保育项目的一个重要建设者,还获得不少基金机构的认可,获邀在申报会上专门做数据监护宣传。还有一些高校开始采用其系统开发自己的数据监护服务,例如由墨尔本大学主持的大型项目澳大利亚国家数据服务(Australian National Data Service,ANDS)[22]。尽管运行时间不算太长,且在实际工作中仍有一些问题,但DataStaR在探索数据监护服务上另辟蹊径,为机构库如何继续发展提供了很大启示,作为一个成功的项目,越来越频繁地出现在美国高校图书馆界的学术报告中。前车之鉴,后车之师,美国图书馆在机构库发展中遇到的问题可以为尚不发达的中国高校机构库提供参考,而他们在处理机构库的开放获取、存储政策、服务内容等问题时所采取的灵活务实的态度以及新颖的数据监护服务,也非常值得中国高校图书馆借鉴和思考。