嵌入式学科服务中的科研数据监管研究,本文主要内容关键词为:嵌入式论文,学科论文,科研论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
对科研数据加强管理已经在一定范围内达成了共识,以美国和英国为代表的各类科研资助机构从2003年起先后出台了相关政策,要求研究项目申请和完成时提供相应的数据管理计划和说明,这其中包括了美国科学基金会(NFS)、美国国家卫生研究院(NIH)、美国国家海洋和大气管理局(NOAA)、美国人文基金会(NEH)、美国博物馆和图书馆服务协会(IMLS)、英国艺术与人文研究委员会(AHRC)、英国生物技术和生物科学研究委员会(BBSRC)、英国癌症研究中心(CRUK)、英国工程与物理科学研究理事会(EPSRC)等知名机构。从大处看,在国际层面上,经济合作与发展组织(OECD)2004年就举办过部长级会议Ministerial Declaration on Access to Research Data from Public Funding[1],而到了2008年.欧盟提出了欧盟科学数据长期保存计划(Permanent Access to the Records of Science in Europe,PARSE.Insight)[2]。从小处看,也有不少国外高校制定了自己的科研数据保存政策,像美国的杜克大学、斯坦福大学、肯塔基大学、密歇根大学等高校甚至早于NIH、NSF制定了科研数据保存和获取政策[3]。另外,英国的牛津大学[4]和剑桥大学[5]、澳大利亚的墨尔本大学[6]、卧龙岗大学[7]等也都制定了相应科研数据管理政策。据不完全统计,全球已有上百所高校发布了自己的科研数据管理政策。 制定科研数据管理政策是一方面,而执行同样很重要。相关的研究表明,在组织部门中,图书馆是比较理想的数据监护的组织和实施单位[8],如英国图书馆联盟[9]、加拿大研究图书馆联盟[10]都提供数据管理培训和技术支持,提供数据发现、获取、归档等服务,还提供虚拟的科研环境。美国的NSF也在其报告中指出,科研图书馆应该在数据监护方面给予科研机构业务和技术支持,为其提供相应的数据服务[11]。而对于高校图书馆而言,学科服务是其重要的工作内容之一,特别是嵌入式学科服务的兴起,也为各类相关业务活动提供了更多的创新模式和更好的服务手段。本文将在科研数据监管和嵌入式学科服务分析基础上对牛津大学此领域的理论研究和实践开展进行探讨,重点考察其嵌入机构的科研数据监管服务项目,探讨嵌入式学科服务中如何更好地开展科研数据监管服务。 1 科研数据监管 数据已成为信息化时代推动科技发展、学术研究的重要资源。科研数据又被称之为“科学数据”,英国JISC(Joint Information Systems Committee)将科学数据定义为“原始的研究数据”[12];国内学者归纳认为科学数据不仅包括科学研究过程中产生的原始性、基础性数据以及根据不同需求加工后产生的衍生性数据,还包括各种观测、勘探、实验和试验、调研中所获得的科学数据以及广大科研人员长年累月的研究工作所产生的分散的科学数据[13]。科研数据是信息时代最基本、最活跃、影响面最宽的一种战略性资源,对于科技创新具有显著的支撑作用,其得到广泛的重视与数据驱动研究范式的兴起也密切相关。《第四范式:数据密集型科学发现》一书提出了科学研究的“第四范式”,以大数据为基础的数据密集型科学研究(Data-intensive Science)是继实验型科研、理论推演、计算机仿真之后新的科研范式,将会是科研人员今后进行科学研究及科学发现的主要模式[14]。这些使得对科研数据的保存和共享受到了前所未有的重视,为将其价值最大化也带动了数据监管的研究和实践。 “数据监管”一词2001年首次出现在伦敦举行的“Digital Curation:Digital Archives,Libraries and E-science Seminar”研讨会上,此次研讨会也被认为构建起了图书情报专家、档案管理、数据管理专家和科学家们之间的桥梁[15],其后英国的DCC(Digital Curation Center)[16]、UIUC的图书馆与信息科学研究生院[17]、微软的Jim Gray等[18]、美国的Shreeves和Cragin[19]等机构和个人都给出了其对数据监管的定义和理解。结合国内外专家的看法,笔者认为数据监管活动主要有以下几个特征:是一项持续性任务;是对数据的周期性、系统性维护;要能提升数据价值。国际性研讨会和国际刊物通常被认为新兴研究领域确立的标志。以DC为主题的国际系列学术会议有英国DCC主办的International Digital Curation Conference[20]、美国信息科学与技术协会举办的科研数据获取与保存峰会RDAP(Research Data Access and Preservation Summit)[21],此外还有一些与DC有关的专题性研讨会,如北卡教堂山分校信息与图书馆学院2007年主办的DigCCurr2007[22]、台湾大学图书馆和伊利诺伊大学图书馆联合主办的“E-Research:新世代学术研究之利器”研讨会等。与DC有关的国际性学术期刊已经有Data Science Journal、The International Journal of Digital Curation,而International Journal on Digital Libraries、Journal of Digital Information以及JASIST等期刊也刊登了大量数据监管理论研究和实践进展方面的论文。 在数据监管实践方面,参与主体众多,具体到图书馆方面,霍普金斯大学图书馆2007年成立了Digital Research and Curation Center(DRCC),关注于数字图书馆中数据的可获性与合理保存,提供专业的数据管理服务[23];麻省理工大学图书馆2008年搭建面向全校的数据管理网站,为用户量身定制个性化数据管理流程[24];而在国内,CALIS也建设了“高校科学数据共享平台”,基本形成了数据提交、数据组织、数据保存、数据共享、数据使用等规范,而此平台项目的建设主持方武汉大学图书馆还面向其校内开通了“武汉大学科研数据管理平台”,该平台隶属于图书馆的学科服务平台,是学科服务的一种。复旦大学也建设了复旦大学社会科学数据平台,其中复旦大学图书馆承担了基本需求分析、元数据规范、平台设计方案等工作。 2 嵌入式学科服务中的科研数据 要更好地理解嵌入式学科服务中的科研数据,需要从图书馆嵌入式学科服务、图书馆参与科研数据管理以及融入嵌入式学科服务的科研数据监管等几个方面来审视和探讨。 2.1 嵌入式学科服务的发展 ARL以Transforming Liaison Roles为主题发布报告,提出学科馆员应该嵌入用户的研究、教学和学习过程中,建立参与用户学术行为的新模式[25]:Shumaker等将图书馆嵌入式服务模式分为物理嵌入、组织嵌入和虚拟嵌入三种[26];初景利等认为学科服务的嵌入包括目标嵌入、功能嵌入、流程嵌入、系统嵌入、时空嵌入、能力嵌入、情感嵌入、协同嵌入八个方面[27];刘颖从物理空间的嵌入、数字空间的嵌入、社会关系的嵌入、组织结构的嵌入等方面对嵌入式学科服务展开讨论[28];杨蔚琪则认为嵌入式学科服务的特点主要体现在目标嵌入、内容嵌入、过程嵌入、时空嵌入、系统嵌入、协同嵌入等方面[29]。不管如何定义与划分,嵌入式学科服务都是需要馆员融入到信息环境中,随时解决用户遇到的各种问题,满足用户在研究、教学和学习过程中的各种需求,这其中就包括了对科研活动的支持。针对科研活动的嵌入式学科服务也有很多种,诸如馆员加入研究团队、开设专门用于研讨的空间、嵌入用户计算机桌面的信息服务工具等。一般而言,针对科研用户开展的嵌入式学科服务应针对课题的不同研究阶段提供不同的服务[30]。不过,对嵌入式服务中的科研数据管理问题关注得并不是很多。 2.2 图书馆与科研数据管理 长久以来,大学图书馆在科学研究支持方面发挥着重要作用,如图书文献资料的保存、编目、查找,数字化及数字资源环境建设,学科服务,参考咨询。近年来大学图书馆对数字资源的管理、共享等方面的实践使其有能力为高校科研人员提供数据监管服务。Luis Martinez等直接提出图书馆员在未来科研数据管理中将会拥有新角色“data curators”[31];Rick Luce认为图书馆在e-science环境下将会改变传统的文献和学术交流视野,聚焦于数据领域开展数据保存(存档)、机构库建设、资源发现、数据素养教育与培训等工作[32];Gold Anna认为图书馆在科研数据服务中的角色主要体现在国家数据管理规划和发展策略制定的参与者、高校科研数据管理的实施者、科研数据管理人才的培养者三个方面[33]。相比其他类型的图书馆,大学图书馆更容易接触到各学科科研数据,也有机会和研究人员、教师们建立密切的联系,通过开展各种类型的科研数据管理服务实现科研数据的有效管理和共享,使得图书馆真正成为高校的数据监管中心。国外已有不少大学图书馆开展了科研数据管理介绍与指南、数据监护、数据管理培训、数据管理咨询、相关工具与资源的推荐等服务[34]。 2.3 嵌入式学科服务与科研数据监管 图书馆学科服务在理论和实践上已经积累了一定的成果和经验,所以可以通过深化学科服务,使得图书馆在科研数据监管领域占据一席之地,成为新科研环境下知识管理与服务的全能者[35],并且学科服务和科研数据监管都具有学科性、动态性、协同性等特点,所以从未来长远来看它们的发展方向也是一致的。 科学研究是一个动态、交互的过程,要求相关的数据服务融入到科研活动的各个阶段,具体表现为人员、产品、平台、服务的全方位融入。图书馆员将以科研人员合作者的身份出现,制定相关规范要求,协助科研人员利用相关工具查找其所需文献、数据,记录实验过程并存储结果,以实现相关数据成果在未来的共享和再利用。这就需要图书馆员能根据用户需求的动态变化灵活驾驭整个数据服务过程(包括数据的采集、整合、存储、评估、分析、再利用等)[36],实现资源、人员、工具、服务的动态组合,满足用户不断变化的需求。针对e-science的发展,学科服务应嵌入到科研环境中,关注不同学科对信息资源的需求特点[37],另外,科研数据管理与服务在本质上是一种跨界服务、嵌入式服务及动态服务,所以更需要强调融入科研一线,嵌入到用户科研环境和科研过程,提供个性化服务,方便用户发现、获取、利用其所需科研数据[38]。 面向嵌入式学科服务的科研数据监管要从服务层次设计、数据环境构建、科研数据组织与揭示、数据信息素养培养以及人员组织等方面去探索图书馆馆开展科研数据监管的方式和模式。具体而言,图书馆科研数据监管服务可以按照服务中所需的智力程度分为直接数据存取服务和数据分析服务,前者是基础,后者是趋势;而从嵌入式学科服务的具体服务形式上来分,可以分为过程嵌入、人员嵌入以及平台嵌入[39]。虽然国内研究者对嵌入式学科服务和数据监管都有着一定的理解,在理念推广、思路探讨等方面也有一定的积累,但是对具体如何在嵌入式环境下开展科研数据监管工作却讨论得不够。 3 牛津大学的科研数据监管 牛津大学对科研数据监管的探索由来已久,其认为保证科研数据在今后能够被检索到是科研项目的重要组成部分,因为在必要的时候科研过程和结果需要被验证和持续维护。 3.1 数据监管生命周期模型 牛津大学基于对科学研究中的数据及数据监管需求的深入理解,提出了图1所示数据监管生命周期模型,包括了数据管理计划、数据备份和安全、数据分享和归档三大部分,此模型成为牛津大学科研数据监管实践的指南。 3.2 数据管理计划 数据管理计划是数据监管的起始,这一部分包括数据管理计划清单、大学和资助机构政策、数据管理计划内容、伦理和法律问题、数据的组织和描述五部分内容。 (1)数据管理计划清单。众所周知,持续地管理数据可以减少数据丢失的风险。数据管理计划清单要告诉科研人员在数据监管前,甚至是数据产生前,需要考虑的内容有哪些,该清单将帮助科研人员在整个项目的生命周期内维持、保护并且提升研究数据的价值。 (2)大学和资助机构政策。不同的研究资助机构有着不同的科研数据管理政策,表1概括性地介绍了几个牛津大学的主要资助机构数据政策。 (3)数据管理计划内容。数据管理计划要确保数据管理的所有方面都在项目开始时被充分考虑,并在其后整个项目过程中持续地被维护。数据管理计划有时候也以不同名字出现,如数据分享计划(NIH)、技术附件(AHRC)等,不同政策框架下的数据管理计划内容各不相同,不过一般都会包括:①项目介绍;②对现有数据的调查;③项目产生的数据;④数据组织的方法;⑤数据管理方面的问题;⑥数据分享与归档;⑦具体责任;⑧资金及分配。当然,在具体计划制定和实施时绝不是上述罗列的这么简单,比如在考虑数据组织方法时,怎么命名数据文件?数据如何组织到文件夹中?数据集是用文件系统还是用数据库?如何管理不同机器间的数据传输和数据同步?如何在数据层面管理与研究同事间的协作?如何追踪不同数据文件和数据的不同版本文件?上述这些问题都需要被进一步考虑。 (4)伦理和法律问题。数据的分享要遵守一定的法律和道德要求。一般情况下,研究人员使用知情同意、匿名化、访问控制等策略后,绝大多数的研究数据是可以被合理合法利用的。①知情同意书要让科研项目组成员们了解科研数据如何被保存、存储、使用以及如何保密、相关承诺和维护等问题,为保证充分知情,同意书要提供足够的信息并被免费告知,若没有处理好此类问题很容易造成数据被限制使用、出版和分享。②数据匿名化能保证个人、组织或商业机构不被识别,牛津大学专门提供了定性数据匿名和定量数据匿名的指南。③对于有一定密级的数据,访问控制是常用控制手段,不同层次的访问控制权限适用于不同的数据,在有些场景下还需要将访问机密数据的权限和访问非机密数据的标准结合在一起。 (5)数据的组织和描述。良好的数据组织和描述有助于科研数据被检索,进而提升其共享率和数据价值。在数据组织时,首先要考虑的是文件格式问题,现在用的这些文件格式五年后会不会被继续使用呢?其次是数据关联问题,要使用最合适的信息组织工具以确保相关数据以某种方式连接在一起。另外,给数据文件添加关键词或者标签可能有助于以后被更加容易地找到,尤其是那些音频文件和视频文件,图书馆员或数据管理人员也可以使用元数据来描述科研数据或数据集。嵌入式学科服务中科研数据的监控研究_数据管理论文
嵌入式学科服务中科研数据的监控研究_数据管理论文
下载Doc文档