科研数据管理:保障数据质量,促进iSchools新科学研究,本文主要内容关键词为:数据管理论文,科学研究论文,科研论文,质量论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
科研数据(Research Data)不仅是研究成果的中间步骤,也是学术事业中不可或缺、动态的组成部分。21世纪的学术研究依赖各种电子设备来支持知识产生、分享以及使用的全过程。学者们利用数字设备、传感器、采集器或问卷调查来收集数据,利用数据库或者电子表格来存储和管理数据,利用统计软件来分析数据,利用文本编辑软件来撰写研究结果,并利用网络将这些研究内容传播给同行、出版商以及公众。我们在使用这些工具的同时也留下了各种数据处理的痕迹,这些数字化的记录都应该是整个学术记录中的组成部分(例如,元数据、过程控制文件、审核记录、备份等)。目前,广义的“研究数据”一词包含了学术研究工作中的采集、处理、传播以及使用的整个过程中产生的各种记录。
理解和评价学术产出首先需要了解数据本身。科研数据的影响和作用已经在许多方面得到了人们的认可,其中有两项影响在学术界中引起了广泛的关注。首先,有人认为已有的数据是新研究的宝贵资产,对于已有数据的整合、挖掘和再利用为学术研究提供了一种新的资源,这也就是我们常说的“eScience”,或者在更广义上的概念“eResearch”;其次,管理和维护这些对各个领域的发展都至关重要的电子数据存在着挑战。正是因为科研数据已经变得如此重要,使得基金机构开始投资以支持旨在进行数据共享的数据管理计划;一些出版机构要求根据科研数据来选择相关论文是否被录用;大学、实验室也正在建立各方面的科研数据管理方面的政策、登记条例和资料库。
数据管理对于iSchool而言,既是机遇也是责任。数据管理历来就是信息科学专业的专长。我们不仅需要管理研究成果也需要管理研究数据,也将在未来培训数据管理人员和数据科学家方面发挥重要作用。培养数据科学家和信息工作者,让这些人与各领域学者一道共同管理他们的研究数据,并随时间变迁保障数据的质量,这既是iSchool的责任,也是我们当前的机遇。我们需要有明确的定位,让我们的学生能够帮助企业、政府、图书馆和档案馆来管理大规模的数据。
1 科研数据与科学研究
目前,物理学、基因组学、天文学、社会科学、地球科学等大型科学研究项目产生了大量的研究数据,大学的图书馆员们与计算中心通过建立各种协作数据仓储(collaborative repositories),来帮助科研人员存储和使用这些研究数据。例如,目前物理学家就通过arXiv.org来分享他们之间的学术出版物,但还不能用于分享数据,但我相信很快数据也可以获得共享了。我们的目的是不仅能够让学术出版物在全世界的科学家之间共享,也让研究数据得到共享,供学者们进行新的科学发现。
在其他领域也会有许多科研数据产生,例如人文科学领域。然而,“大”科学(“Big” science)与人文科学之间的一个重要的差异是基金支持的力度。大量的资金是针对大科学项目的,很多个人或较小的项目无法获得足够的资金来管理他们的数据。因此,我们应该特别关注且帮助人文学科或在“小”科学(“small” science)领域的科学家来管理他们的数据。学者们、图书馆员、档案员和信息专业人员面临的挑战是帮助那些最需要帮助的人。
另一个需要数据管理服务的团体就是公司。对于企业而言,数据不仅是其竞争优势的体现,也是其主要的收入来源之一。企业在帮助访问数据方面具有竞争优势,他们每天都会产生大量的交易数据,如电子商务公司(亚马逊、淘宝等)。与学术机构不同,尽管企业中也存在大数据的问题,他们往往不愿意分享他们的数据,因为两者的动机存在差异,企业要考虑如何获得收益等,从这个角度而言,企业可能需要使用不同的技术和工具。
科研数据的使用(data uses)方式包括:
(1)数据验证(Verification)。研究产出并不仅仅表现为最终的科学出版物,也应该包括数据。对于研究人员而言,通过研究数据证明相关发现,并理解作者论文作者所获得的结论是十分重要的。通过对数据的追踪及验证有助于学者们进一步确认论文作者的学术贡献。
(2)数据聚合(Aggregation and scaffolding)。通过对来源于不同项目和不同研究人员的数据进行聚合,从而形成新的想法,克服来源于单一数据可能存在的偏差。
(3)数据挖掘(Mining)。通过数字化形式的数据,我们可以进行数据挖掘。现有的机器算法(Machine algorithms)已经能够实现在多个数据集中寻找并揭示使用者感兴趣的模式。
(4)数据再利用(Reuse)。对来自不同领域的数据进行分析、比较,获得新的发现。
2 科研数据管理的现状
2.1 科研数据的现状
目前,无论是公共机构还是个人都非常关注数据管理问题。主要原因是,一方面大量的科研数据产生需要建立更有效的机制进行管理,例如大型粒子对撞机每年产生25PB的数据,Akami公司每天进行2兆次交易,SKA(下一代巨型无线电望远镜阵)、人类基因项目都产生了大规模的科研数据,这些科研数据迫切需要更高效的管理。科研数据的庞大而复杂,也使得科研数据的管理变得复杂起来。
科研数据管理的主要难度在于:
(1)数据类型的差异(Data types vary)。文本与数字和动态流(dynamic streams)决定了数据集和文件的大小,也对用于理解数据的元数据的数量和质量提出了要求,同时,不同的研究群体对特征数据格式及表述方式也不同;
(2)文件的数量和容量大小的增长带来的存储成本的增长并不是连续相关的,当文件大小到达一定程度时,其存储的成本会呈现跳跃式增长,这与存储介质和操作系统相关;
(3)数据更新和访问的频率对存储介质和压缩效果有影响;
(4)数据的重要程度决定了数据管理的可靠性(例如,亚马逊的简易存储服务(S3)具有99%的可靠性)和冗余要求,以及维护周期(例如,校验的频率);
(5)数据的敏感性决定了其对数据管理安全级别(例如,开放还是限制,或混合型)以及花费的要求;
(6)对未来的成本的预算要求考虑许多参数(包括当前的费用和精度要求、技术进展、通货膨胀率、能源消费增长和曲线、灾害估计)。
2.2 现有科研数据管理(Stewardship)的特点
(1)大学应服务于科研数据管理。学者为他们的学术社区及大学提供思想和智力支持,反过来,大学及学术社区也为学者们提供确保学术思想蓬勃发展的土壤,这些学术思想最终将服务于社会。科研数据的管理可以看成是存在于学者、大学和公众之间的互利合作关系。这种观念影响了我们对科研数据管理的看法。
(2)学术研究会受到诸多动机和限制条件的影响。我们的学术活动及其随之产生的研究数据往往受到法律、伦理、经济以及社会实践的约束,联邦、州和地方法律、合同协定、道德约束等都会影响着科研数据的管理,限制着我们存储和共享一切数据的可能。而不同的学科文化(disciplinary cultures)及对于数据共享和再利用的看法也会对科研数据管理的具体个例产生影响。因此,在制定数据管理方案时必须要建立灵活的机制以适应各种限制条件。
(3)不同机构的动机也影响科研数据的管理。例如,学术群体希望各种科研数据能够分享。分享研究成果能扩大研究的影响力,可以提升研究的质量,使研究成果更多更好地被知晓,产生更深的影响。然而,企业的数据常常是其竞争的优势体现,基于利益方面的考虑,企业则不愿意分享数据。因此,在科研数据管理的过程中,不能采取“一刀切”的方式(“one-size-fits-all”policy),而应该考虑数据的生命周期,更全面地对来自不同机构的数据进行全面管理。
(4)现有数据管理的不足。根据UNC的调研①,加强学校数据保存和管理的能力是支持其研究基础设施的重要部分。目前,学者们采用的主要数据保护措施还仅是通过硬盘、USB设备或者其他的个人存储设备(73%受访者表示如此)。当被问及“当你的研究项目结束的时候你是如何处理科研数据”的问题时,65%的受访者表示他们会将数据保存在硬盘,USB设备或者其他的个人存储设备上。这种数据保存方式存在极大的风险和不足,缺乏支持大型数据转移的基础设施。未来的数据管理的基础设施建设应该全面考虑数据的保存、分享,数据管理也并不仅仅是在科研项目结束之后才发生。
3 科研数据管理的质量
3.1 数据管理
数据管理意味着长期的责任。数据并不是只有当研究结束之后才需要进行管理,不仅是要对现有的数据进行保存、共享,完善的数据管理能够对于一系列研究进展具有标识作用,而且能够有利于指导新兴的研究方向。包括数据的重复使用,现有结论的复制与扩展,通过新增数据对现有数据进行补充,这些对于研究发现都是大有裨益的。
在学术群体中,长期管理意味着为后代保存知识。通过出版工作或者积极参与数字出版管理工作,图书馆和档案馆应该致力于数据引导工作。图书馆和档案馆是研究数据管理工作成功的关键。
3.2 提高数据管理的质量(Stewardship quality)
低质量的数据还不如没有数据。数据管理过程需要加强质量控制,主要可以从以下几方面考虑:
(1)数据采集与编辑(元数据)的质量控制;
(2)对于管理工作流的质量控制,在数据提取阶段的清洗与验证、元数据的来源及存储;
(3)对于(数据工作流)时间的质量控制(quality control over time),数据元素的审计(audits of data elements),存储过程的审计等(audits of repository processes)。
提高数据管理质量,一个重要的环节就是需要与科学家一起完成数据管理工作,因为科学家才真正了解该领域的知识和现状,而信息职业人则更加理解数据存储和数据保存需求。什么需要保存取决于科学发展的状态,而一旦保存的内容确定了,信息职业人就能够将其管理好。整个质量控制决策具体包括如下几个环节.
(1)选择:什么样的数据需要进行保存;
(2)工具的精确性、准确性以及可靠性;
(3)在存储网格中的冗余程度;
(4)验证频率(校检次数/年);
(5)元数据的验证(参数,语义);
(6)科学的发展态势,例如,肿瘤基因发展范式的转化对整个肿瘤仓储的影响;
(7)基于机构背景以及社会实践原则的投资回报率估计。
4 UNC数据管理调研
4.1 半结构化访谈
UNC专门研究组(task force)开展了一项半结构化的访谈,访谈针对23名来源于艺术史、计算机科学、政治科学、环境科学和流行病学等不同学科领域的研究人员。访谈的目的是确定影响研究者数据管理行为的主要问题。访谈的反馈结果也被用于随后在全校范围内的全面的调查。每项访谈都会提出23个问题,被访者被要求描述他们研究数据的类型、格式和规模,也被要求展示他们分享数据的程度,并让他们列举出任何限制他们分享行为的因素。同时,为了确定何种类型的工具和服务能够协助研究人员高效地管理数据,访谈中还包括一些涉及研究人员在数据分析与数据保存方面可以获得的服务和基金资助的问题。访谈也试图征询科研人员在管理数据过程中对于角色、责任与权利的看法。根据访谈的反馈,专门研究组考虑到研究人员知识和理解的差异,决定对于数据引导调查引入复杂性思想。访谈结果很明显地表明:需要在全校范围内进行一项针对广大研究人员的问卷调查,以收集更多样性的数据信息以及跨学科的数据需求信息;明确数据管理需要说明的各方面,从而保证研究人员能够遵守数据管理政策;确定现有支持科研数据管理的资源与基础设施情况,以及识别出哪些资源和基础设施能够持续为UNC的数据事业提供支持。
4.2 问卷调查数据分析
UNC专门研究组在全校范围内进行了一项问卷调查,调查问卷被分发给所有的UNC教师、研究生以及从事与研究相关的院系职员。该调查的目的是进一步深入理解UNC研究人员进行研究数据管理过程中的行为、关注点与意见。该调查自2011年11月7日开始,持续了超过6周的时间,直到2011年12月16日。在问卷设计上,考虑了尽可能适应所有领域的科研人员。调查的邀请函发送给了4829名教师、1366名行政管理人员或者其他职员以及5551名研究生,总计11746名调查对象,涵盖了学校全部的院系、机构。在11746个受访者中,有2765份有效问卷。全部UNC的8个分校都参与了问卷调查,表明该问卷在调查范围上具有充分的广度。
4.3 问卷设计
调查问卷的设计原则就是要直接向研究人员了解相关信息,包括:研究人员的数据,以及他们用于管理数据的服务方式与资源;影响研究人员数据管理实践的政策措施;在研究项目存续期后数据的存续状态;对于数据权属的意见;对于研究数据管理的基金支持的意见;以及在研究数据管理方面大学和研究人员的作用与责任。
调查问卷分为六个部分,这六个部分分别代表数字数据资源管理的六个主要问题:
(1)数据管理的角色与职责(Data stewardship roles and responsibilities):谁应该有研究数据管理的决策权?谁拥有研究数据?数据创建以及分享是否应该纳入学院审查的范畴?
(2)数据管理服务(Data management services):研究人员面临哪些类型的数据管理挑战?研究人员是否意识到可以获得数据管理服务?可获得的(数据管理)服务的质量如何?
(3)数据管理基金(Data management funding):大学应该在多大程度上为资助的研究项目提供数据管理基金支持?如果是非资助的研究项目呢?目前是否存在数据管理基金?
(4)研究数据管理标准与政策(Research data management standards and policies):如何认识出资人的规定、出版商的政策以及(或)专业社群的标准是否适合研究者的数据(建设)?
(5)数据分享、传播以及协作(Data sharing,dissemination,and collaboration):在多大程度上研究人员使他们的数据可供其他科研人员再利用?
(6)保护与保存数据(Protecting and preserving data):研究人员采取哪些策略来保护和保存他们的数据?
4.4 调查结果
(1)UNC研究人员使用的数据类型十分广泛:近一半的受访者反馈使用了电子数据库或数字图像。超过60%的人反馈在电子表格和数字文本中使用了数字数据;然而,也有超过40%的受访者表示使用了非数字文本或者手写笔记,其中有33%的受访者报告使用了生物或其他样品标本。许多工作人员所处理的电子数据少于100Gbs,也有少数研究人员的数据存储需要超过了100Tbs,还有2份问卷反馈使用了超过1Pbs的数据。
(2)大量的UNC研究人员使用电子数据。超过75%的UNC研究人员报告在研究过程中需要进行电子数据的管理,包括数据采集、清洗、分析、存储、分享或者建档。许多研究主要依赖自己进行数据管理,或者采取并不令人满意的方法进行数据存储。当被问及谁来执行数据管理任务时,通常的回答是:数据管理的全程工作都是(研究人员)“独立完成的”。当被问及在研究过程中,采取何种主要策略来保护数据免于损坏或丢失时,73%的研究者反馈,他们采用了电脑硬盘、U盘等设备。当被问及在项目结束之后通常如何处理他们的数据时,65%的受访者表示仅是将数据存储在了硬盘、U盘等设备,仅有不超过25%的反馈者表示利用资料库或者档案库存放数据资源。
(3)UNC研究者希望保持对于研究数据的控制和责任。当被问及谁拥有研究数据时,仅一半的受访者表示“研究人员”,反馈中排名第二的是“大学”(但仅有15%的反馈者选择了该选项)。同样,当问及是“研究人员、大学还是两者都有”在数据管理、存储进展各阶段的主要决定权时,反馈的结果大部分是研究人员或者是两者都有,但未出现过大学。
(4)许多UNC的研究人员并没有意识到数据管理服务的存在,也没有意识到该方面存在新的政策和标准。超过70%的反馈者说,在此项调查之前,他们并不知道国家自然科学基金(National Science Foundation,NSF)和国家人文基金会(National Endowment for the Humanities,NEH)最近通过了制定数据管理计划的新政策。当问及他们所知道在UNC可获得的(数据管理)相关服务项目范围时,76%的人表示他们知道统计、分析服务,67%的人知悉短期数据存储服务,62%的人了解学校的高性能计算资源。然而,仅有54%的人员知道在数据安全方面UNC可以提供相关的服务项目,仅有1/3的人知道存在有服务项目可以帮助他们进行长期数据保存和数据归档服务,小于25%的人了解存在对数据管理规划以及在元数据标准制定方面还提供相关支持。
(5)UNC的研究人员在分享研究数据方面面临一些困难。超过一半的受访者认为在使数据为他人所用上需要花费时间,同时,他们对在已完成的研究数据上加注有效的限制以提供共享时的安全还是感到担心。一个最具说服力的反馈是,当被问及在他们所在院系、实验室、中心或者研究群体中,在长期数据保存(5年以上)上面是否可以获得充分基金支持,仅有10%的人给出肯定的回答。可见,对于研究人员而言,在数据管理方面最主要的两项资源——时间和金钱——并不是可以充分获取到的。调查显示研究人员对于长期数据管理的需求既存在阻碍(时间、资金)也存在潜在的无知。在问及“(数据管理)是否能够获得充分的基金支持”等问题时,最普遍的回答是“我不知道”,高达65%。
4.5 结论
UNC专门研究组通过对UNC研究人员进行调查反馈,得出以下三点结论:
(1)大学在数据管理方面制定任何政策或者计划,需要尊重学校内部不同学科不同研究人员之间的多样性差异。
(2)这样的政策必须允许研究者能够保持对其数据管理各方面,包括访问和决策,保持“封闭”(close)权利。
(3)针对研究人员的进一步扩展数据管理方面的教育和培训计划必须成为学校优先发展的事项。
5 数据管理促进iSchool的新科学研究
5.1 新科学研究中iSchool的重要角色
在大数据时代背景下,管理、聚合、分析和挖掘研究数据成为了一项新的科学研究。而iSchool在这个领域中扮演着重要的角色。iSchool组织成员虽然有着不同的发展轨迹,但都分享着一些共同的价值理念,包括:信息组织、普及的信息获取(universal access)、合作、思想自由(intellectual freedom、scholarly freedom)、自我导向性学习(self-directed learning)、数据管理(stewardship)。
研究解决复杂问题,需采用多种方法,而数据分享能够帮助研究人员利用多重方法解决复杂问题,通过鼓励合作能够集合多学科的研究方法解决这些问题。通过鼓励合作,研究数据的集成、管理与分享,能够提高UNC作为一个重要研究机构及北卡公共资源服务中心的声誉和地位。
研究人员有权根据其背景和研究兴趣自由创建研究数据,而这种自由的前提是他们有责任确保其数据的真实性并且保存其价值回馈给赋予学术自由的世界。研究数据的管理是研究机构保持其学术自由、校园多样性、创新力以及公共影响力的核心。如果校园能够吸引最好和最聪明的学生和老师,我们就必须践行研究数据管理,以显示我们珍视和分享数据,同时我们还必须提供相关的工具和服务以便于学者们认同这样的实践,并参与到我们这场通过研究数据管理确立国际领导力的实践中来。
5.2 iSchool应采取的数据管理措施
(1)宣传并告知校园学术社区有关科研数据管理的发展趋势、最佳实践并鼓励积极参与数据管理实践。
(2)提供建立在现有服务基础上的培训服务。
(3)提供咨询服务,扩展现有的由Odum研究所(UNC社会科学研究所)和大学图书馆提供的咨询服务,帮助研究人员建立和实施数据管理计划。
(4)提供网络获取的资源服务,帮助研究人员以及管理人员建立、实施、修订他们的数据管理计划。
(5)为已经保存在公共数据仓储(包含校内与校外)中的数据提供数据存储注册服务(registry service for data deposits),为各研究群体和工作提供数据获取以及发现的服务,包括对于数据获取限制的规范化。
(6)为那些没有公共资料库、或者出于合同要求或敏感性需求原因只能进行本地管理数据的研究者,提供UNC研究数据资料库。该资料库应该被集中管理,免费向UNC学者提供服务,所有的数据存储行为需要在校园注册服务机构进行注册。
(7)建立一套满足研究者注册及使用资源库的应用软件。
本文是根据Gary Marchionini教授(也是“UNC科研数据管理”计划专门工作组主席)2013年4月15日访问武汉大学信息管理学院所作的报告翻译整理形成。北卡罗来纳大学教堂山分校(UNC)作为美国最好的图书情报教育机构之一,其图书、情报和档案专业教育质量名列前茅,同时,它也是iSchools成员。2011年该校提出一项新的计划“UNC科研数据管理”(Research Data Stewardship at UNC),其主旨是通过帮助科研人员进行科研数据管理,促进其科研产出。从2011年1月起,UNC建立了一个处理数字研究数据管理的专门工作组,专门负责科研数据管理的政策与趋势的环境扫描,问题探讨,问卷调研以及确立数据管理的基本原则及行动纲领。
注释:
①Provost's Task Force on the Stewardship of Digital Research Data.Research data stewardship at UNC——Recommendations for scholarly practice and leadership[R].2012-02-15