国际科研领域元数据研究及启示,本文主要内容关键词为:启示论文,科研论文,领域论文,数据论文,国际论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 科研元数据在元数据研究中的现状 元数据概念最早是由Myers在1960年提出的,其含义为“描述数据的结构化数据”,元数据也被称为是关于数据内容、质量、条件和其他描述数据特征的结构化数据。元数据在英文中的单词是Metadata,“Meta”来自希腊文,是有序、规范的意思。早期的书写形式有“meta data”、“meta-data”,后期统一为“metadata”。磁盘标签、图书卡片、歌曲目录等传统意义上的概念都可看做元数据,因此元数据思想早在信息技术产生之前就已存在。如果说图书馆目录是元数据,那么数据就是图书馆里的图书。在人类开始对生产的知识和信息进行分类、分析和管理时起,元数据一直扮演关键的角色。计算机/信息科学领域的“元数据”概念最早出现于1968年,主要用于实现数据的有用性,而并不关注数据的内容和结构。互联网领域的元数据应用最早是从地理信息系统(GIS)开始的,20世纪90年代空间地理信息领域应用元数据来实现地理数据的有效再利用。在图书馆领域,元数据通常被认为能帮助实现数据产品的发现和获取,标示数据的起源和实现数据的管理。在数字时代来临前,图书馆已采用MARC来实现数据的发现和管理;早期的数字图书馆服务框架(MOA2)将元数据分为描述型、结构型和管理型3类。表1是不同时期专家及机构从不同视角对元数据概念进行的各种诠释。 科研领域的元数据研究和实践与元数据应用广泛的信息科学领域有很大的不同,信息科学元数据的研究是基于规则基础上发展的元数据SCHEMA和元数据系统,不同机构领域间的标准化是非常重要的,例如AACR2,MARC,EAD,METS以及DC。而科研元数据在同样的规则基础上,元数据类型和功能相差很大。不同类型的项目,元数据类型各不相同,甚至可区分到特定数据和资源粒度。比较图书馆领域的书目描述元数据和计算机科学的数据管理元数据可知:书目描述元数据主要是建立元数据操作的规则和标准,或关于数据模型的规则,而数据管理元数据在定义元数据能或应包含什么内容时更宽松,通常根据不同的项目或数据而个性化。 当前元数据在科技计划项目领域的主要应用有:①将一般意义的元数据理论应用到科技计划项目的资源组织中;②将其他具体领域的元数据应用借鉴到科技计划项目元数据项目管理中;③借鉴元数据创建等相关工具开展科技计划项目领域中的应用等。 2 连续体视角下的国际科研元数据研究 与信息生命周期的链状单一维度不同。文件连续体和信息连续体认为信息具有在时间/空间二维演变的螺旋式“韵律”,信息连续体包括信息的形成创建过程、记录信息的捕获过程以及在竞争领域的组织和集成过程等进程。 2.1 科研元数据形成 C.L.Borgman等认为,科学研究数据来源很广泛:在物理和生命科学领域,数据是通过研究者收集和产生的,如通过观察、试验或模型;在社会科学领域,研究者可能会收集和产生自己的数据,或从其他来源获取数据[1]。数据可根据类型和来源分为不同类,NSF战略将数据分为:观察类数据、计算机类数据、试验类数据。F.Porto等认为,科学研究是一个复杂的过程,需要管理研究生命周期中产生的大量数据和元数据。这些数据需要结构化,并能以被科学家易于理解的方式显示[2]。 然而,在数据共享方面,P.N.Edwards等认为,数十年至上百年来科学研究中,个体实践导致数据收集模式和数据格式过多,很多都是特殊案例,缺乏其他科学技术了解数据来源的元数据[3]。许多实验科学的文化环境低估了共享和出版数据,以及在原始数据上标注元数据的成效。其结果是很多“共享”数据仍处于无法使用状态。历史研究和比较研究揭示了技术框架“以设计为中心”和“以用户为中心”之间的不连续性。 国际上对科研活动中的元数据形成研究已很广泛,SSDBM[4]是关于设计、建立、分析和评价科学和统计数据管理系统和应用的国际会议,每年举办一次,至2003年已是第25届,其中的很多论文都是关于科研过程中领域元数据和学科元数据的形成研究的。 2.2 元数据捕获(创建) 元数据创建分为自动和手工两种方式,元数据自动抽取和收割方法主要应用于文本环境,这类技术不能直接扩展到科学数据的科研元数据创建,因为大部分科学数据不是以文本为基础的。数据量的大小是决定元数据是否自动创建的一个重要因素。workflow系统是自动创建科学数据的一种方式。workflow根据研究任务确定的科学过程描述,研究任务可以是计算机程序,如“运行程序,向数据库提交查询”等。workflow越结构化,越容易自动创建元数据。但在高度依赖仪器的实验研究领域外,研究人员反馈认为workflow很难实施。 表2是当前元数据创建方法的主要汇总。从表2可以看出,国际元数据创建方法研究重视“元数据生态环境”,侧重于以人为中心,强调系统性、生态性,注重社会研究方法的应用;国内元数据创建研究侧重于以机器为中心的研究,主要借助信息技术和信息系统构建方法,缺乏社会科学、人文科学、经济学等视角研究,元数据的构建缺乏严密的理论体系的指导,主要是在作者对应用领域知识理解的基础上构建,缺乏用户参与主导。 2.3 元数据组织 元数据组织过程指保存、维护等元数据运行过程。在网络环境下,元数据一旦创建,关于内容对象的元数据需要经常根据变化进行更新,这被称为元数据维护问题。由美国NSF资助的国家科学数字图书馆NSDL在科学、技术、工程和数学领域创建了用于研究和教育的,高质量的网络资源元数据。Ba-Quy Vuong等介绍了用于这类网络元数据的维护模型——关键元数据关联模型[5],该模型是指监测与发生改变的网络内容区域相关的元数据属性,同时忽略其他改变。 3 信息治理视角下的国际科研元数据研究 信息治理下的科研元数据是确保计划管理者、项目申请者、信息技术专家对成果共享和科研管理的战略目的有一个协同行动的技术保障,并提供特定规则和指南帮助他们完成其规定职责。 3.1 元数据标准 元数据标准首先是标准。标准化要求对复杂环境和过程进行抽象,并需要代表不同利益的各方进行协商。很多科学项目可能不需要,或不会从信息科学领域制定的书目或档案元数据标准化中获益。在这种情况下,需要元数据个性化和松散性的描述。但在几乎每个领域,制定有不同的元数据标准和SCHEMA,因此科研元数据的选择和应用是一个需要关注的问题。元数据标准是语义信息系统标准的一种,B.Otto等将语义信息系统标准定义为:用在应用领域中的适当语言描述的信息模型,其建立的标准文档由提出者协商一致,用于重复使用[6]。 在实际项目应用方面,英国NERC制定了用于信息获取的元数据标准NERC Discovery Metadata Standard[7]。2012年,美国标准化组织NIS0和DCMI联合发起了关于管理科学研究数据的元数据的网络论坛,对科学研究数据的保存及促进数据再利用、元数据标准及互操作、数据保存和元数据生成程序、规范人名(针对科学家)、数据链接等进行了讨论。 3.2 元数据质量管理 高质量的元数据是信息资源再利用的关键因素。元数据描述了关于数据的who,what,when,where和how。附带高质量的元数据利于信息的发现、获取、综合、理解、保存。长期以来,具有较低质量或缺失元数据的信息使信息再利用变得十分困难,甚至不可能。 元数据质量评估主要包括两类方法:人工质量评估和样本统计质量评估。人工评估是最有效的数字资源元数据评估方式。但是,这种方式有3个缺点:①人工质量评估只是对样本时间内有效,如一定量的新资源增加进系统里,效果就不再准确,需要重新评估。②这种方式只能产生平均质量,单个元数据质量只能从样本中获得。③人工评估耗资很大,专家需要对一定资源进行浏览,而系统资源总是在增加。这最后一个缺点导致手工元数据质量评估只是数字资源领域的研究方法,而很少进行实际应用。样本统计评估包括3类方法。Hughes计算了样本自动因素(完整性、词表使用等)[8],Bui等统计了超过100万样本的完整性[9],Najjar等对元数据产生领域和元数据检索应用领域进行了比较,提供了元数据质量的ARIADNE评估案例[10]。 理想的元数据质量评估应包括两个特征:一是对进入系统的每个元数据项自动进行评估,二是提供有意义的元数据质量评估指标。胡永健等认为,元数据质量审核主要包括两方面内容,一是元数据规格符合性检查,二是元数据抽样审核[11]。元数据规格符合性检查主要是通过程序对进行整合的元数据进行自动检查,即检查元数据是否符合相关要求。元数据抽样审核主要审核由程序无法自动检查的元数据具体内容,包括是否涉及国家秘密,描述是否准确等,这些内容都需要由专门的领域专家进行人工审核实现,也是元数据规格符合性检查的延伸和深入。 4 协同创新视角下的国际科研元数据研究 协同创新是科技快速发展的当今越来越重要的创新方式。首先,高技术的重大项目,如登月计划等需要大量相关学科、行业和专家的参与和共同完成。其次,从科技项目层面上看,当前申请项目组织有不同的类型,有单个组织申请的,也有联合申请的。联合申请因参与组织的数量、存在的竞争者等不同而又有不同,有大量参与者的联合项目将面临交流和协作的问题。最后,技术前沿领域需要多方参与合作,如在美国,技术前沿主要由大学进行科技前沿的探索,私企可选择与这些大学进行合作,以获取相关知识进行转化。大学可能会通过成立行业—大学演讲联合体来获得进一步的研究基金,或直接将研究应用到行业中。 4.1 协同创新系统中的利益相关者及利益诉求 F.van Harmelen等描述了科技系统中各利益相关者及在协同创新中的角色[12],见表3。 4.2 协同创新环境中元数据的智慧化利用 根据元数据的性质,其用途集中在描述、定位、检索等功能。Tsou Ming-Hsiang指出,在传统的关系数据库环境下,主要有两种类型的元数据应用方式,一种是创建集中式的元数据数据库或目录,另一种是建立通过信息网关服务的分布式元数据库[13],两种方式都是为了帮助用户检索、保存和查询分布式的信息服务。R.Plante描述了在数字天文观测(VO)环境中元数据的诸多用途[14]:用于资源发现和支持界面,包括类型、保存、概念空间范围等;用于服务交换,即在输入和输出服务中使用的元数据;用于数据模型中获取数据,包括数据显示、获取方式、逻辑关系等;用于语义分析;用于数据字典。 随着物联网、云计算等新兴信息模式的兴起,科技项目元数据也开始借鉴和采用最新的技术模式,如S.Waddington等研究了用于研究成果长期保存和获取的云存储系统Kindura[15],该系统元数据定义为项目级别的元数据和收集资源的元数据。其中项目元数据分为描述元数据(包括项目名称、项目摘要描述)、拥有者信息(包括主要调研者及联系方式)、管理元数据(包括项目基金、项目起止日期),收集用元数据则分为基于自由检索的描述元数据、研究成果相关的项目、建立在数据和文献分类基础上的保护标记,提示成果是否包含个人信息的标识符、生命周期信息(包括来源数据集、中间及出版成果)、根据实际使用统计的点击量(评估内容可能使用的指标)。 4.3 元数据对协同创新的政策影响 2008年美国商务部组织商业领袖对创新测量提出建议,在其报告《创新测量:促进美国经济的全社会创新》[16]中写道,“为鼓励更多非政府研究者的研究,顾问委员会建议政府通过采用数据标记或相似方式使数据更方便使用,通过创建更多的公共数据文件促进数据的获取,进而促进创新研究。”这里的“数据标记或相似方式”就是指元数据等技术手段。 美国NSF资助的科学和创新政策项目(SciSIP)是为研究科学和创新政策的科学理论基础而设立的,项目在2005年立项。其目标是建立基于证据的平台基础,以便决策者和研究者评估国家的科技企业,促进对其动态性和产出的把握。SciSIP的研究活动将有利于发展创造活动的理论并将其用于经济社会中,以及促进科学度量、数据库及分析工具和建立SciSIP的专家库。到2011年1月,有162位联合基金获得者共同致力于用于科学政策制定的数据、分析工具及模型等研究。 5 相关启示 当前我国科研元数据应用较系统的是科学数据共享领域,《国家科技计划项目科学数据汇交暂行办法(草案)》[17]明确指出:汇交的科学数据是在国家科技计划项目实施过程中产生的原始性观测数据、探测数据、试验数据、实验数据、调查数据、考察数据、统计数据以及按照某种需求系统加工的数据和相关的元数据等。第一次从数字资源共享视角,指出元数据是汇交科学数据的组成部分。然而,尽管我国科学数据元数据研究和实践取得了一些进展,但总的来说,当前我国科学数据元数据研究和实践主要集中在科学数据元数据工作流程、特定领域元数据元素集、元数据在系统共享中的实现、元数据质量审核等方面,缺少对构建方法和互操作的统筹研究,缺乏对元数据的应用环境和评价机制研究。因此,借鉴国际科研元数据研究和应用相关经验,我国科研元数据研究及实践应考虑如下建议。 1)开展科研元数据理论和方法论的研究。我国科研元数据研究现状还存在需求不明确,各相关主体对元数据的认识停留在元数据数据观的层面等问题。因此,借鉴连续体理论、信息复杂系统论、信息生态理论等相关理论及国际元数据构建、元数据质量管理等研究方法论,我国科研元数据应侧重开展科研元数据框架的理论和方法论等研究。 2)构建多维度可扩展的科研领域元数据框架体系。当前我国科研元数据还存在单维度(主要基于项目维度)、可扩展性不足(缺乏开放、互操作的科研元数据模型和机制研究),科技计划项目相关成果共享程度低等特点。因此,借鉴国际相关元数据框架研究,开展从信息连续体视角来构建、从全球信息治理和信息生态的立场来管理、从科技协同创新的终极目标来实施的我国科研元数据框架研究。 3)基于元数据视角提出协同创新的策略建议。在元数据视角下,我国的协同创新还缺少元数据资源的支持,协同创新政策设计中缺乏元数据的数据支撑,多方位协作和深度协同尚未形成。因此,考虑元数据在科技协同创新中的角色定位、作用,开展我国科研元数据管理层和支撑层的研究,提出协同创新的元数据相关策略建议。 收稿日期:2014-03-17国际科研领域元数据研究及其启示_元数据论文
国际科研领域元数据研究及其启示_元数据论文
下载Doc文档