地学数据共享发展现状、问题与对策研究,本文主要内容关键词为:地学论文,发展现状论文,对策研究论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:TP391.7 文献标识码:A DOI:10.3772/j.issn.1674-1544.2014.04.010 1 引言 现代地球科学(简称“地学”)研究正朝向“地球系统科学”的综合集成研究发展,其研究对象是复杂的非线性巨系统,更加强调圈层间的相互作用、学科间的交叉集成[1-3]。“未来地球计划”指出:全球变化研究及风险解决方案的设计,不但要靠自然科学,更需要社会科学,在全球可持续发展的框架下,由各个利益相关者共同协商、设计[4]。 因此,现代地学研究是典型的数据密集型研究,其关键和基础是根据地球系统研究中最重要的科学问题和切实可行的测量能力,获取关键变量的精确数据[5]。现代地学研究,比如全球环境变化研究,不仅需要长时空序列的基础数据,而且需要全球范围的集成性综合数据产品的支持[6]。 随着全球导航定位、遥感遥测技术、深部探测技术、物联网、互联网络等的发展,人类获取地球科学数据的能力得到了极大的提升。全球陆地观测系统(GTOS)、全球气候观测系统(GCOS)、全球海洋观测系统(GOOS)、全球地震监测网(GSN)、全球气溶胶监测网络(AERONET)、全球大气观测网络(GAW)等,为地球科学研究建立起了立体式的全球监测网络。特别是,随着智能手机、Web2.0、微博、微信等的兴起,以用户为核心的数据采集方式得到快速的发展。一个新的地理信息时代已经到来,人人都是传感器、志愿者,地理信息的使用者和贡献者[7-8]。相对于全球观测数据和社交网络数据的开放、共享,科学研究产生的数据共享情况并不理想。据《科学》2011年的调查显示:曾经向同事要过已发表论文的相关数据的科研人员占96.3%,但只有76.4%的科研人员从同事处得到了数据;当问到有足够的经费支持实验室或研究团队进行数据长期保管时,只有8.8%的科研人员回答足够,10.9%回答有但不足,而80.3%则回答没有经费支持[9]。由此可见,现代地学研究首先必须要解决数据共享的问题。实际上,建设全球变化与地球系统研究的数据、信息系统,推动区域和全球数据共享几乎都是各国际科学团体的一项重要任务[5],并且逐渐向集成数据、模型、计算等科技资源一体化共享的科研信息化环境发展[10]。 本文在总结国内外地学数据共享发展现状的基础上,剖析当前地学数据共享存在的主要问题,并研究相应的发展对策。 2 地学数据国内外共享现状 地学数据是与地球参考空间(二维或三维)位置有关的、表达与地理客观世界中各种实体和过程状态属性的数据,具有来源多样、分散异构和多种尺度的特征[11]。地学数据共享问题已经引起国内外学术界、政府部门、国际组织等的广泛关注,在一系列国际计划、国家行动、学术组织等的推动下,建立了各类数据中心和共享系统。 国际科学联合会(International Council for Science,ICSU)于1957年成立的世界数据中心(World Data Center,WDC),经过50多年的发展在全球建立了51个数据中心,分布在美国、欧洲、中国、日本和印度等国家和地区。2008年在第29届ICSU大会上WDC正式发展变革为世界数据系统(World Data System,WDS),进一步强调WDS向国际科学联合体和其他利益相关者提供长期的数据访问和数据服务,鼓励各国加强数据和信息工作,把专业的数据服务作为一项国家级的长期科学基础设施来重视和支持[12-13]。为了进一步促进全球地球观测数据的共享,2005年地球观测组织(Group on Earth Observations,GEO)成立,其目标是制定和实施全球地球综合观测系统(Global Earth Observation System of Systems,GEOSS)。目前,GEO已经有87个成员国和欧盟及61个参加组织[14]。国际山地中心作为兴都库什-喜马拉雅区域国际组织,自2006年开始积极推动该区域的山地空间数据共享,主持创建了兴都库什-喜马拉雅地区空间信息共享网络[15]。 美国国家航空航天局(NASA)20世纪80年代起就建立了分布式在线数据存档中心和地球观测系统数据信息系统(Earth Observing System Data and Information System,EOSDIS),负责地球观测系统数据的处理、再加工、保存管理和分发服务等[16]。同时构建了全球变化主目录(Global Change Master Directory,GCMD)[17],提供世界范围与全球变化研究相关的数据、服务和辅助(观测平台、仪器设备、项目、数据中心等)信息元数据描述,目前已经拥有2.9万个地球科学数据和服务的描述信息(http://gcmd.gsfc.nasa.gov/learn/index.html)。 为了促进地理空间数据的共享,20世纪90年代初,美国开始推动国家空间数据基础设施(National Spatial Data Infrastructure,NSDI)的建设,作为NSDI重要的组成部分和电子政务项目之一,2003年开始建立了地理空间一站式共享网络(Geodata.gov)[18],后并入美国开放政府数据网站(Data.gov)[19]。2001年开始欧盟启动了欧洲地理空间基础设施(Infrastructure for Spatial Information in Europe,INSPIRE)建设[20]。加拿大、澳大利亚、英国、荷兰、智利、南非、印度等国家都建立了国家空间数据基础设施或数据仓库[21-23]。 国内,20世纪80年代开始中国科学院主持建设中国科学院科学数据库[24]。1997年成立国家地理空间信息协调委员会,开始推动国家空间信息基础设施的建设[25]。1999年,科技部在科技基础性工作和社会公益性研究专项中,启动了科技基础数据库建设。2002年科技部启动了科学数据共享工程,资源环境、农业、人口与健康、基础与前沿等领域24个部门开展了科学数据共享,包括气象、测绘、地震、水文水资源、农业、林业、海洋、国土资源、地质与矿产、对地观测等行业领域国家科学数据共享中心和地球系统、人口健康、基础科学、先进制造与自动化科学、能源和交通等学科领域的科学数据共享网[26]。2005年开始科学数据共享纳入国家科技基础条件平台。6大类43个科技资源共享平台得到了支撑,包括研究实验基础和大型科学仪器设备共享平台、自然科技资源共享平台、科学数据共享平台、科技文献共享平台、科技成果转化公共服务平台和网络科技环境平台[27-28]。2011年11月,首批23家国家科技平台通过科技部和财政部的认定,正式进入运行服务阶段。首批通过认定的科学数据共享平台包括地球系统科学数据共享平台、气象科学数据共享中心、地震科学数据共享中心、农业科学数据共享中心、林业科学数据平台和人口与健康科学数据共享平台(http://www.most.gov.cn/tztg/201111/t20111115_90870.htm)。据统计,目前在中国境内运行有实质性数据内容的有84个公益性科学数据资源共享网站[29]。 3 地学数据共享存在问题分析 在国际组织、各个国家政府部门等的推动下,地学数据共享得到了极大的发展,在支撑地学科技创新和经济社会发展决策中发挥了显著的作用。然而,地学数据共享离“完全开放”的要求、离地学研究者实际的需求,还有很大的差距,这其中有机制、数据、软件技术[30-32]等各方面的问题。 3.1 数据共享机制问题 科学数据共享包含5个基本要素:数据资源、共享技术、组织管理、共享规则和发展需求,他们之间存在着相互依赖和相互促进的关系(图1)[33]。 在组织管理要素上,当前科学数据共享主要采用“自上而下”的模式来开展数据共享[34],即主要是依靠国家政府部门的投资,通过建立国家级或部门级平台,依靠平台参建单位来整合集成数据资源或者规定国家投资的科研项目必须进行科学数据的汇交,如当前国家科技基础条件平台数据资源的整合模式、科技部“973计划”资源环境领域项目数据汇交[35],美国国立卫生研究院(National Institutes of Health,NIH)资助的项目数据共享[36]等。尽管国家级或部门级平台也有开放的数据汇交功能,但从现有平台实际执行情况来分析,作为科学数据产生的核心群体“科学家个人用户”很少主动共享科学数据。科学家个人用户是科学数据“一线”使用者和生产者,忽视科学家个人用户的“自上而下”的组织管理模式不利于科学数据共享,难以满足现代数据密集型地学研究的需求。 图1 地学数据共享要素之间的关系 3.2 数据发现问题 尽管国内外已经有很多的数据共享系统(网站),但是对用户来说数据发现仍然是一个大问题。主要的原因:一是各大数据共享系统之间缺乏互操作,越来越多的数据共享网站慢慢又形成新的更大的孤岛。用户有时需要到不同的网站去查找数据。尽管可以利用OAI-PMH(Open Archives Initiative Protocol for Metadata Harvesting,http://www.openarchives.org/OAI/2.0/openar/chivesprotocol.htm)、CSW(Catalog Service for Web,http://www.opengeospatial.org/standards/cat)、Z39.50(Information Retrieval Application Service Definition and Protocol Specification,http://www.loc.gov/z3950/agency/Z39-50-2003.pdf)和ZING(Z39.50 International Next Generation)等实现元数据、数据目录和数据库等不同层面的互操作,但这些标准在现行的地学数据共享系统并没有得到普遍的应用。二是由于大部分的数据共享系统采用基于关键词匹配的方式搜索数据,缺乏基于语义及语义推理的数据检索,数据查不全、查不准的问题普遍存在。 3.3 数据共享质量问题 数据共享质量包括两个层面:一是网络共享服务的质量,二是数据本身的质量。网络共享服务质量主要指数据描述信息的质量及数据的可获取性及获取的便捷性;数据本身质量主要指数据的科学性、可靠性和时效性。数据描述信息通常利用元数据(对数据资源标识、内容、时空范围、质量等的描述)和数据文档(对数据资源要素字段、产生方式、方法及使用要求等的详细描述)表达,前者的质量直接关系数据搜索的精度以及用户对数据是否符合要求的判断;后者的质量直接关系到用户能否正确使用数据资源。 由于缺乏元数据著录规则或著录不认真等原因,现有数据共享系统中的元数据质量并不理想,如,很多地理空间数据都缺乏时空范围、数学基准等描述项。甚至从元数据标准源头上,为了兼容不同类型或学科的数据资源,很多共享系统元数据标准本身就缺乏时空范围、粒度等元数据项。数据文档缺乏或质量不高(对数据字段要素单位、值域代码、数据来源、处理方法、精度验证等缺乏清晰的说明),导致用户无法正确使用数据的情况时有发生。 除了元数据和数据文档质量外,数据的可获取性和获取的便捷性也是比较大的问题。大部分的数据共享网站都是以在线和离线相结合的模式对外提供服务的。在线服务中有相当一部分的数据是通过导航链接的形式,用户需要逐级导航到目标数据页面中,有时到了目标数据页面后,却发现描述的数据已经不在或不能访问;离线服务需要填写各类申请表甚至要求盖章签字,大大影响了数据获取的便捷性。用户获取到数据后,数据本身的质量非常关键。目前,用户反映最多的问题,还是共享数据的时效性、精度和粒度等难以满足个性化的需求。 3.4 动态数据共享问题 目前的数据共享大多是静态的模式,即数据提供者将已经完成好的数据产品发布到网站上,供用户直接共享访问。当用户想要的数据只是共享数据的一部分,或需要另外一种数据格式、投影方式,以及希望得到基于共享数据再计算的数据产品时,静态数据共享模式还是需要把共享数据先下载下来,然后再进行离线处理,这极大地影响了数据共享的效率和水平,急需通过在线模型计算和工具软件,实现动态的数据共享。 4 地学数据共享发展对策 针对上述数据共享机制、数据发现、数据共享质量、动态数据共享4类问题,结合当前信息技术的最新的发展,本文提出如下地学数据共享发展对策。 4.1 志愿数据共享与数据出版 解决目前地学数据共享机制问题的核心是保障数据贡献者的权益,激励他们志愿将自己的数据共享出来。数据贡献者的权益包括:知识产权、知情权、决策权。知识产权是指数据贡献者拥有自己生产的数据产品的发表权、署名权、保护作品完整权、修改权、复制权、网络传播权等。任何数据共享中心或系统必须取得数据产品作者授权后才能对其进行网络传播、复制、修改等;知情权即数据贡献者有权利知道自己数据的被使用情况;决策权即数据贡献者有权利决定数据是否提供给用户。 在保护数据贡献者权益的基础上,还要研究激励机制吸引数据拥有者共享数据。对于公益性数据共享,主要的措施:一是通过积分的形式,用户贡献的数据越多共享到别人的数据越多。如国内数据堂网站(http://www.datatang.com)数据提供者发布数据时可以对数据标“积分”,当该数据被用户下载时数据提供者将获得对应的“积分”;国家科技报告服务系统(http://www.nstrs.cn)规定按照呈交科技报告页数的15倍向经反馈确认的科技报告第一作者赠送原文推送服务“阅点”。二是推进数据标识、出版、引用机制。利用数字对象唯一标识符(Digital Object Identifier,DOI)对科学数据进行全球唯一标识,将数据集生产方法和内容撰写成数据论文进行出版,推动数据用户对数据集及数据论文的引用,建立数据引用指数,将数据利用或被引用情况作为对数据集评价的重要指标,给予数据提供者应有的声誉。 科学数据标识、出版和引用正在引起学术界的高度重视,国内外相关研究机构做了一系列探索性的研究和实践。如:德国科学基金会在2003年至2005年资助了科学数据出版和引用项目,利用DOI作为科学数据的唯一标识,通过该标识再链接到实际存储或保存数据资源的有效URL,这使得联机出版的科学数据的引用成为可能[37]。很多国际期刊要求作者在文章正式发表前将相关数据公开,如Nature、Science、Plos Biology等。全球生物多样信息设施(Global Biodiversity Information Facility,GBIF)提出了数据利用指标(Data Usage Index,DUI);汤森路透(Thomson Reuters)公司推出了数据引用指标(Data Citation Index,DCI)旨在将科学数据也纳入到学术成果评价体系中[38];国内中科院地理科学与资源研究所正在推动的全球变化科学数据注册与出版系统(http://www.geodoi.ac.cn);中科院寒区旱区环境与工程研究所开展的地学数据DOI注册与引用等[39-40]。 只有切实保护好数据贡献者的权益,给予数据提供者应有的地位,才能真正激励和推动科学家群体真正主动共享自己的科学数据,达到“志愿共享”的局面,实现“每个科研人员既是科学数据的使用者,又是科学数据的提供者”。 4.2 基于语义的智能数据发现与数据关联 基于前面的分析,数据发现存在两个层面的问题:一是不同数据共享系统间的孤岛问题,二是同一数据共享系统内数据查不全、查不准的问题。前者需要我们不断完善元数据互操作协议,使之简单化并且能够兼容各类元数据标准。各大数据共享系统遵循统一的元数据互操作协议,开放元数据发现和权限认证接口,进而建立泛在的网络元数据发现和认证联盟。后者需要引入语义本体和数据关联等技术,建立基于语义推理的数据发现和相关度排序体系,进而实现地学数据的智能发现。 语义本体自20世纪90年代提出后,就受到国内外学者的广泛关注。本体在地学数据搜索、发现中的研究也层出不穷,如本体支持的时空数据查询方法、智能化空间信息服务发现、地理空间实体类型语义相似度计算研究[41-44]等。尽管如此,语义本体在地学数据共享系统中的成功应用并不多,主要原因是缺乏可用的地学科学数据本体库。 关联数据(Linked Data)通过明确的语义表达,使得不同领域、来源和结构的数据可以相互链接,从而促进数据的查找、集成与利用,为构建一个富含语义、人机都可理解的、互连互通的全球数据网络奠定基础。关联数据自2006年提出后,迅速在美国、英国等发达国家政府、科技界和工业界受到广泛关注[45-48]:2007年W3C启动了链接开放数据项目(Linking Open Data,LOD),美国政府、英国政府采用关联数据技术将政府开放数据转换为关联数据,英国广播公司(BBC)、纽约时报、路透社、百思买等,也纷纷采用关联数据发布多媒体、新闻等数据。国内关联数据研究刚刚起步,而且大多数的研究集中在文献情报领域[49-52],仅有沈志宏等利用关联数据在科学数据库中开展了应用研究[53],基本没有构建大规模的关联数据。 因此,构建地学科学数据本体,发展地学数据自动关联算法,建立数据与数据之间,数据与文献甚至是标准规范、仪器设备、模型工具之间的关联,切实支撑基于语义的地学科学数据智能发现、优化排序和数据关联推荐将是下一步地学数据共享发展的重点。 4.3 完全开放的高质量数据共享 数据本身的质量受制于数据提供者,从共享的角度,无法改变原有数据的质量,但可以从数据源选择、共享数据质量评审、检查等角度提高共享数据的质量。通过数据质量评级标识和数据使用者反馈,辅助用户直观地了解数据的质量。同时,严格元数据和数据文档的规范化填写,如:数据集名称一般应包含空间、时间和数据主题内容三要素(如中国2010年土地利用数据集),关键词应不少于3个,地理空间数据的元数据必须包含时间范围、空间范围以及空间基准、空间精度(比例尺或分辨率);数据文档中必须对数据集的内容字段及其数值单位、数值代码类型、数据来源、生产方法、质量控制措施、数据使用环境、使用限制、数据的产权信息及引用方式等进行详尽说明,全面提升元数据和数据文档的质量,提高元数据检索的精度,辅助用户正确使用共享数据。 尤为重要的是要坚持“完全、开放”的数据共享理念,简化数据获取流程,尽量提供便捷的在线数据获取,对数据服务方式进行明确的标识(用醒目的符号提示用户哪些数据是可以自由下载的,哪些需要认证后才能访问,哪些是离线申请的数据等),避免用户多次链接后还是访问不到具体的数据。对于离线数据要说明离线的原因、申请要求以及详细的联系方式,保证用户按照离线要求能够获取到数据。 因此,完全、开放、高质量的数据共享应该是当前地学数据共享系统努力发展的方向。 4.4 在线软件工具与计算模型共享 克服静态数据共享模式缺陷的方法,就是提供在线的数据浏览、处理、转换、裁剪、计算的模型工具,通过这些模型工具,实现数据格式、投影方式的在线转换,在线数据剪切及动态数据产品计算等,直接提供用户想要的数据产品,而不是原始的数据文件。为了保障在线处理、计算的高效性,还需要有强大计算能力的支持。 吉姆·格雷提出的现代第四科研范式——数据密集型科研就是利用海量科学数据,通过挖掘分析、模拟预测等方法发现、寻找科学数据背后隐含的科学规律和问题[54]。因此,更多、更强大的数据处理转换、挖掘分析、模拟计算工具软件的研发是第四科研范式发展的必然要求。提供在线的数据处理、转换、分析工具也是国际数据共享系统发展的一个重要方向。如:美国全球变化主目录(GCMD)除了数据目录外,还提供海量数据在线处理、分析与可视化的工具软件。全球变化研究信息化基础设施或科研信息化环境强调的也是为科研人员提供一个集数据、模型、计算的一体化共享、协同研究的环境[55]。 由此可见,在提供数据共享的同时,提供方便用户使用的在线数据处理转换、计算分析工具甚至是“数据-模型-计算”的一体化共享是数据共享系统未来发展的重要方向。 5 结语 进入21世纪以来,地学数据共享得到了飞速的发展,但在共享机制、数据发现、共享质量、共享效率等方面存在问题。针对这些问题,本文基于国家地球系统科学数据共享平台(www.geodata.cn)、地学科研信息化环境(www.geoscience.cn)、全球变化科学数据注册与出版系统的研究与实践(www.geodoi.ac.cn),提出了以下4点发展对策。 (1)保障数据贡献者的知识产权、知情权、决策权,实施数据贡献利益反馈和数据标识、出版与引用评价等激励机制,最终促成“志愿数据共享”的局面,真正实现“每个科研人员既是科学数据使用者又是科学数据提供者”的氛围。 (2)通过简单易用的元数据互操作协议,开放数据共享接口,构建全球数据共享系统互操作联盟。从科学数据内涵出发,建设地学科学数据本体库,发展基于语义的地学科学数据智能发现、优化排序和关联数据推荐,全面提升地学数据发现的能力。 (3)进一步优化和规范元数据、数据文档的编著,对影响数据资源发现及使用的核心特征进行详尽的描述。加强共享数据质量评审、评级,坚持“完全、开放”的数据共享理念,简化数据获取流程,尽量提供便捷的在线数据获取。保障用户不仅能够发现、获取数据,也能够准确使用数据。 (4)围绕数据密集型科研的发展需求,在数据共享的基础上,需要进一步提供更多的数据在线转换处理、计算分析工具软件,发展“数据-模型-计算”的一体化共享,为跨区域、跨学科的现代地学协同研究提供更加全面的支撑。标签:元数据论文; 科技论文; 科学论文; 大数据论文; 空间数据论文; 用户研究论文; 语义分析论文; 开放平台论文; 地球环境论文; 地球质量论文; 计算科学论文;