大数据背景下我国科学数据共享模式研究
陈 湘
(西华大学图书馆,四川 成都 610039)
【摘 要】 科学数据是国家的一种战略资源,也是科学研究的基础和科学发展的驱动力。 本文指出大数据背景下我国科学数据共享的五种模式:大科学装置模式、开放平台模式、监测网络模式、联邦服务模式、科学数据出版模式。 此外,对这五种数据共享模式在实践中的应用进行总结。
【关键词】 科学数据;共享模式;大数据;数据开放
0 引言
随着我国科技创新投入和水平不断增强, 借助数字化、网络化和智能化技术,在物联网、大数据、移动技术、 人工智能和感知技术的支持和驱动下, 大科学装置、 大型仪器设备与大规模长期监测网络快速发展, 科学数据采集能力持续提升, 使我国积累了大量科学数据资源, 将我国科学研究推进到大数据时代,且向纵深发展。 开放科学的发展趋势和 《科学数据管理办法》的颁布,促进国内政府机构、科研机构、高校等相关机构越来越重视科学数据的共享和管理。 科学数据是国家的一种战略资源, 也是科学研究的基础,更是科学发展的驱动力。
企业财务管理工作不是单独存在的,严格完善的管理和数据准确性的提高,需要各个部门的配合,特别是要与业务部门紧密结合,以便及时的统计财务信息。“互联网+”技术的应用就为部门之间的沟通提供了便捷的渠道,数据与信息的传递可以随时借助网络来实现,缩短了以往信息传递所需的时间。
我国政府、研究机构、企业等利益相关者对科学数据共享和管理的关注始于上世纪80 年代。 我国于1984 年加入国际科技数据委员会 CODATA, 建立CODATA 中国委员会;2001 年提出“实施科学数据共享工 程, 增 强 国 家 科 技 创 新 能 力” 建 议 [1];2002 年 启 动“科学数据共享工程”,实施国家科技基础条件平台建设,召开“中国科学数据共享香山会议”;2003 年发布《国家科学技术项目科学数据汇交暂行办法(草案)》;2004 年出S 台 《2004-2010 年国家科技基础条件平台建设纲要》[2];2005 年发布 《科学数据共享工程技术标准(征求意见稿)》;2006 年发布《国家中长期科学和技术发展规划纲要(2006-2020 年)》[3];2009 年发布《国家重点基础研究发展计划资源环境领域项目数据汇交暂行办法》[4];2011 年确认23 个国家科技基础条件平台;2014 年第一届“中国科学数据大会”召开并形成年届惯例;2015 年创立我国首个科学数据出版期刊 《中国科学数据(中英文网络版)》,同年,发布《促进大数据发展行动纲要》[5];2018 年颁布 《国家科技资源共享服务平台管理办法》和《科学数据管理办法》。 从我国在科学数据共享和管理方面所出台的政策来看, 我国政府非常重视科学数据, 并在逐渐形成科学数据共享的良好体系和模式。
我国科学数据共享模式多样, 并呈现多种模式齐头并进的趋势。 这些数据共享模式在数据来源、 驱动机制、服务场景、管理、组织形态、质量绩效和共享服务等方面的特征存在各自不同的差异和特点。 本文通过文献调研、网站调查法、实证分析和典型案例法,对科学数据共享模式进行系统的整理、 分析和总结,为我国科学数据共享和管理的工作提供参考。
1 大数据环境下我国科学数据共享模式研究
1.1 大科学装置模式
大科学装置模式所代表的是一类以高度集中的大规模、 高投入精尖设备为标志、 以规模化数据生产与规范化数据开放见称的数据资源共享活动[6]。 它是以大规模投入和建设, 用于基础研究和应用基础研究的大型科学装置和设施为代表, 不断产生并捕获数据。这种模式用来支撑科技含量高、 富有探索性和创新性的持续科研活动。 截至2017 年,我国已建成并正式运行的大科学装置有16 个,在建调试装置7 个。 大科学装置模式具有科技含量高、 政策主导性强、 经费投入巨大和充足、 数据来源集中和固定、 数据的存储和管理方式规范和统一、 数据开放的形式统一、 数据开放的权利和责任明确等特点。 大科学装置按作用可分为用于科学技术前沿领域和研究方向的专用设施和设备,如LAMOST 望远镜;为多学科领域研究提供支撑的大型公共实验设施, 如稳态强磁场; 用于公益性科学研究的公益科技设施,如遥感飞机[7]。
随着大数据技术的发展和应用, 通过开放平台汇聚数据的开放服务模式越来越受到众多数据所有者的青睐。 开放平台模式具有统一的数据存储库和共享服务系统,系统具有开放性,数据能在平台中进行长期保存。此种模式的共享服务一般包括数据中心、 特色数据库、专题数据库等,将数据资源、数据服务、数据维护等集中来进行各方资源的调配。 它的数据资源管理的方式有面向普遍性数据存储和共享需求的通用数据存储库,如科学数据存储库(ScienceDB);面向特定学科领域的学科数据存储库,如组学原始数据归档系统(GSA)、地理空间数据云(GSCloud);服务于特定机构数据统一归档和共享需求的机构数据储存库,如北京大学开放研究数据平台。 它的模式运行的驱动力为多元激励机制的综合体系,与联邦服务模式的数据群形成互补。
1.2 开放平台模式
它的数据资源共享服务分为延时和即时共享两种类型。 延时共享中, 生产的数据先供项目组内科研使用, 然后组织好后通过数据分级等形式供科研组以外的科学研究人员使用, 如LAMOST 望远镜的数据共享服务。 即时共享模式中, 它产生的数据要经过标准化处理后存储进开放平台, 提供给用户使用, 如遥感飞机产生的数据。 遥感飞机是国内为数不多的高性能、高空实验平台,全国28 个省、市、自治区都有它的身影,共承担和作业了一百多项相关项目,包含城市、农业、环境、灾害等方面。 它以对国内研究机构、学校、企业、 地方政府提供数据开放和共享为原则, 实现数据资源的获取、 处理和共享, 建立了一个包括国家政府部门、科研院所、高校、企业与地方等组成的用户委员会, 根据用户的需求开展动态的运行服务, 为用户提供高性能综合对地观测信息获取和实验服务。 其中2014 年全年度遥感飞机获取数据超过30TB,可供共享数据量超过20TB。
“互联网+”背景下科技型小微企业创业行为关键影响因素研究 ……… 张 楠,斯 姣,张旭军,曹 洁(59)
ScienceDB 是一个非盈利性的在线数据库, 这个数据存储库的功能是长期和稳定的存储、 共享、 管理和使用高质量的科学数据, 是一个面向科研人员、 项目团队以及期刊或出版商等的通过提供一系列网站服务,使科研数据归档、获取、使用、认证和引用变得简单。 它的每个数据集和数据文件都将分配一个数字对象标识符, 这是一个永久唯一并且可解析的标识符,是数据引用的重要组成部分。 它涵盖生命科学、 地球科学、空间天文、材料科学、社会科学、信息科学、化学科学、物理科学等领域。
1.3 监测网络模式
监测网络模式中采集的数据既存储在中心节点服务器上, 又存储在本地服务器上, 数据通过共享服务门户网站和各分节点合作为科研人员提供服务。 监测网络一般依据具体的科研活动需要而建立, 它是一种总中心的集权管理模式, 但各分数据中心具有各自灵活的数据管理方式, 数据开放由总中心统一管理。 数据管理工作参与度高、 开放流程复杂。 它的数据采用统一的标准进行采集, 参与数据收割、 开放与服务的节点既相互联结又自成体系。 中国气象数据网、 国家海洋环境监测中心、 中国地震台网、 中国水土保持监测网、 中国林业网、 全国公路水路交通运输环境监测网、 国家生态系统观测研究网络等部门所建设的用于监测自然与人文环境时空变化所形成的数据中心集群, 皆为监测网络模式。 这种模式的典型案例就是中国气象数据网的数据共享服务。 中国气象数据网是我国科技基础平台的关键部分, 是气象云的门户应用系统, 以满足和响应科研工作者和普通群众气象数据的开放和共享需求为目的, 是我国开放的气象数据共享平台。 中国气象数据网主要从建立标准规范体系、整合科学数据资源、 建设共享平台和建设数据共享服务等四个方面进行工作。 数据服务对象, 为涵盖政府部门、 公益性用户、 商业性用户在内的各类社会团体和公众用户。 它的服务模式分在线数据服务和离线数据服务两种, 在线数据服务通常通过中国气象数据网提供在线的数据下载和服务, 离线数据服务包括电话咨询、信息咨询、专题数据产品等[8]。 数据服务包括共享目录、各类相关资料(如农气、卫星、雷达、科考等)的下载、数值预报、历史气候代用、气象灾害等。
1.4 联邦服务模式
联邦服务模式是一种非集中控制的分布式自治服务模式, 它和监测网络模式比较更为松散。 具有数据服务节点多、 数据节点参与范围更广泛, 数据源头多种多样、数据采集形式多样、数据服务松散等特点。 这些特点使得联邦服务模式有利于扩大数据的收集和开放范围, 为更广范围、 更多学科交叉的数据重用与价值增值带来可能。 它依照规范统一的元数据标准汇集各节点的元数据到总节点, 通过科学数据共享服务门户和多源科学数据的统一标准规范为科研人员提供数据服务。 这种模式的典型代表有我国政府主持建立的一些国家级或地方级的科学数据共享服务平台, 如:世界微生物数据中心(WDCM)、国际地球生物圈计划(IGBP)等。 IGBP 是超级国际科学计划,其科学目标主要在研究主导整个地球系统的相互作用的物理、 化学和生物学过程, 着重研究时间尺度约为几十年到几百年, 对人类活动最为敏感的相互作用过程和重大变化,其最终目标是提高人类对全球变化的预测能力[9]。现有49 个国家成员,若干ICSU 下属联盟和协会成员。IGBP 的主要产品有数据, 它重视数据与信息管理,同时它引导建立国际化的数据库。
1.5 科学数据出版模式
科学数据出版模式指用户按照标准统一的管理和流程,以数据论文的方式,通过Internet 公开发布其原始数据, 或通过对已有的数据进行系统化地采集、分析、 理解、 整理和再利用后形成的数据及相关数据产品, 能够使其他的科研人员更方便和快速的搜集、获取、核查、分析、处理再利用,同时科研人员通过再利用和创新, 可以在新发表和发现的科研论文和成果中引用。 它具有知识产权清晰, 可在学术出版物中正式引用,具有全球统一标识,可持久访问,可对数据引用情况进行跟踪统计和分析, 能实现全面数据质量管理, 有效保证科学数据质量, 遏制学术不端行为等特点。 它作为一种历史悠久又兼具创新的数据开放共享模式, 有利于在激励机制与数据质量控制等方面发挥作用。 我国科学数据出版平台由科学数据出版系统、增值服务系统和科学数据存储库组成, 科学数据出版系统主要进行数据论文的提交、 评审和在线出版;科学数据存储库主要进行数据的在线上传、 发布、 评论和评价;增值服务系统主要提供关联发现服务、数据推荐服务、可视化服务和分析服务。 我国科学数据出版的典型刊物有《中国科学数据》《全球变化科学研究数据出版系统》《GigaScience》。 《中国科学 数 据》(China Scientific Data) 是2015 年 我 国 专 门 面 向多学科领域科学数据出版创立的学术期刊, 获批国内统一连续出版号码:CN11-6035/N,该刊致力于科学数据的开发、交流和引用,推荐科学数据的长期保存和数据资产管理、探索科学数据工作的有效评价机制,推动科学数据的发展[10]。《中国科学数据》主要关注数据的复用价值、数据生产方法、数据对相关研究结论的支持性、数据的质量和加工处理,其重点研究领域包括生命科学、空间天文、化学工程、材料科学、信息科学、社会科学等。
2 结语
我国科学数据资源丰富, 科学数据共享和管理也得到政府的高度重视和支持,科学数据共享模式多种多样,各模式齐头并进发展。 将科学数据共享模式加以区分是为了科学数据能够更好地被存储、分析、共享、应用和在利用。 在实践过程中,科学数据共享的模式并不是单一的,经常存在着交叉重叠现象,在实际数据共享的操作中要根据数据源头、驱动机制、服务场景、组织形态、质量绩效、科研活动的具体开展情况选择合适的科学数据共享模式,同时,在政府的推动和广大科研人员的共同努力下,科学数据共享模式将不断地完善,相互补充,推动我国科学数据开放共享工作。
新型城镇化视角下产城融合发展水平及影响因素研究——以新疆为例……………………………………………………………………李豫新,郑李昂,等(6):27
【参考文献】
[1]张丽丽,温亮明,石蕾,郑晓欢,黎建辉.国内外科学数据管理与开放共享的最新进展 [J]. 中国科学院院刊,2018,33(08):774-782.
[2]2004-2010 年国家科技基础条件平台建设纲要[EB/OL].[2019-5-31].http://www.most.gov.cn/tjcw/tczcwj/200708/t200 70813_52389.htm.
[3] 国家中长期科学和技术发展规划纲要 (2006-2020 年)[EB/OL].[2019-5-31].https://www.mfa.gov.cn/ce/cekor/chn/kjjl/kjzc/t802179.htm.
[4] 关于开展国家重点基础研究发展计划资源环境领域项目数据汇交工作的通知 [EB/OL].[2019-5-31].http://www.most.gov.cn/mostinfo/xinxifenlei/fgzc/gfxwj/gfxwj2009/200912/t20091221_74795.htm.
[5]促进大数据发展行动纲要[EB/OL].[2019-5-31].http://www.zyczs.gov.cn/html/nysczl/2018/9/1536891477862.html.
[6]国家科技基础条件平台中心.2017 国家科学数据资源发展报告[M].北京:科学技术出版社,2018.
[7]陈套,冯锋.大科学装置集群效应及管理启示[J].西北工业大学学报(社会科学版),2015,35(01):61-66.
[8]司莉,王雨娃.我国科学数据共享平台数据组织的现状及改进建议——基于国家科技基础条件平台的分析[J].图书馆建设,2018(10):52-58.
[9]蔡运龙,李双成,方修琦.自然地理学研究前沿[J].地理学报,2009,64(11):1363-1374.
[10] 张 丽 丽, 黎 建 辉. 科 研 数 据 的 开 放: 进 展、 模 式 与 新 探索[J].大数据,2016,2(06):25-33.
Research on China’s Scientific Data Sharing Model under the Background of Big Data
CHEN Xiang
(Library,Xihua University,Chengdu Sichuan 610039,China)
【Abstract】 Scientific data is a strategic resource of the country and the foundation of scientific research and the driving force for scientific development. This paper points out five models of scientific data sharing in China under the background of big data: large scientific device model, open platform model, monitoring network model, federal service model, and scientific data publishing model. In addition, the application of these five data sharing modes in practice is summarized.
【Key words】 Scientific Data; Sharing mode; Big Data; Open data
中图分类号: G352
文献标识码: A
文章编号: 2095-2457(2019)17-0204-002
DOI: 10.19694/j.cnki.issn2095-2457.2019.17.096
作者简介: 陈湘(1988—),女,硕士,西华大学图书馆,助理馆员,研究方向为科学数据管理,数据分析。