摘要:近年来,随着越来越多的大型科学仪器的建设和重大科学实验的发展,科学研究进入了前所未有的大数据时代。大数据时代的科学研究是一门科学性强、需求量大、数据量大、计算量大、发现过程大、研究开发大的数据,支持全生命周期的数据管理系统具有重要意义。本文分析了R&D科学大数据管理系统的产生背景,阐述了科学数据的概念和三个特点。通过对科学数据资源的开发和科学数据管理系统的研究分析,提出了全生命周期管理的科学数据分析的关键技术在科学数据管理系统从五个方面:数据融合,实时数据分析,长期存储,云服务的系统和数据的开放共享机制。最后,展望了科学数据管理系统在科学研究领域的应用前景。
关键词:科学数据;大数据;数据流水线;
数据全生命周期的大型测量望远镜,大型粒子加速器,高通量基因测序和其他来源继续产生大量的科学数据,使得全球科技创新为科学数据前所未有的时代。科学数据已成为新战略资源的科学发现,一个国家的科学研究水平将直接取决于它在科学数据上的优势和将数据转化为知识的能力。大规模科学数据管理和科学数据的应用,往往需要突破,今天所有的数据管理系统的限制,实现高效科学的知识发现,它已经成为科学和数据管理工作领域共同解决“问题”。总之,在科学数据的管理存在的主要问题和挑战包括:1)大型关系型数据管理。比如天文数据中心领域千亿甚至万亿线天文海图数据管理。2)多源数据关联和知识发现。如全球开放的生物资源、文献、序列和疾病等10000种数据源100亿种相关数据的知识发现,需要6多个相关的挖掘。3)实时高效的数据处理。对于引力波的发现,16兆赫采样频率为10个000通道数据需要几乎零延迟的数据处理。
1 科学大数据概念与特性
1.1 科学大数据概念
科学数据是科研活动的输入、输出和资产.但究竟“什么是科学数据?”,如何给“科学数据”一个确切的定义?迄今为止,还在困扰着学术界.学者在其最近出版的著作《大数据,小数据,没数据》中,列举了学术界对数据各种不同的认识和理解,“在自然科学、社会科学和人文科学领域,学者们创造、使用、分析和解释数据,但往往不知道这些数据的真正含义.”
1.2 科学大数据的特征
相较于其他类型的大数据,科学大数据除了具有明显的“4V”特征之外,还具有多层次逐级演化、全生命周期以及流水线处理和应用等特征
2 发展现状
科学数据已成为科学发现新的战略资源,为了抢占科技竞争的最高点,世界各国纷纷将科学数据纳入国家战略,并开始注重部署。美国国家卫生研究院(CDI)推出“大数据的知识”(bd2k)和总投资6亿5600万美元,在2013个程序。欧盟“地平线2020”计划[ 8 ]列出了关键科学科学数据和基础设施作为关键支持领域。欧盟宣布将投资65亿欧元建设“欧洲开放科学云”,重点支持大型数据驱动的科学发现。在中国的“行动计划,促进大数据发展”,第一次提出了科学数据首次为国家战略层面,并明确提出了“发展战略目标的科学数据”。
期刊文章分类查询,尽在期刊图书馆中国科学院在“十三•五”信息技术发展规划中,也明确提出实施科学的数据工程,全面提升大数据驱动的技术创新能力。
3 全域科学大数据管理系统框架
科学数据管理的目的是最大限度地提高速度和科学发现的能力,所以管理必须与科学发现的过程集成,实现科学数据的采集、存储、分析和处理、分布和关联整合、归档和其他全球管理,支持数据需求的快速流动,对支持各种类型的科学数据管道的动态集成与调度。此外,科学数据类型的多样性、应用需求的多样性和计算框架的多样性都应充分考虑,从而使系统能够按需扩展和动态地在开放体系结构中演进。主要内容包括:科学数据平台、科学数据采集与聚合框架、科学数据管理与分析引擎、科学的大数据管道管理与调度系统、科学数据应用环境。科学的数据收集和聚合框架是一个可扩展的、高度的容错性、高通量的科学大数据采集框架,实现科学设备,实验观测站网和其他科学数据的统一访问,同时提供了灵活的数据转换功能,包括吗啡转换、定期转换,和模板转换。针对不同领域科学数据采集的不同需求,我们提供了天文图像数据采集、实验观测数据采集和台站网络观测数据采集等个性化数据采集软件。
4 关键技术
针对大型科学数据的管理要求和特点,总结了科学数据的关键技术:科学数据集成、实时分析、长期存储、云服务技术、开放共享机制。
4.1 科学大数据实时分析
科学领域已进入一个信息丰富的大数据时代,数据量正以TB级甚至PB级的速度增长.科学大数据的分析正在从传统的批量处理向实时分析快速发展。
4.2 科学大数据长期存储
现代科学数据需要产生数亿美元的数据,通常积累数年到十年的数据,如何有效地保存和使用数据是科学数据面临的一个重大问题。大数据时代的数据生成速度更快,导致更大数量的长期存储这些数据,并提供有效的处理,或如何决定哪些数据,以消除哪些数据已成为当务之急。
5 总结和展望
大数据时代的科学研究是一门大科学、大需求、大数据、大计算、大发现的过程。数据密集型科学发现已成为科学研究的第四大范式,它与实验科学、理论推导和计算机模拟相补充。先进的科学数据管理和处理技术为各学科的新发现提供了坚实的技术基础,可以加速具有国际影响的科技成果的产出过程,具有重要的科学价值。然而,为了更好地促进科学研究,科学数据的管理也有很大的技术挑战,包括EB级文件的效率高、成本低的关系数据线数以亿计,集成的存储和管理,科学数据的快速索引以支持大规模的、交互式查询和处理;质量和多源多学科的数据自动关联和融合;实时或准实时具有时效性的分析瞬时质量数据;如何实现快速集成和并行处理海量的数据资源和科学模型。
参考文献
[1]王钦,蒋怀光,文福拴,梅天华. 智能电网中大数据的概念、技术与挑战[J]. 电力建设,2016,(12):1-10.
[2]郭长亮. 探析大数据技术对财务管理的机遇与挑战[J]. 财经界(学术版),2016,(09):186+188.
[3]赵苏阳,李艳军,钱小燕,曹愈远,许振腾,乔磊,汪雷. 大数据基本概念、技术与挑战[J]. 现代计算机(专业版),2015,(08):51-54+60.
论文作者:张超宇
论文发表刊物:《电力设备》2017年第19期
论文发表时间:2017/11/22
标签:数据论文; 科学论文; 管理系统论文; 发现论文; 数据管理论文; 数据采集论文; 实时论文; 《电力设备》2017年第19期论文;