浙江省第一测绘院 浙江杭州 311100
摘要:随着科学技术的不断发展,对海洋测绘的手段需要不断改变,传统的技术不再适应现在的需要,同时海洋环境越来越复杂化就使得传统的采集数据模式和存储空间能力都不符合现阶段的发展,最为重要的是其处理技术很难达到测绘数据的要求;其中,用Hadoop作为例子,其大数据技术是目前解决海洋测绘问题较好的技术,但是其数据的准确仍有待提升,需要不断创新海洋测绘技术
关键词:海洋;测绘;数据分析
当我们对海洋资源进行开发的时候,需要及时根据测绘出来的海洋环境变化情况进行记录,详细记录细节可以有效帮助采集海洋测绘数据对其进行存储以及后期处理工作。当前我国致力于建立一个全方位立体化的精准海洋测绘系统,以海洋测绘数据达到到PB级别为目标,突破传统的GB模式。
1大数据技术在海洋测绘中的应用
现阶段应用最为广泛同时比较成熟的大数据技术就是Hadoop,此外还有Hbase、Hive等一些技术[1]。Hadoop是一个分布计算的平台,主要是HDFS文件系统和MapReduce计算框架这两个部分;首先,HDFS是一个并行的文件系统,其拥有较高的扩展性、容错性也达到一定高度,可以用于测量中。同时可以把众多低廉的机器进行重新组织作为一个分布式的系统,用来储存数据以及对海量数据进行管理。但是因其是一个分布式的文件系统所以极其容易扩展,对海量海洋测绘数据的存储也不需要把数据都存放在一整个集中式的服务器上,而是可以对其进行分散保存,置于不同的节点上。HDFS的主要优势就是用来保存海量数据的,所以通常用来处理TB或者是PB级别的数据。MapReduce这个并行计算模型是Hadoop的核心部件,一般情况下利用计算机自身拥有的运算处理能力来解决一些复杂的技术操作。HBase是一个分布式NoSQL数据库,它和传统建立的关系型数据库有一些不同之处就是,HBase在设计的开始就以可以处理大量数据为目标。处理数据的能力最大限度可以高达10亿行;HBase进行海量数据的存储时需要与HDFS文件系统相结合才可以。HBase中的数据展现出来的是稀疏的、多维度的映射表,并且它的行关键字以及列关键字是充当索引的工具,所有的数据模式都是字符串类型。Hive是根据HDFS文件系统的数据进行仓库框架补充,其主要的配备和功能就是:ETL工具、数据存储管理系统以及关于大型数据集查询等;查询系统主要是利用类似SQL的HiveQL完成的。Hive可以提供命令行及图形界面这两种不同的用户接口。
2海洋测绘数据的主要特点
进行海洋测绘时需要考虑多种情况。因为海洋测绘数据的信息繁多,不但要考虑水温、盐的成分多少以及深度等基本水文的信息,也要考虑地理信息、生物信息以及遥感信息等。所有的不同因素的数据都各有特点,当处理这些信息的时候需要注意它们的处理需求和存储格式[2]。对海量的海洋测绘数据进行系统的分析后可以得出海洋测绘数据的特点有几方面:(1)海量。对海洋测绘的过程会有许多的监测点,它们收集到的数据结构十分复杂,并且处在动态变化的过程中,这就使得测绘的数据值会处在增长的状态,所以当出现这样的情况仅仅使用本地存储是不能满足海量数据的存储的要求。(2)数据采集及模型存在差异。测绘的结构不同就会使得测绘数据的记录格式随之变化,存储结构也随之不同,造成测绘数据在进行存储时并没有一个统一的数据结构标准。需要根据海洋测绘数据的实际特点保证存储的准确、处理数据的高效性和安全性;其中,最重要的就是考虑海洋测绘数据是否稳定。海洋测绘数据的应用很多,例如海底地貌测绘数据、航空遥感数据以及海岸线测量数据等,不同应用测试出的数据格式也是各有特色的,当然就需要对这些有差异的数据进行再次加工处理,形成一个规范统一的矢量数字海图、航空摄影正射数字影像等。
3海洋测绘数据的存储模式
当我们收集到测绘数据以后,首先会自动保存到本地,接着通过Hadoop提供的结果上传到HDFS文件系统中。每部分的测绘点都要用client模式把收集到的测绘数据在HDFS上进行整理,并且用透明的结果显示上传成功的数据的组织形式,也就是HDFS分布模式的文件系统会相应地与本地存储中的一个位置相配合,测绘数据就会不停把信息存储到固定的位置,然后在统一的时间一起上传到HDFS,客户很少会关注测绘数据是存储在本地存储还是HDFS文件系统[3]。海洋测绘数据上传到HDFS的过程如图1所示:
4海洋测绘数据的管理
海洋测绘数据信息会留在HDFS文件系统中,需要的时候就从海量存储的海洋测绘数据中搜索我们需要的数据信息。海洋测绘中的管理层主要是在海洋测绘数据结构系统与客户系统的交互界面处,客户可以利用管理层查找自己需要的海洋测绘数据信息[4]。通常情况下,计算层会对数据进行计算以及分析结果,客户查找的数据值就是从这里开始的。存储层利用HDFS文件系统存储海洋测绘数据结构的相关文件,并且可以根据文件的实际情况进行自动备份处理。通常在进行数据的分析之前,我们在HDFS分布式的文件系统中几乎是找不到与之相关的文件,需要自动把数据上传到HDFS中,然后根据需要的情况对数据产生的内部文件和结果文件进行处理所随后需要保存在HDFS文件系统中,如果要访问本地文件系统需要把它下载到本地文件中进行访问[5]。其中Hadoop的客户在进行海量海洋测绘数据的处理时占有一定的优势:第一,它不需要一定运行在那些成本高的机器中,也十分方便扩展数据;第二,Hadoop系统具备自动检测故障的部位并且及时恢复的功能。Hbase的数据库中数据大多是类似字符串的形式存在的,所以海量海洋测绘数据向HBase中拷贝时不需要考虑区分不同数据的类型。
5 结语
综上所述,大数据测量技术的最大优势就是可以并行存储数据、分布式计算,这样可以更为有效地解决海洋测绘数据的问题,大数据技术在海洋测绘中的应用提高了计算的速度,同时提高了海洋测绘的数据储存的能力以及管理水平。
参考文献
[1]张兴旺,李晨晖,秦晓珠.云计算环境下大规模数据处理的研究与初步实现[J].现代图书情报技术,2017,5(22):3.
[2]谢长波.基于Hadoop遥感影像存储与管理系统的设计与实现[D].昆明理工大学,2016.
[3]刘子栋.面向海洋观测与模式数据的客户端软件设计与实现[D].中国海洋大学,2016.
[4]刁永洲.基于大数据技术的海洋测绘数据分析与研究[J].科技世界,2017.
[5] Wang D,Xiao L.Storage and Query of Condition Monitoring Data in Smart:Grid Based on Hadoop[A],Computational and Information Sciences(ICCIS),2016 Fourth International Conference on.IEEE[C],2016:211 - 230.
论文作者:屠伦铭,蘧振超
论文发表刊物:《建筑学研究前沿》2018年第25期
论文发表时间:2018/12/19
标签:数据论文; 海洋论文; 文件系统论文; 海量论文; 技术论文; 是一个论文; 分布式论文; 《建筑学研究前沿》2018年第25期论文;