近年来,大数据已对国家科学技术、经济发展、社会进步等各方面产生了巨大影响。发达国家十分重视大数据技术,美国于2012年发布了《大数据的研究和发展计划》,英国、澳大利亚、日本、韩国分别于2013年发布了《英国数据能力发展战略规划》、《公共服务大数据战略》、《创建最尖端IT国家宣言》、《第五次国家信息化基本计划》。而中国也在“十三五”规划中明确指出:“实施国家大数据战略,推进数据资源开放共享”。随着大数据在各个社会领域的广泛应用,带来了数据存储、数据分析和检索等方面的问题。在地理信息档案管理工作中,同样面临着档案存储内容日益增多、维护成本逐年上升、信息检索低效耗时等问题。目前在地理信息领域,更多的档案是非结构化地理信息(三维地图、遥感影像和规划图纸等)。如何有效管理这些结构复杂的文档是一直困扰地理信息档案管理工作者的实际问题。随着大数据处理技术的发展,包括HDFS、云存储、知识图谱等在内的新兴大数据处理技术的出现为非结构化文档的高效管理利用提供了切实有效的工具。
1地理信息档案管理的现状及面临问题
目前地理信息档案管理主要由专门的资料档案管理部门进行专项管理。地理信息行业档案管理主要面临以下几个问题:①数据量大。现阶段档案管理主要采取纸质文件存档和电子文档保存相结合的方式,就某测绘院现阶段已存档的部分省内地理信息相关文档而言就有约400TB,且每日以100G的速度增长:如何有效存储这些文档,并根据需求进行有效扩展是目前急需解决的问题。②文档数据结构复杂。地理信息数据既包括结构化数据,如空间坐标信息、道路基本信息等,也包括大量非结构化数据,如道路采集影像、规划图纸、三维模型等。因此数据检索耗时长、难度大。③数据安全性低。由于数据量庞大,格式复杂,无法统一集中存储,造成了数据分散管理,数据安全无法保证,且存在数据孤岛。这些问题一直困扰着地理信息数据档案管理工作者。各类大数据处理技术的出现让这些问题得以解决。
2常用大数据处理技术
2.1HDFS文件管理系统
大数据时代,特别是以Hadoop为核心的非结构化文档分布式存储文件系统的推出,为档案管理提出了一个切实有效的解放方案。Hadoop HDFS(Hadoop Distribured File System)由Apache基金会所开发,具有以下特性。
(1)应用成本低,可部署在低廉的硬件上,在系统扩容方面,实施方便。
(2)支持高吞吐量、高并发来访问应用程序的数据,适用于具有超大数据集且访问并发量大的文件管理程序。
(3)可靠、高效。Hadoop对文档进行分布存储,提高了档案管理系统的可靠性。
(4)具有良好的扩展性。使用Map Reduce进行分布式计算,在可用的计算机集簇间分配数据并完成计算任务,这些集簇可以方便地扩展到数以千计的节点中。因此HDFS能够有效解决档案管理中文档无法集中大量存储的问题。
(5)支持包括文档、音像、图片等传统文件格式,同时基于HDFS数据库,包括HIVE和Impala等结构化数据库,支持查询、更新等功能。构建基于HDFS的档案管理系统,可实现海量、多结构的档案文件集中、高效、安全存储,为地理信息档案应用提供有效保障。
2.2云存储
云存储是云计算(cloud computing)概念延伸和发展出来的一个新的概念,是一种新兴的网络存储技术,指通过集群应用、网络技术或HDFS等功能将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问的一个系统。简单来说,云存储就是将储存资源放到云上供人们存取的一种新兴技术。
2.3Elastic Search检索
Elastic Search检索(简称ES)采用Java开发,基于Restful Web接口,支持分布式多用户全文搜索,是当前流行的企业级搜索引擎。地理信息文档管理工作中最为困难的是文档检索。ES具有零配置、快速搜索等特点,能够应用于HDFS和传统Java,并支持并发访问,它集合了主流的ICTCLAS、庖丁解牛、Lucene分词等工具,支持中文文档分词检索,可以较好实现地理信息档案快速检索。
2.4非结构化数据库
目前档案管理的文件主要为非结构化文档,数据包括且不限于文档、音频、图谱和影像等类型,而传统主流数据库(如Oracle,DB2和MYSQL等)无法对这些非结构化数据进行有效存储和应用。采用数据库对文档内容进行存储并支持内容分析,现有的主要方式是采用基于key-value的非结构数据库,而其中以Mongo DB应用最为广泛。
2.5知识图谱
知识图谱是一种基于图的数据结构,本质上是语义网络,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。随着知识图谱应用的日益普及,越来越多的公司将其应用到文档管理中来。知识图谱能够有效的管理文档间的关联关系和抽取文档中的知识点,为后续的文档管理提供支持。
期刊文章分类查询,尽在期刊图书馆
3基于大数据处理技术的地理信息档案管理
地理信息档案管理中最核心的任务是数据的管理存储与信息挖掘。而大数据处理技术在这两方面的应用将引导档案管理工作从实体管理向知识管理进行转变。
3.1构建省级地理信息档案资源大数据处理平台
地理信息档案资源主要包括大地测量成果、工程测量成果、航测成果、地理信息数据库成果、导航地理信息成果、地图制图成果、地理国情普查成果、海洋地理信息成果及其他地理信息成果档案。除了坐标成果信息等结构化数据之外,还包括大量的技术文档、文本、图片、XMLH、HTML、各类表格、音视频信息等非结构化数据。尤其是历史地理信息档案资源,这些地理信息资源因为生成年代久远,信息化程度较低,必然会存在大量非结构化数据。因此对地理信息档案资源管理工作中面对的大量多源异构档案数据可考虑应用大数据处理技术构建省级地理信息档案资源大数据处理平台。
(1)利用Hadoop HDFS构建档案管理集群。由于Hadoop HDFS对单一节点硬件资源要求较低,初期可利用档案馆内现有的硬件资源构建成50-100节点的档案管理集群,而集群中所有节点是协同工作来负责数据存储和计算的,后期可根据档案管理需要随时进行节点扩展,满足日益增长的档案数据对存储空间和计算性能的弹性需求。
(2)利用Hbase数据工厂对大量半结构化、非结构化数据进行处理,生成结构化数据,再存储到Hadoop的数据库中。再次布设Hive数据仓库,对结构化数据进行管理入库。通过Hive和Hbase这两种基于Hadoop框架下开源数据库的联合使用,实现结构化与非结构化两类地理信息档案数据的集群式存储与管理。
(3)利用Map Reduce进行分布式计算,通过Hadoop集群中的并行计算实现大量数据的同步处理,由此形成基于Hadoop的框架,即包括文件系统(HDFS)、数据库(Hive、Hbase)、数据处理(Map Reduce)等功能的完整的地理信息档案大数据处理平台。
3.2地理信息档案资源数据挖掘和知识发现
近年来,随着地理信息数据获取手段的发展,地理信息档案资源数据日益增长,加之历年来积累的地理信息数据档案,形成了海量地理信息档案资源。要挖掘其中蕴藏的宝贵知识财富,光靠人是无法完成的,必须借助技术,而大数据处理技术恰恰是一个最佳选择。
数据分析是整个大数据处理的核心,如何充分有效地利用数据挖掘和知识发现对大数据进行开发分析是大数据时代知识服务深入发展的重要方向,也是档案管理部门服务创新的关键途径。我们在对馆藏大量多源异构数据进行清洗、抽取、集成,转换数据为易于分析的形式并载入文件系统、数据仓库或分布式处理模型,搭建一个完整的地理信息档案大数据处理平台时,对数据进行挖掘和知识发现的条件就己具备。结合知识图谱,利用Elastic Search全文搜索引擎实现对数据的语义理解,提高搜索质量,为用户找出更加准确的信息,做出更全面的总结并提供更有深度的相关信息。
地理信息档案资源中含有丰富的潜在隐藏信息。通过地理信息档案资源的数据挖掘,提取有用的相关资料,对有相同或近似的地理信息档案查询可以进行关联性的提取和推荐。例如在某区域(XX县)提取应急地理信息档案时,可以同时推荐其相关的人口统计专题信息、地质灾害专题信息。结合地理空间可视化和本体语义分析等工具,当有一个与地理信息相关的查询需求提出时,能自动从地理信息档案资源中获取相关联的地理信息档案资源,进行地理信息大数据空间或非空间运算、分析,乃至数据挖掘。如在基于知识图谱的地理信息档案管理系统中查询近5年内农业用地的变化情况时,系统将查询近5年内的地理国情普查数据,并结合最新的基础地理信息数据对所有与农业用地(如水田、旱地等)相关的基础地理信息图层进行叠置分析。结合最新的遥感数据,系统再对分析结果进行矫正,最后自动选用制图模板,动态生成农业用地变化情况反馈给用户,进而发现一些不为察觉的情况(如某产茶区的茶叶种植品种呈现逐年多样化趋势)。
与非空间数据挖掘的方法相类似,地理信息档案数据挖掘技术主要包括:①地理信息档案数据预处理技术:如地理信息数据的选取、过滤、降维,地理信息档案区域分割等等;②地理信息档案空间特征和空间模式提取技术:如地理信息档案分类、地理信息档案规则提取、地理信息预测和地理信息档案聚类等等,它既包括有针对性的地理信息档案监督学习也包含地理信息档案无监督学习。
4结语
(1)大数据技术在处理海量、非结构化数据上有着传统文件系统和数据库无法比拟的优势。
(2)采用基于HDFS的大数据处理技术可实现地理信息数据的集中安全存储,通过搭建基于Hadoop省级地理信息档案资源大数据处理平台,可实现地理信息数据的云存储和云应用。
(3)基于ES检索、知识图谱和非结构化数据等技术,可解决档案管理工作中数据快速检索速度慢、数据可用性差、档案对业务发展支撑力度不够等问题,提升档案管理工作效率。
(4)结合数据挖掘和知识发现技术,可大幅提升地理信息档案资源管理的智能性,实现档案管理工作从实体管理向知识管理的转变。
参考文献:
[1]金舒平,翟永.国家测绘成果档案存储与服务设施项目初步设计[R].国家测绘地理信息局,2013:75-76.
[2]李德仁,钱新林.浅论自发地理信息的数据管理[J].武汉大学学报:信息科学版,2010,36(4):379-383.
[3]阎晓峰.大数据与档案资源开发利用[J].中国档案.2015(11)
[4]黎明.浅议测绘地理信息业务档案管理的新常态[J].山东档案.2016(02)
论文作者:陈明泰
论文发表刊物:《基层建设》2016年第34期
论文发表时间:2017/3/17
标签:地理信息论文; 数据论文; 档案论文; 数据处理论文; 结构化论文; 档案管理论文; 图谱论文; 《基层建设》2016年第34期论文;