大数据处理技术的发展现状及比较分析论文_靳海平

大数据处理技术的发展现状及比较分析论文_靳海平

(许昌烟草机械有限责任公司 河南许昌 461000 )

作者简介:靳海平(1972-),男,河南人,助理工程师,主要研究方向为计算机技术。

摘要:随着科技发展的日新月异,大数据技术也日趋成熟。大数据处理技术作为大数据技术的重要组成部分,本文比较了Hadoop、Storm、Spark等几种主要的大数据处理技术的发展历程,并对其优劣情况和应用前景进行了比较,并对其未来应用价值进行了展望。

关键词:大数据;关键技术;比较研究

进入新世纪以来,以信息技术为特征的新一轮科技革命极大地改变了人类传统的生活方式,并极大地影响了人类社会的方方面面。以大数据技术为代表的新一代信息技术广泛应用于商业、金融、医疗和社会服务等多个领域,并对传统数据的采集、分析、存储和应用等方面提出了更高的要求。目前大数据的定义尚无定论,Gartner、Mckinsey、IDC等研究机构都试图从不同的角度对于大数据进行科学定义,中国的大数据技术发展起步更晚,2012年5月“香山科学会议”才第一次正式开创了国内对于大数据研究的“先河”。

时至今日,大数据技术作为一个综合性电子信息技术的统称,内容十分丰富,内涵十分广泛,所包含的技术种类不胜枚举。但是即使大数据技术种类繁多,门类复杂,但是几乎每一项大数据技术都离不开数据处理,目前国际国内主流的数据处理技术比较有限,不同的技术种类存在着某些差异性,值得梳理并分类总结。

一、大数据处理技术发展现状

大数据处理技术作为大数据技术的核心技术之一,历经了多个历史阶段。大数据处理技术总体上可以分为:大数据收集整理技术、大数据管理贮存技术、大数据挖掘技术、大数据分析和可视化技术等。上述技术都依靠相对成熟的处理技术实现,大数据处理需要通过多途径、多部门联络配合实现。

云计算处理技术。2006年8月,Google在国际搜索引擎大会上首次提出了“云计算”的概念,该技术主要是通过借助互联网,将网络中多个不同的存储节点联合起来形成一个有效的协同的技术体系,从而实现仅访问单个节点就形成网络处理的效果。

分布式数据库系统。为了克服传统数据处理技术的不足,Google公司、Amazon公司和Yahoo公司都纷纷推出了属于自己的分布式数据库系统,比较著名的主要有:Bigtable系统、Dynamo系统、PNUTS系统等,上述系统均在自身业务范围内得到了广泛的应用。

非关系数据库系统。进入21世纪之后,菲关系型数据库系统得到了更加广泛的应用,该系统具有更加快捷的处理能力、更加灵活的技术应用和更加丰富的处理路径。比较著名的非关系数据库系统主要包括Redis、Hbase、MongoDB等,上述技术进一步拓展了大数据技术的应用场景,具有更加广阔的应用前景。

二、不同大数据处理技术的比较

从目前主流的集中大数据处理技术来看,各自具有不同的优缺点,其应用范围也存在不小的差异,需要对其进行充分整合才能得出比较满意的处理效果。

期刊文章分类查询,尽在期刊图书馆

Hadoop技术比较适合于大规模的数据体系,Hadoop技术本身具有较强的批处理能力,现有的许多大数据处理系统都是基于该技术展开的,并且Hadoop技术是基于Java的技术语言编写的,其核心技术是MAP和HDFS技术,具有比存储海量数据的能力,该技术主要是通过首先对新采集的数据执行Spliting操作开展数据初步处理,随后通过Map分区处理,然后通过Key-Value对数据集合进行综合输出,并对结果进行综合归集实现对大数据的处理。虽然Hadoop技术可以实现大规模数据的批量化处理,但是其处理的时效性较差,无法在短期内实现对超大规模数据的集中处理,因此影响了其应用前景。

Storm技术相对于Hadoop技术,具有更强的时效性,能实现对数据的实时处理,并且具有较高的容错机制。与后者具有很大不同的特点在于,Hadoop技术采取同时向多个数据节点发送批量处理指令,这种分散式节点发送与反馈技术无法在短期内处理大量数据。而Storm技术是通过拓扑结构来实现对数据流的转换,这种方式比较适合于数据集群结构的综合处理与运用。Storm技术具有较好的批量并行处理能力,但其在处理稳定性和灵活度方面存在不足,从而限定了其应用范围。

Spark技术是由美国加州大学伯克利分校研发成功,并于2010年正式推向市场,该技术通过直接面向用户的内存式计算框架,该框架由Scala语言写成,利用RDD技术所形成的一系列API组成,随着Spark技术的发展与成熟,后期由研发出Spark Streaming技术,该技术将数据流转化为超低量的毫秒级数据集的批量计算,从而实现了有效的智能化交互式自动数据收集。Spark技术虽然在数据处理方面体现出了由于以往技术的显著特点,但是对于系统软硬件基础条件的要求比较苛刻,其应用前景仍有待观察。

三、改进大数据处理技术的对策建议

毋庸置疑,大数据处理技术对于人类社会发展的影响是相当巨大的,但是社会经济的发展对于大数据处理技术本身提出了更高的要求,突出体现在对于数据时效性和完整性的控制方面,现有大数据处理技术在处理单元,存储结构等方面都存在着需要改进的方面。其次,目前制度法规在监管大数据处理技术时还存在着适用法律不足,存在法制盲区,需要进一步丰富法律规范,实现对大数据处理技术的有效监管。此外,随着人们经济活动类别的复杂性提升,对于数据处理的保密性要求也越来越高,大数据处理技术需要更新以适应人们对于隐私保护的特殊要求。另一方面,大数据处理技术存在着一定的排他性技术壁垒,因此需要加大新技术的研发,不断拓展大数据处理技术的应用场景,从而更好地适应形势的需要。最后,大数据时代的数据安全性,也在很大程度上决定了大数据处理技术的应用前景,大数据在存储、传输和分析环节会涉及到多个技术节点,每一个技术节点都将面临来自于外界数据风险的技术挑战,因此需要多部门协同确保大数据处理技术的安全,从而实现整个大数据处理环节的数据绝对安全。

参考文献:

[1]陈明奇,姜禾,张娟.大数据时代的美国信息网络安全新战略分析[C].第27次全国计算机安全学术文流论文集.2012,32-35.

[2]刘军.Hadoop大数据处理[M].人民邮电出版社,2013,45-60.

[3]陈为,沛则潜,陶煜波,大数据丛书:数据可视化[M].电子工业出版社,2013,29-37.

[4]玛登国,张敏,李昊,大数据安全与隐私保护[J].计算机学报,2014,246-257.

[5]Thomas.H.Davenport.Paul.Barth.Randy.Bean.How Big Data is Different[J].MIT Sloan Management Review,2012,54.

[6]Philip.Russom. Big Data Analytics[M]. TDWI Best Practices Report USATDWI.2011.

论文作者:靳海平

论文发表刊物:《科学与技术》2019年第04期

论文发表时间:2019/7/9

标签:;  ;  ;  ;  ;  ;  ;  ;  

大数据处理技术的发展现状及比较分析论文_靳海平
下载Doc文档

猜你喜欢