中国通信建设集团设计院有限公司第四分公司 河南郑州 450000
摘要:随着科技的发展,先后出现了大数据系统和分析技术,并且在逐渐进步与成熟。现根据每种数据不同的处理形式、自身特点、运用场景以及各自典型的处理系统,特别地介绍了大数据系统未来发展的主要方向,并对大数据分析技术和应用做出了详细评述,以及概括了在大数据分析技术中占主导位置的多种技术。
关键词:大数据系统;分析技术
一、大数据处理与系统
目前,对海量数据处理的要求是我们面对的重大挑战之一。处理形式包括3中,分别为批量处理静态数据、实时处理在线数据。以下,将对其分别分析和介绍。
1.1批量数据处理系统
大数据的批量处理对实时性的要求还不算太高,适用于先储存后计算,但是对数据的准确性和完整性要求非常严格。
1.1.1批量处理的特征与典型运用
批量数据特征。批量数据主要有三个特征。一是数据量庞大,数据很少更新,储存时间长,不容易备份和转移。二是数据精确度高,这是由于数据是人们长期归纳总结下来的宝贵经验,是无形的财富。三是数据价值密度低,处理时间耗时长。对视频批量处理的过程中,需要处理大量的监控,但有价值的视频只有一两秒,这样就降低了效率。另外,如果处理后没有达到或偏离了预期的效果,这就会浪费更多的时间。综上所述,批量处理数据适用于有能力的、成熟的各大企业。
典型运用。数据处理广泛运用于各行各业,物联网、互联网、车联网等无一例外,以下主要介绍三个领域。在互联网领域,批量数据处理的典型应用是社交网络、电子商务、搜索引擎。其中,社交网络的数据主要是以新浪微博、微信等下载的图片、文字、音频等;电子商务在历史记录、商品描述、商品评论方面产生了较多的数据。在公共服务领域中,批量数据处理的典型运用主要是能源和医疗保健。其中,能源可以是地震时来自地球深处的能源,再进行收集整理,就可以知道地下的储煤量。
1.1.2代表性的处理系统
2006年,基于前人的经验,Hadoop完成了两个引起超大反响的产品:HDFS和MapReduce。这也使它们一跃成为大数据批量处理的代表性处理系统。Hadoop是随着IT主流发展应运而生的产品,后来把HDFS和MapReduce.Hadoop当作其基础,加以发展并建立多个项目,形成了自己稳定的Hadoop生态体系。
最受欢迎的系统莫过于MapReduce编程系统了,其主要原因有:MapReduce系统是大规模集群系统,并且MapReduce系统结构简单、便于操作、容易理解。另外,最主要的一点是它有良好的数据护理性能。
1.2流式数据处理系统
流式数据处理起源于服务器的实时采集,是Google2011年在实时处理数据时开发的系统,引领人们向数据实时处理迈进。
1.2.1流式数据的特征及典型运用
流式数据的特征。流式数据最主要的特征就是元组带有时间标签,且同一个流式数据在处理的时候有先后顺序。另外,流式数据的产生是实时的、无法预测的,因此数据往往是处于动态变化之中。
典型应用。同样,流式数据广泛地运用于社会多个领域,但典型的应用主要有一下两个:数据采集运用、金融银行业的运用。其中,银行在工作中会产生大量数据,这些数据时效性短,因此需要采用流式数据处理,以便银行进行实时决策。
1.2.2代表性的处理系统
随着流式数据处理的不断发展,极具代表性的系统主要是:Twitter的Storm、Linkedin的Samza、Apache的Spark以及Facebook的Scribe。
期刊文章分类查询,尽在期刊图书馆
二、大数据特点
大数据无法使用传统数据库工具对其内容进行处理,具有传统数据所不具备的特点。
大数据定义的5V特征(Volume,Velocity,Variety,Veracity,Value)涵盖了5个层面。
2.1数据量大(Volume)。此为大数据最明显的特点,从传统的MB、TP跃升至PB或更高的EB、ZP级别。数据量的大小决定数据价值和潜在信息,数据表示各种业务活动,推动社会与企业共同进步。
2.2处理速度快(Velocity)。在数据量飞速增长的同时,对数据实时分析和处理要求更高。如果海量数据未能实时处理,将失去其应有价值。
2.3数据类型多(Variety)。大数据来源复杂,数据类型多种多样,包括结构化、半结构化和非结构化的等多种数据类型。传统的数据处理工具已不能对类型多且杂的大数据进行处理。在如此繁多的数据中获得有价值的潜在信息,正是大数据多样性的重要体现。
2.4数据真实性(Veracity)。大数据来源于真实世界发生的各类活动,而高质量的数据是大数据发挥效能的前提和基础。唯有如此,专业的数据分析工具才能从海量数据中提取出隐含的、准确的、有用的信息。
2.5价值密度低,商业价值(Value)高。在大量的数据中只有少数数据具有利用价值。合理运用大数据,提取出能够解释和预测现实的数据,以低成本创造高价值。
三、大数据关键技术
3.1大数据批量计算关键技术
在大数据批量计算中,系统架构、分布式文件系统、分布式数据处理系统等关键技术成为制约其发展的关键技术。
3.1.1系统架构
在进行大数据处理的过程中,需要的关键技术主要是针对海量的数据进行存储以及分析计算,因此选择合理的架构对其进行批量处理是其中的重点。
3.1.2分布式文件系统
在大数据应用中,文件系统是其中非常重要的一个部分。对于海量的数据需要采取分布式存储的方式存储到磁盘上,方便后期的计算。
3.1.3分布式数据处理系统
对于分布到磁盘上的海量信息,如何选取合理的数据处理系统对其进行处理分析是其中的一个非常重要的关键点。
3.2大数据流式计算关键技术
对于流式计算中,理想中的大数据流式计算应该具有比较低的延迟、高的吞吐量、保持持续运行、可以伸缩等特征,这些离不开系统的架构、海量数据的传输、编程的接口、高新技术等关键技术的合理设计与规划。
3.2.1系统架构设计
流式计算中的架构指不同的各个子系统之间的一种重新组合的方式,对于流式处理计算中需要选择特定的框架进行流式计算。目前主流的流式计算系统中采用的架构分为无中心节点的对称系统架构以及具备中心节点的主从式结构。
3.2.2数据传输
数据传输主要是完成从有向任务图到物理计算节点之间的部署,部署各个节点之间的数据传输方式。在流式计算系统中,为了能够具备高的吞吐量、比较低的延迟,需要不断的优化从有向任务图到物理计算节点之间的部署及其映射方式。目前主流的数据传输方式分为主动推送方式和被动拉取的方式。
3.2.3编程接口
在流式计算中,为了方便从有向任务图到物理计算节点之间的部署,需要进行编程实现任务图中各个节点的相应处理功能。需要编制大量的流式数据计算系来提供应用编程的接口,方便的接口能够方便用户实现内部的业务逻辑及处理,减少用户的编程的工作量。
四、大数据的发展方向
在2012年3月29日,美国政府宣布将投资两亿美元推动有关于大数据产业的发展,将“大数据战略”上升到国家意志的高度上来。在白宫的网站上,美国总统奥巴马曾发表《大数据研究和发展倡议》,指出了凭借收集、分析整合巨大并且繁杂的数据信息,从而收获知识以及见解,提高能力,加快科学领域、建筑领域的拓展脚步,加强美国的国防土地安全,转换教育与学习的方法。我国工程院院士邬贺铨说:智慧城市是应用智能的数据处理技术促使城市基础设备的构成以及服务体系更加智能合理、相互关联并且有效率,随着有关于智慧城市的逐步完善,社会将进入崭新的“大数据”时代。
结束语:
在互联网、物联网飞速发展的时代,大数据不断吸引人们的眼球,成为人们所关注的焦点。大数据的时代已经到来,我们应紧跟时代的步伐,不断学习探索、勇于计算创新、积极应对挑战、完善数据处理系统以及提高数据分析技术,努力开创大数据处理和分析的新纪元。
参考文献:
[1]刘智慧,张泉灵.大数据技术研究综述.浙江大学学报:工学版,2014(06):957-972.
[2]黄欣荣.从复杂性科学到大数据技术.长沙理工大学学报:社会科学版,2014,29(2):5-9.
[3]李纪舟,苏晓娟,叶蕾.大数据技术及其国外发展情况.电信技术研究,2013(2):60-64.
论文作者:高柯
论文发表刊物:《防护工程》2019年第1期
论文发表时间:2019/5/6
标签:数据论文; 数据处理论文; 系统论文; 流式论文; 批量论文; 实时论文; 节点论文; 《防护工程》2019年第1期论文;