摘要:大数据时代已经来临,并且已经应用在现实生活中的方方面面,我们的生活与大数据已经密不可分。交通大数据作为与日常生活息息相关的一个大数据应用领域已经有了很多丰硕成果,但是就应用流程来看,从数据获取到数据存储,从数据处理到结果分析都存在着各种各样的困难与挑战。因此,想要真正能够合理高效地利用大数据还有很长的路要走。
关键词:交通大数据;应用;研究
1 大数据概述
1.1 大数据定义
大数据,又称海量数据、巨量数据等,通常指那些无法通过常规存储媒介存储,无法通过人工或者常规数据处理软件进行管理和处理的数据集合。大数据是一个抽象的概念,究竟多大的数据量可以定义为大数据至今没有一个定论。大数据具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征,也就是说,大数据不仅仅体现在存储数量级的大小上,而且还在于数据的获取、存储、维护、处理等方面。
1.2 大数据特点
IBM公司针对大数据的特性提出了大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样性)、Value(价值)和Veracity(真实性)。其中Volume(大量)指大数据的数据量级巨大,可以从几百TB到几百PB甚至EB级别的规模。与几十年前印刷品占据主流的时候不同,信息时代数据的产生速度非常快,据国际数据公司(IDC)的统计,仅在2011年时,全世界范围内被创建和复制的数据总量就有1.8ZB左右,已经远远超过有史以来人类通过印刷品传播的信息量的总和。据该公司预测,中国的大数据市场将在2012~2016年间增长5倍,中国已经真正步入了大数据时代。Velocity(高速)指大多数场景下,我们都要求大数据要在一定的时间限制内得到及时的处理。例如美团、大众点评等团购软件,通过对用户的地理位置定位实时向用户推荐附近美食、团购优惠等。Variety(多样性)指大数据包含各式各样形态以及各种格式的数据源。针对不同场景,数据有多种存储方式,例如json格式、xml文件、数据库文件等方式。Value(价值)指大数据中蕴藏的有价值的信息,通过大数据的分析挖掘等手段,可以带来巨大的商业或学术价值。例如淘宝通过对用户购物以及浏览数据进行挖掘,从而给用户推荐合适的商品,为淘宝创造了巨大的利润。Veracity(真实性)指大数据的数据来源,处理结果要保证与真实情况相符合,即它们可以如实反映或者折射出社会现实等。
2大数据与城市交通
大数据概念产生以来,作为数字化时代的新型战略资源,大数据成为驱动创新的重要因素,正在改变着人类的生产和生活方式。从广义上讲,大数据有3层内涵:一是数据量巨大、来源多样与类型多样的数据集;二是新型的数据处理和分析技术;三是运用数据分析形成新的价值。目前,大数据对科学研究、经济建设、社会发展和文化生活等各个领域正在产生革命性的影响。随着社会经济发展和城市化进程的加快,解决好城市交通问题已经成为城市可持续发展的一个重要内容。现代化城市交通管理已经进入以信息化支撑为标志的新时期,以交通数据资源和信息技术为基础的城市交通决策和服务是现代化城市交通的重要标志。近年来,随着城市交通信息化以及智慧城市建设的不断深入,各种类型数据的采集、汇聚已具有了一定规模,交通大数据的产生,是在先进技术促进下城市交通信息化发展到一定阶段的必然结果。现代化城市交通决策规划、组织管理和公众出行服务等,对大数据技术发展和应用的需求日益迫切。
期刊文章分类查询,尽在期刊图书馆
3交通大数据处理的关键问题
3.1新的数据表示方式
目前数据的表示方式,不一定能直观地表现出数据的含义.若需有效使用数据并挖掘其知识提高智能,需要寻找最合适的方式表示数据.如果想从这种表示不恰当的数据中发现大数据的模式、相关关系和因果关系,会因数据表示方式的原因得到固定的结论.表示数据的方式和原始的数据录入者密切相关.若对原始数据进行一定的标识,将会有助于降低后续数据分析、判别与分类的难度.同时,为了标识数据,将会给用户增添额外的工作,不利于用户使用.因此,寻找有效且简易的表示数据方式是大数据处理需要面对的问题.
3.2数据的删冗和高效存储
大数据中有大量的冗余,删除冗余是降低开销的重要途径.大数据的存储方式影响效率,因此,有必要研究新型数据存储方式来提高存储效率.同时,还需研究提高多源、多模态数据获取质量的技术及该数据整合的理论,自动检测错误并修复错误的方法,针对低质量数据的近似计算算法等.
3.3道路交通大数据处理与分析工具
道路交通行业需要适合该行业大数据特征的大数据处理与分析工具,计算机算法研究人员应与该领域的研究人员共同推进行业大数据处理与分析工具的创新.
4交通大数据存储方案
4.1MPP关系型数据库
MPP架构的新型数据库集群采用SharedNothing结构,通过粗粒度索引、列存储等技术,结合MPP架构的分布式计算模式完成大数据的分析和存储。该类架构具有高性能和高扩展性的特点,在企业分析类应用领域获得了广泛应用。而且该架构的运行环境多为低成本的服务器,经济性上也具有很大优势。
4.2基于Hadoop的非关系型数据库
Hadoop是由Apache基金会开发的分布式系统基础架构,它的核心思想是HDFS和Map Reduce。通过对该项开源技术的扩展和封装,可以将海量数据部署到价格低廉的硬件上,并能够提高其吞吐量。尤其对于处理非结构化数据、半结构化数据以及复杂的ETL流程等,该类型数据库有着独特的优势。
4.3大数据一体机
大数据一体机是一种专门为大数据设计的软硬件结合产品。它由一组集成的服务器、存储设备、操作系统和数据库管理系统构成。该类存储方式具有很好的稳定性和纵向扩展性。
5交通大数据处理技术
5.1 ApacheSparkApache
Spark是一套卓越的开源处理引擎,专门面向复杂分析、高速处理和易用性需求而打造。它提供了很多立足于数据结构上的编程接口,因此我们根据需求完成具有特定功能的处理程序。Spark的处理速度极快,而且支持多种语言为其编写应用,能够轻松处理实时数据流,支持复杂的分析操作。
5.2Hadoop
Hadoop是一个开源的分布式处理软件框架,它的可靠性非常高,它会假设元素存储失败等场景,维护多个数据副本,确保能够对失败的结点做出处理重新分配任务。Hadoop依赖于社区服务器,因此成本低廉。
5.3MapReduce编程模型
MapReduce是一种针对大规模数据集的并行运算提出的编程模型。它使编程人员在不会分布式编程的情况下能够将程序运行在分布式系统上。它主要运用了映射(Map)和归约(Reduce)的思想,通过指定一个映射函数把一组键值对映射成一组新的键值对,之后制定并发的归约函数,保证所有映射的键值对中的每一个共享相同的键组。
5.4各类分布式数据库
随着数据量的日益增长,传统的关系型数据库暴露出越来越多的问题,由此,以NoSQL为代表的非关系型数据库开始飞速发展,开始了数据存储从集中式数据库到分布式数据库的转变。分布式数据库直接将数据存储在数据库中通过相应的查询语句直接返回查询结果。
结束语
随着目前计算机科学技术的飞速发展以及计算机硬件对数据处理能力的飞速提升,人类已经进入了数据信息时代。文章从宏观方面对大数据在城市交通中的应用进行了阐述,并说明了现今交通大数据的挑战以及目前对大数据的几种常用存储方案以及常用的处理技术。
参考文献:
[1]徐玉萍,覃功,张正.城市轨道交通调查大数据应用研究[J].铁道运输与经济,2015,04:78-81.
[2]陆化普,孙智源,屈闻聪.大数据及其在城市智能交通系统中的应用综述[J].交通运输系统工程与信息,2015,05:45-52.
[3]程豪.基于Hadoop的交通大数据计算应用研究[D].长安大学,2014.
[4]熊刚,董西松,朱凤华,季统凯.城市交通大数据技术及智能应用系统[J].大数据,2015,04:81-96.
论文作者:阎伟
论文发表刊物:《基层建设》2017年第7期
论文发表时间:2017/7/13
标签:数据论文; 城市交通论文; 数据处理论文; 分布式论文; 方式论文; 数据库论文; 交通论文; 《基层建设》2017年第7期论文;