大数据技术及其行业应用：基于铁路领域的概念框架研究

马丽梅¹，史丹²，高志远³，李华杰²

(1.深圳大学中国经济特区研究中心，广东深圳 518060；2.中国社会科学院工业经济研究所，北京 100836；3.中国铁道科学研究院运输及经济研究所，北京 100081)

摘要：在对大数据关键技术架构进行总结，对数据获取、数据处理、数据分析模型和数据应用进行描述的基础上，利用大数据关键技术平台，构建铁路大数据应用的体系架构，该体系框架包括铁路数据获取层、平台层和应用层，并刻画铁路大数据的处理流程。铁路大数据体系结构的建立将促进大数据技术在我国铁路行业的落地生效，全面提升铁路数据资源的经营开发水平，为铁路提高运输安全水平、实现客货运精准营销、提高运输效率提供参考。应结合铁路发展的需求，强化顶层设计，充分借鉴其他行业大数据应用经验，分阶段分步骤实施铁路大数据策略。

关键词：工业大数据；Spark框架；大数据产业；铁路大数据

一、引言

近年来，随着经济社会的发展和信息技术的进步，大数据作为一门新的行业，其热度不断提高，从2011年开始进入人们的视野，之后飞速发展。我国政府高度重视大数据行业的发展，国务院等部门先后印发《促进大数据发展行动纲要》《大数据产业发展规划(2016—2020年)》等指导性文件，20多个省份出台了本地区大数据产业发展规划，我国大数据产业已进入快速发展的轨道。国务院在《促进大数据发展行动纲要》中提出了大数据的概念，其特征包括类型多、容量大、存取速度快、应用价值高等，这样一系列的集合即为大数据，大数据产业是指对大数据开展采集、存储数据的分析并且创造价值和提升能力的产业。在维克托和库克耶编写的《大数据时代》中指出，大数据是不采用抽样调查等传统分析法进行处理，而采用计算机信息技术进行分析处理的数据。麦肯锡^[1](2016)指出，大数据是一种数据集合，即在数据采集、存储和分析方面大大超过传统数据工具处理的能力，具有海量数据规模、多种数据类型、数据快速流转和价值密度低等特征。从一般意义上讲，普遍认为大数据具有4V特征，即体量大(Volume)、种类多(Variety)、速度快(Velocity)和真实性(Veracity)。

当前，大数据在经济领域的应用研究可大致将其归纳为两类：一是对宏观经济的预测，优化传统指标或构建新的预测指标；二是建立经济变量的联系以期进行关联，挖掘用户特征，达到优化改善企业经营及销售的目的，这里主要涉及大数据在不同行业的应用。在第一类预测问题研究上，主要是通过搜索引擎(如Google Trends、百度指数等)和数据抓取(也称为网络爬虫)来获取数据进行预测分析，这些预测指标主要包括GDP、失业率、房地产、通货膨胀，等等。Askitas和Zimmermann^[2](2009)、McLaren和Shanbhogue^[3](2011)、Vicente等^[4](2015)分别运用搜索引擎得到的数据对德国、英国、西班牙的失业率进行预测，预测结果与真实值较为接近、效果良好。Cavallo和Rigobon^[5](2016)主要阐述了麻省理工学院2008年启动的“十亿价格计划”，通过抓取网络上公布的多种商品价格数据构建指数来研究美国、阿根廷等20多个国家的通货膨胀指数，对比研究结果发现，这种大数据研究方法更为接近真实水平。国内学者的研究起步较晚，姜文杰等^[6](2016)运用百度指数，通过构建系列模型预测了上海的房价走势；李凤岐等^[7](2017)通过百度搜索查询指数对中国的宏观经济指标进行了预测，研究结果虽然存在偏差，但仍与真实值接近。

在第二类关联问题及涉及行业的研究上，这类问题研究的数据获取不仅仅局限于网络，还包括来自于行业及企业积累的大容量数据。Antweiler和Frank^[8](2004)、Gilbert和Karahalios^[9](2010)、Moat 等^[10](2014)通过Twitter、Google、Wikipedia以及财经网站收集的数据研究投资者情绪、搜索频次对股市的影响。Li等^[11](2015)从TripAdvisor.com的上万条评论中总结用户的潜在旅游偏好，进而进一步优化酒店服务。在行业研究上，电力、互联网、零售、电信等行业积累了大量的消费者及自身运行的数据信息，通过这些数据在内部可以实现优化自身管理模式的需要，从外部应用上可以丰富自身的增值服务。Chittaranjan 等^[12](2013)运用智能手机数据来研究五大人格维度的关系，进而探寻用户个性，改善企业经营销售业绩。李杰^[13](2016)从工业4.0视角进一步解读了工业大数据，对大数据的行业应用从价值理念到实践案例进行了系统阐述，他提出大数据的行业应用不仅仅是用于企业系统维护和自身功能提升的信息服务，而是以自身核心功能为基础，利用大数据挖掘新知识并创造竞争力与社会价值。吴力波等^[14](2016)、郭雷风^[15](2016)、田歆等^[16](2017)、周辉宇^[17](2017)、谢康等^[18](2018)分别对大数据技术在电力、农业、零售业、交通部门以及产品研发领域的应用，特别是在中国的应用进行了详细的探讨。

在国内大数据行业研究领域，现有研究主要集中于现代服务业以及互联网相关行业，大数据在传统行业的应用并未得到足够的重视和充分探讨，本文在对大数据的技术架构进行整体描述的基础上，根据我国铁路大数据的发展现状，尝试探索铁路大数据技术框架的构建，这将进一步促进大数据技术在我国铁路行业的落地生效，为铁路提高运输安全水平、实现客货运精准营销、提高运输效率提供参考。主要创新点在于：在解析“大数据+铁路”的基础上，阐述大数据之于传统行业升级的重要意义，基于产业链构建铁路大数据系统架构，尝试对铁路大数据的规划设计、落地实施和其他行业大数据产业示范等提供一定的借鉴意义。

二、大数据的技术架构

如果将大数据处理按处理时间的跨度要求，从长到短可分为三类：一是流处理，即基于实时数据流的数据处理(Streaming Data Processing)，通常的时间跨度在数百毫秒到数秒之间；二是交互式分析，即基于历史数据的交互式查询(Interactive Query)，通常的时间跨度在数十秒到数分钟之间；三是批处理，即复杂的批量数据处理(Batch Data Processing)，通常的时间跨度在几分钟到数小时之间^[19]。当然，这三类数据处理流程并不一定能完全分开，它们的处理一般情况下要涉及两类组件：Hadoop和Spark，这两个组件也是大数据技术两个重要的核心部分。图1展示了大数据的核心架构，主要包括4个层级，即数据获取层、数据处理层、模型层和应用层。

1.数据获取

常见的数据获取方法主要包括两类：①系统日志采集方法。许多互联网企业形成了自身的数据采集方法，可以用在系统日志的采集过程中，如Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等，这些工具都是使用的分布式结构，可以满足每秒数百MB的采集及传输需要。②网络数据采集方法。网络数据采集就是通过网络爬虫以及网络公开API的方法在网上获得数据，这种方法将非结构的数据在网页中提取，然后存储在本地的数据文件中，并且通过结构化的存储模式存储起来，可以进行图片、音视频等文件的采集操作，附件可以和正文进行关联，不仅包括网络的相关内容，还包括网络流量的采集，可以使用DPI或者是DFI等管理技术进行处理^[20]。

2.数据处理

CMD系统，即机车远程监测与诊断系统主要集成了智能设备、大数据和互联网的理念，通过车载LDP设备实时采集机车的各类信息，包括机车安全信息、机车状态信息和机车监测信息，数据包括了文本数据、图像数据和视频数据，通过我国自主的北斗卫星导航系统进行数据传输，最后通过铁路内网实现机务段、路局机关和总公司三层信息共享。

图1 大数据技术架构

3.数据模型

全市规模化棚膜园区面积少，规模化程度不高，大部分棚膜园区生产存在品种多、乱、杂等问题，不利于产品销售，很难形成规模效应。同时，温室面积少，冬季的生产能力较弱。

数据挖掘与机器学习。数据挖掘和机器学习是大数据技术架构中模型层的重要组成部分。数据挖掘是通过算法搜索来获取大量数据中潜在有用的、有效的、最终可理解的信息的过程。机器学习是数据挖掘中的一种重要工具，目前已经成为计算机数据分析技术的创新源头之一。数据模型常用的大数据分析软件包括统计分析软件(如R软件、SAS软件、SPSS软件等)、数据库软件(如Oracle软件、SQL Server软件等)以及计算机编程软件(如Java软件、C语言等软件)。大数据的分析方法包括统计分析(如聚类、关联规则等)、在线分析处理、情报检索、机器学习，等等。

精确饲喂是本设备的核心功能。饲喂站包括精确下料系统和食槽。精确下料系统可以依据个体猪的体重和孕期确定对其供食量。该系统主要由料仓、螺旋下料装置、电机及传动系统和落料口等部分组成。

4.数据应用

②机车信息化系统(CMD)

由图5可知，1.2%双氧水间隔20 min投加与1.5%双氧水一次性投加的处理效果基本相同，说明在达到同样去除效果的前提下，间隔20 min投加药剂比一次性投加的药剂用量减少约20%。

三、案例研究：铁路大数据的应用框架探索

我国铁路部门非常重视数据的积累工作，当前的铁路数据已经达到了一定的规模，数据的存储格式以结构化的数据为主，视频以及图片等非结构化数据量也在不断增加。我国铁路实行模块化管理，主要包括机务、车务、工务、电务和车辆等模块，具有跨区域网络、技术构成复杂、部门繁多、业务应用广泛等特点，因此，铁路是一项全流程、全业务、全数据的复杂系统工程，构建铁路大数据，必须考虑铁路自身专业的特点，加强顶层设计、跨部门协作、跨业务管理和跨技术耦合。

(一)铁路大数据及其内涵

1.铁路大数据内涵

铁路大数据是指大数据技术在铁路行业中的应用，不仅包括大数据的数据采集技术、分析技术和统计预测技术^[22]，还包括大数据的思维和理念在铁路行业中的应用。从更深层次考虑，将铁路数据从传统的报表分析、数据统计向智能化、精准化、网络化、协作化方向转变，从结构化数据的传统方法分析向非结构化数据的智能方法转变，从有限数据向多维度、多粒度、多模型、多形态的海量铁路数据转变，铁路大数据是铁路技术、铁路科研、生产管理等全产业链的跨业务、跨部门、跨区域、跨专业的有效工具，是汲取铁路数据价值、促进铁路发展、加快铁路企业转型升级的重要手段，是加快铁路现代化、实现铁路走向更高级阶段的一个必经过程。

铁路大数据包含了以下层面的含义：一是我国铁路信息化经过近40年建设，在12.4万公里铁路轨道、6 000多个车站、近4万多台机车和动车组上安装大量感知器，在铁路工程建设、联调联试、客货运输等领域通过软硬件接入、数据共享等方式产生了海量的结构、半结构化和非结构化的数据。二是铁路数据的获取方式、获取范围和获取时间产生了很大变化，随着各类信息系统建设，包括铁路建设BIM平台、12 306客运服务系统、95 306铁路物资采购与招商平台、机车远程诊断和监测CMD系统、机车车载安全防护6A系统等，可以实现对数据的实时采集、全面分析和动态管理，数据集成平台在铁路领域获得了更大范围的利用。三是铁路大数据理念被广泛接受，海量铁路数据提供的有价值决策被用于进行设备状态管理、客货流量预测、故障预测和健康管理、工程建设、安全保障，等等。四是增值服务。这是铁路行业转型升级的关键要素，利用铁路数据可以给用户提供更加丰富的增值服务内容，同时，也可作为城市发展以及投资决策的重要参考。通过完善“出行地图”，能够更精准地反映地区经济状况及各群体的出行习惯，可以为城市和基础设施建设规划提供基础依据。

2.铁路大数据特征

铁路大数据是由结构化数据和非结构化的数据组成的。随着各种智能设备在铁路中不断的推广应用，非结构化数据也在快速发展，其数量将大大超过结构化的数据，铁路大数据不仅能够满足4V特点，它还包括以下三个明显的特征：①泛在性。铁路大数据覆盖了铁路运输生产各个环节，包括机、车、工、电、辆，实现了业务链条全覆盖。②地域性。由于我国铁路分布较广，全路18个路局集团公司所管辖的机车、动车组、车辆、轨道、信号等都会产生各类数据，具有较强的时空特征。 ③交叉性。铁路大数据不仅仅涉及铁路企业自身管理，而且还涉及军事输送、资源调配、社会安全、公共管理等多个方面。交通出行将成为未来国家经济发展的重要组成部分，铁路大数据的应用前景会随着与不同行业的交叉关联，变得更为广阔。

(二)铁路大数据概念框架设计

1.铁路大数据产业链分析

利用实验验证本文方法的有效性，实验数据来自celeA人脸数据库的超过200000张名人人脸图像，保证了图像多样性与质量。首先验证本文方法的可行性，在不同肤色与不同发色的人脸图像上进行图像翻译，然后通过对比实验来比较T-GAN与GAN，cGAN，pix2pix，CyleGAN 等其他翻译方法的翻译性能，最后通过一些外部因素影响下的人脸图像翻译结果说明本文方法具有较强的鲁棒性和自适应性。实验所用平台是Tesla K10.G1.8GB GPU服务器，5.4T硬盘，32GB内存，Ubuntu16.04系统和Python 3.5.2版本。

铁路运输行业的应用系统包括铁路组织结构(总公司、路局、站段等)中涉及到的业务系统，根据“铁路信息化总体规划”，铁路信息系统涵盖铁路业务层面的多个系统，包括运输生产组织、运输调度指挥、运输安全管理、客运营销、货运营销、人力资源管理、党建管理等，表1展示了部分铁路相关业务系统。

《卜算子令》，即《卜算子》。令词《我有一枝花》见于南宋陈元靓所撰《事林广记·癸集·酒令》，字数、韵度方面皆与《卜算子》全同。《词律》《词谱》中无记载。

2.铁路大数据系统架构

2.铁路大数据预处理

(1)数据获取层。主要包括数据的采集及初步分析，涉及图2的第一、二、三层。各类感知设备、信息系统等是数据采集的来源，主要是安装在机车和动车组上的各类元件、工务上的轨道检测设备、车辆上的测量仪器等，信息系统主要包括铁路运输生产的客货运系统、安全管理系统等。除此之外，还包括服务器设备、网络设备，服务器设备主要满足大数据的云环境，网络设备主要是指数据的传输设备。数据的获取可以通过互联网技术，应用智能设备，对数据进行集中和统一操作，并且形成数据中心，促进了数据的链接以及共享和使用，这一应用主要集中于图2的第三层。通过无线网络获取地面综合应用子系统的远程数据，实现全路客运、货运、工务、供电、电务、安全管理、人才培养、协同办公等业务数据采集，构建清晰、完整、高质量、高可靠的数据资产体系。以6A系统、CMD系统为例。

首先，成本面波动有限，年内煤炭企业倾向于淡储旺销，进而平抑了传统供暖季的煤价，对煤头尿素企业生产成本也有一定的稳定作用。至于气头尿素企业，天然气受限本在意料之中，相比采购溢价气，工厂多会选择停车，也就不涉及成本提升问题。而且，一些经销商针对气头企业四季度以及明年一季度的这部分减产规模已提前储备了一定量尿素。

表 1部分铁路相关业务系统

资料来源：铁路总公司《铁路信息化总体规划》。

①安全管理系统(6A)

图3为机车上的6A系统，即机车车载安全防护系统^[23]，主要通过机车上的各类传感器实时采集制动监测、防火监控、高压绝缘检测、列车供电监测、走行部监测和视频监控六项数据，视频监控为视频数据，其他为文本和图像数据，并利用三次样条插值法对时间不同步的数据进行处理，最后通过交换单元传输到外部接口。

大数据技术怎样服务化是一个值得研究的领域。云计算是大数据应用中不可避免的问题。目前，大数据云服务有两种经典模式：一是托管模式，这种模式的核心是通过云的能力简化了集群的创建、运维等；二是服务化模式，用户不用关心集群、资源等问题，只需将大数据任务交给大数据云即可享受相应服务。大数据应用主要在智慧城市、城市交通、医疗、金融、城市规划等各领域中，应用媒介主要是门户网站、个人事务、邮件系统等。

数据处理层包括两个重要架构，Hadoop架构和Spark架构。Hadoop为开源软件框架，对数据采取分布式处理方式，其主要特征体现为高可靠性、高扩展性、高容错性、低成本及高效性。Hadoop能够实现一个名为MapReduce的简单编程模型^[21]。Map Reduce 是由 Google 提出来的一种新的数据处理编程模型，可以处理TB级以及TB级以上的数据工作。Map Reduce主要的优势就是隐藏了编程系统的细节，开发者能够集中全力地解决核心问题，并不是关注计算机执行的细节。它继承了函数式以及矢量语言的优点，该编程语言不仅可以用在非结构化中，而且能够用在结构化的数据上，实现查找、知识挖掘、机器语言智能学习等功能。Spark 是现在大数据领域最热门、高效的数据快速分析解决框架。它立足于内存计算，从多迭代批量处理出发，将流计算(Streaming) 、图计算(Graph Processing)等不同的模型能够在一个平台中统一起来，通过一致的接口，促进各个框架在内存中进行集成，有利于系统任务得到更好的实现^[19，21]。

图2 铁路大数据系统架构

客运大数据处理主要包括对数据的清洗、聚类、预测等，客运大数据属性达60多个，包括列车车次、乘车日期、乘车时间、列车类型、速度等级等，因此，针对特定数据需求需进行数据清洗，进行维度归约处理，进行特定属性的选择。然后对特定属性的数据进行聚类，如把旅客出行距离进行聚类，可以划分为短途、中途和长途旅行。在此基础上，根据聚类数据，对不同旅行距离的客流量进行预测。

近年来，医疗事业日新月异的发展推动了医疗机械设备的发展角度，尤其是一次性医疗器械，在医疗中发挥着不可替代的作用。但是从成本和生态环保角度来看，非一次性医疗器械有较大的使用量，在一定程度上会对清洗流程有较高的要求，因此对器械清洗质量和消毒灭菌效果进行强化具有重要意义[5]。

①客运大数据

(2)平台层。主要包括铁路大数据的处理及初步应用，涉及图2的第四层。平台层通过批量计算、内存计算等多种计算方式，满足铁路不同业务类型数据的计算需求^[24]。铁路安全监控系统包括大量非结构化的数据，并且进行在线实时处理，实现在线的人机交互和在线分析。铁路客运大数据分析提供批量查询技术，实现海量客运数据特征分析。此外，还有大批量的离线数据，可以利用批量化的处理技术进行离线处理，包括各类报表、历史记录等，在以上数据计算的基础上，开展更高层次的数据分析，进行数据建模、数据预测、数据分类和聚类等，支持在线算法处理应用，为铁路分析决策提供平台支撑。以客运数据、基础设施数据为例。

②基础设施大数据

铁路基础设施主要包括轨道、接触网、信号机、桥梁、隧道等，通过大数据中的数据挖掘、预测分析等对工务进行故障发现、故障预测，通过大数据中的关联分析、数据挖掘等对接触网运行质量进行评价，通过大数据中的聚类分析、判别分析等对通信设施故障进行归类，对不同路局的通信故障进行判别分析。

(3)应用层。主要包括铁路大数据的深度应用，涉及图2的第五层，针对各个业务领域的数据分析和决策支持的需求，能够实现多业务的数据系统，支撑面向多层次多用户的分析应用，包括战略决策、经营管理、现场管理等。在经营效益层面，重点对客货运开展营销分析、行业竞争分析、价格管理、成本分析等；在运输安全方面，进行运营安全隐患预测、行车安全分析、事故调查等；在运输效率方面，进行物资供应分析、运力的调配和优化、运输组织优化等；在客户服务方面，进行客货运客户精准营销、扩展服务和产品质量提升等。

图3 机车车载安全防护系统

(三)铁路大数据处理流程

铁路是一个庞大的体系，针对各个领域的数据采集、处理、分析等都有相应研究，如：通过CMD系统对机车数据的采集与处理，通过6A系统对机车安全数据的采集与处理，通过TMIS系统对铁路运输管理数据的采集与处理，通过12306系统针对客运数据的采集与处理，通过95306平台针对货运数据的采集与处理等。随着信息技术的发展，铁路数据采集的频率、精度不断提高，基于各种数据融合的数据分析方法越来越多。然而，如果从大数据流程的角度来考虑，大部分研究仅仅侧重于数据流程的几个环节，还很难有能够全部覆盖整个链条的应用。通过对比其他领域的相关研究，铁路大数据流程应该包括铁路数据的采集、预处理、管理、处理、分析等，不同阶段的支撑有所不同。在数据采集阶段，主要是各种硬件设备(传感器、应答器、摄像仪等)对数据的采集和信息系统的数据交换；在数据预处理阶段，主要是数据筛选、数据清洗、数据整理、数据标准化等工作，通过制定标准或设计算法能解决大部分的问题；在数据管理阶段，更多的是依托于现有的一些大数据软件、系统等；在数据处理阶段，针对具体的应用场景需要不同的处理平台或技术支撑，比如分布式处理等；数据分析阶段是与应用或需求息息相关的，通过设计不同的模型可以获得不同的分析结果。

严格意义上讲，数据采集包括“采”和“集”两个内容，“采”是指对物体的数字化表达、形成数据的过程，主要是各类硬件设备、信息系统，“集”是指将数据汇聚的过程，主要是传输网络，包括铁路内网、北斗导航、GPRS、WLAN等技术。当前，电子技术、信息技术快速发展，面向铁路领域的数据感知设备越来越多，传感器、移动终端等快速推广和应用，结构化、弱结构化、半结构化及非结构化的铁路数据源源不断地产生。现有研究展示了数据的多种方式，包括基于硬件设备的机车、车辆、线路等数据采集、基于信息系统的运输生产数据采集，数据采集的频率越来越高、精度越来越高、质量越来越高，图片、视频、音频等非格式化的数据也越来越多。例如，机车CMD系统不仅要通过传感器、摄像仪等采集机车运行数据，还要通过数据交换的方式采集6A系统中的机车安全数据，集成了所有机车数据。

1.铁路大数据获取

根据图1的大数据技术架构，以及铁路大数据产业链及其本身的特性，本文构建了铁路大数据的系统架构，并将其分为五个层级来满足大数据技术从数据采集到最后应用端的全部过程，见图2。

有些言语行为，比如打招呼(greetings)(见Reed 2009)、表达感激(expressions of gratitude)(见Schauer & Adolphs,2006)，有较为固定的表达方式，语言形式单一，容易识别，因此比较适合从语料库中获取相应语料。而其他一些言语行为，如致歉，表达这一语力的语言形式多样，不固定，有时甚至可以借由表达遗憾(例如“I’m sorry you feel that way”)来曲折地实现致歉的语力，此时语料库就不是一个很好的选择。

信息化教学设计比赛，是在教师对现代教育思想和教学理念的准确理解与运用的基础上，遵循职业院校学生认知规律，科学、合理安排教学过程的各个环节和要素，在教师角色、教学内容、教学方法、互动方式、考核与评价等方面有所创新，在实际教学中应用效果突出。重点考察教师合理、充分运用信息技术、数字资源和信息化教学环境，解决教学难点，突出教学重点，系统优化教学过程，完成教学任务的能力。

铁路很多数据是实时采集，硬件设备的损坏、人工处理的纰漏、传感器等时间不一致等都会使采集的数据中存在大量杂乱、重复、不完整的数据，严重影响后期的数据处理分析，进而导致决策偏差、失误等。数据预处理非常重要，比如在一个完整的数据挖掘过程中，数据预处理所花费时间比例能约达60%。数据预处理主要包括对已采集数据的清理、抽取、集成、变换、数据质量评估等，铁路数据预处理过程需要注意以下问题：①数据清理重点针对数据源中的噪声数据、无关数据等；②通过数据抽取技术进行数据的归一化表达和一致性处理；③通过集成实现模式层的数据一致；④数据变换主要是通过规格化、旋转、投影等操作对数据进行简化，找到数据特征表示；⑤对数据质量进行有效评估，一致性、正确性、完整性和最小性是数据质量评价的基本指标。例如，对机车能耗数据的处理，首先要对重复、无效的数据进行筛选、清洗，对来源于不同数据库的信息进行集成，以时间为标准进行统一，对不同区段的能耗数据按照公里标进行判别、提取，最后得到完整的机车能耗数据库。

3.铁路大数据管理

患者病情观察除常规外,我们要求医生在患者手术下来时用记号笔在头部敷料上画上手术切口的走向以提醒不能受压。医生换药时,责任护士必须查看伤口,并记录于特护记录单上。

大数据管理是指利用数据库技术、分布式文件系统技术等实现对各种数据的有效组织，达到快速索引、高效查询等目的。传统的数据库技术以关系型数据管理为主，数据量级相对小，在面对半结构化、非结构化数据洪流时，其扩展性存在障碍，难以满足需要。面对类型多样、形态各异、数量庞大的铁路大数据，需要根据具体需求选择合适的数据库。图存数据库以及文档数据库等非关系型数据库、传统关系数据库系统以及 New SQL 数据库等都将在铁路大数据的管理中起到重要作用。例如，对客运大数据进行管理，全路每天上千辆列车运行产生海量数据，在进行数据预处理后按照特定需求对数据进行判别，建立数据仓库，进而形成不同类别的数据库。

4.铁路大数据建模

大数据的研究最主要的功能在于利用数据分析技术获取未知潜在关联、隐藏范式、市场及社会规律和附加价值等。传统的数据分析技术，如数据挖掘中的关联、聚类、分类、预测、时序模式、偏差分析等技术将仍然可用。一些新兴的数据分析技术，也将不断涌现，并将在铁路大数据领域占据重要位置。例如，通过先进的人脸识别技术，将旅客头像与海量的治安大数据进行匹配，实现刷脸进站，简化了安检流程，也在一定程度上打击在逃人员。

5.铁路大数据应用

光学相干断层扫描技术凭借其操作方便、无创等优势成为眼科医生在临床疾病,特别是眼底病诊断中的辅助检查手段之一。近年来,OCT扫描在临床上得到了迅速的应用,成像分辨率更高,达到组织学水平,可准确测量黄斑部视网膜厚度。黄斑部是视觉最敏锐的地方,黄斑部视网膜厚度微小的变化也将魂影响中心视力,传统的眼底检查如眼底镜、三面镜眼底血管荧光造影等在病变不明显时不太可能准确定量分析黄斑部视网膜厚度。但是SD-OCT可以清楚地观察黄斑活体结构,并能定向分析黄斑区厚度,能更早、更准地了解黄斑部相关功能的改变。

现有的铁路数据的应用大多还集中于行业内部，用于安全运营以及相应的服务功能。实际上，铁路行业的泛在特性决定了铁路行业的多维应用，基于数据挖掘得到的附加价值使铁路行业的大数据应用外延可以拓展更广。在旅游行业，高铁作为交通出行的重要选择可以为旅游行业提供旅客流动数据及其呈现的特征，便于行业利润的提升。在国家层面，基于铁路大数据的地域性特征根据旅客出行的目的及地区旅客流动量，可以作为地区经济发展的重要评估指标。交通出行将成为未来国家经济发展的重要组成部分，铁路大数据的应用前景会随着与不同行业的交叉关联，变得更为广阔。

缺陷的尺寸大小和出现位置都是随机的，部分缺陷可能跨越了多个区域块，因此采用缺陷连通域标记的方法对跨块缺陷区域进行合并，该过程主要包括分块状态初判、初步标记、等价标号处理、共同连通域标号更新4个阶段，其处理流程如图3所示。

四、总结及政策建议

在大数据时代，数据成为基础战略性资源，本文对大数据关键技术架构进行总结，并以铁路行业为例，构建了大数据技术在铁路行业的应用概念框架，主要总结如下：

1.从数据来源、数据获取和数据服务等方面对铁路大数据的内涵和特征进行了阐述。铁路大数据是指大数据技术在铁路行业中的应用，不仅包括大数据的数据采集技术、分析技术和统计预测技术，还包括大数据的思维和理念在铁路行业中的应用。铁路大数据不仅具有大数据的一般特性，还具有自身行业的独特特点：泛在性、地域性和交叉性。这为更清晰的认识铁路大数据和应用铁路大数据奠定了基础。

2.从铁路数据获取层、平台层和应用层提出了铁路大数据的平台架构。首先，铁路大数据的获取层主要包括数据的采集及初步分析，通过采集各类铁路信息系统、传感器、生产报表等类型的数据，实现铁路海量数据的集成。其次，平台层主要包括铁路大数据的处理及初步应用，通过批量计算、内存计算等多种计算方式，满足铁路不同业务类型数据的计算需求。最后，应用层主要包括铁路大数据的深度应用，针对各个业务领域的数据分析和决策支持的需求，能够实现多业务的数据系统，支撑面向多层次多用户的分析应用，包括战略决策、经营管理、现场管理等。铁路大数据的三层平台架构为建设铁路数据服务平台奠定了基础，涵盖了铁路基础数据管理、数据集成、数据共享、大数据存储与分析等功能，保障了铁路数据的准确性及共享性，可有效提升大数据分析的数据质量，便于建立对不同业务实体的数据关联，以实现多实体关联分析。

3.从铁路数据获取、处理、管理、建模和应用等方面提出了铁路大数据处理的流程。在数据获取阶段，主要是各种硬件设备(传感器、应答器、摄像仪等)对数据的采集和信息系统的数据交换；在数据处理阶段，针对具体的应用场景需要不同的处理平台或技术支撑，比如分布式处理等，在此阶段，针对数据自身特点，需要提前进行预处理分析，主要包括数据筛选、数据清洗、数据标准化等工作；数据分析阶段(包括管理、建模和应用等)是与应用或需求息息相关的，通过设计不同的模型可以获得不同的分析结果。铁路大数据处理流程的确立可利用当前较为成熟的大数据采集、分析、应用等相关技术，解决当前铁路面临的数据共享、数据治理、数据分析等方面的挑战，使大数据技术在铁路领域的广泛应用成为可能。

针对铁路大数据基础框架的研究，对于铁路提高运输安全水平、实现客货运精准营销、提高运输效率均具有一定的借鉴意义。通过以上三个方面的总结，为更好地实现大数据技术在我国铁路行业的应用，本文提出以下政策建议：

1.强化顶层设计。铁路大数据的内涵及特征表明，铁路大数据是铁路技术、铁路科研、生产管理等全产业链的跨业务、跨部门、跨区域、跨专业的有效工具。大数据在铁路行业的开展需要多个部门相互配合和协调，加强顶层设计至关重要。这需要从总公司层面进行铁路大数据的相关组织工作，包括制定铁路大数据的目标和计划、重点任务(包括铁路大数据基础设施的实施、大数据应用技术的选择和大数据平台的建设)的分解和落实、实施铁路大数据的保障措施(包括组织保障、资金保障、制度保障等)。

2.充分借鉴其他行业的大数据应用经验。铁路大数据的平台架构与其他行业的平台架构存在一定的相似之处，均是以大数据的关键技术架构为基础结合自身行业的特征而建立的。电信行业和电力行业在我国开展大数据技术应用起步较早，在某些领域已经应用的比较成熟，并且这两个行业与铁路行业相同，都具有天然垄断性特征，在大数据技术应用方面可以进行借鉴。例如，借鉴电信行业在数据采集和分析方面应用的经验，借鉴电力行业利用大数据进行智能化建设，可为铁路利用大数据技术建设智能高铁提供思路。

3.分阶段开展大数据应用。铁路是一个庞大的体系，针对铁路各个领域的数据处理流程都需要与该领域相对应的研究。铁路开展大数据应用需要大量基础设施投入，并且还存在需求和应用的衔接等问题，因此，可以采取分阶段分步骤、先典型后示范的措施。在初期，可以利用既有的基础设施进行铁路数据的采集、处理和分析，形成一批大数据应用典型业务试点；在中期，适时建设一批大数据中心，扩大数据采集分析的范围，在某些业务形成成熟应用；在后期，根据业务需求建设大数据中心基地，对铁路数据采集分析实现业务全覆盖，形成成熟的铁路大数据应用。

参考文献:

[1] 麦肯锡.麦肯希大数据指南[M].北京：机械工业出版社，2016.

[2] ASKITAS N, ZIMMERMANN K F. Google Econometrics and Unemployment Forecasting[J]. Applied Economics Quarterly, 2009,55(2):107-120.

[3] MCLAREN N, SHANBHOGUE R. Using Internet Search Data as Economic Indicators[J]. Bank of England Quarterly Bulletin, 2011,51(2): 134-140.

[4] VICENTE M R,LPEZ-ÉMENÉNDEZ A J,PÉREZ R. Forecasting Unemployment with Internet Search Data: Does It Help to Improve Prediction When Job Destruction is Skyrocketing?[J] Technological Forecasting & Social Change, 2015,92(92):132-139.

[5] CAVALLO A, RIGOBON R. The Billion Price Project: Using Online Prices for Measurement and Research[J]. Journal of Economic Perspective, 2016, 30(2):151-178.

[6] 姜文杰，赖一飞，王恺. 基于百度指数的房地产价格相关性研究[J]. 统计与决策，2016,(2)：90-93.

[7] 李凤岐，李光明. 基于搜索行为的经济指标预测方法[J]. 计算机工程与应用，2017,53(6)：215-222.

[8] ANTWEILER W, FRANK M Z. Is All That Talk Just Noise? The Information Content of Interest Stock Message Boards[J]. The Journal of Finance, 2004, 59(3):1259-1294.

[9] GILBERT E, KARAHALIOS K. Widespread Worry and the Stock Market[R].Palo Alto:Association for the Advancement of Artificial Intelligence,2010.

[10] MOAT H S,CURME C,STANLEY H E, et al. Anticipating Stock Market Movement with Google and Wikipedia[J]. Nonlinear Phenomena in Complex Systems: From Nano to Macro Scale, 2014,(1):47-59.

[11] LI Y,ARORA S, YOUTIE J, et al. Using Web Mining to Explore Triple Helix Influences on Growth in Small and Mid-size Firms[J/OL]. Technovation, 2016, http://dx.doi.org/10.1016/j.technovation.2016.01.002.

[12] CHITTARANJAN G,BLOM J,GATICA-PEREZ D. Mining Large-scale Smartphone Data for Personality Studies[J].Personal and Ubiquitous Computing, 2013, 17(3):433-450.

[13] 李杰. 工业大数据——工业4.0时代的工业转型与价值创造[M].邱伯华等译. 北京：机械工业出版社，2015.

[14] 吴力波，周阳，陈海波，杨增辉. 基于智能电网大数据的工业企业大气污染排放特征研究[J].中国环境管理，2016，(4)：37-42.

[15] 郭雷风.面向农业领域的大数据关键技术研究[D].北京:中国农业科学院农业信息研究所，2016.

[16] 田歆，汪寿阳，额尔江，丁玉章. 零售大数据与商业智能系统的设计、实现与应用[J].系统工程理论与实践，2017，37(5)：1282-1293.

[17] 周辉宇. 基于大数据规则挖掘的交通拥堵治理研究[J].统计与信息论坛，2017，(5)：96-101.

[18] 谢康，肖静华，王茜. 大数据驱动的企业与用户互动研发创新[J].北京交通大学学报(社会科学版)，2018，17(2)：18-26.

[19] 朱洁，罗华霖. 大数据架构详解：从数据获取到深度学习[M].北京：电子工业出版社，2016.

[20] 李华杰，史丹，马丽梅. 基于大数据方法的经济研究:前沿进展与研究综述[J].经济学家，2018，(6)：96-104.

[21] EMC Education Services.数据科学与大数据分析[M].曹逾等译. 北京：中国工信出版集团、人民邮电出版社，2016.

[22] 刘俊等. 智能铁路大数据分析平台研究[G]//中国智能交通协会.第十一届中国智能交通年会大会论文集，北京:电子工业出版社,2016:105.

[23] 申瑞源.机车车载安全防护系统(6A系统)总体方案研究[J].中国铁路，2012，(12)：1-6.

[24] 王同军. 中国铁路大数据应用顶层设计研究与实践[J].中国铁路，2017，(1)：8-16.

Big Data Technology and Its Industry Applications :A Study Based on Conceptual Framework of Railway

MA Li-mei¹，SHI Dan²，GAO Zhi-yuan³，LI Hua-jie²

(1. China Centre for Spelial Economic Zone Research, Shenzhen University, Shenzhen Guangdong 518060,China;2.Institute of Industrial Economics, Chinese Academy of Social Sciences, Beijing 100836,China; 3.Tansportation & Economics Research Institute, China Academy of Railway Sciences Cooperation Limited, Beijing 100081, China)

Abstract ：By summarizing the key technology of big data architecture, and based on the description of data acquisition, data processing, data analysis model and data application, we use the big data key technology platform to construct an architecture of the railway big data application system, which includes the railway data acquisition layer, the platform layer and the application layer, and describes the processing flow of railway big data. The establishment of railway big data architecture framework will promote the entry into force of big data technology in the railway industry in China, thus comprehensively improve the management and development level of railway data resources, and provide railways the reference to improve the transportation safety level, achieve accurate marketing of passenger and freight transportation and enhance transportation efficiency. In order to better realize the application of big data technology in China's railway industry, we should strengthen the top-level design, fully draw on the experience of other industries' big data applications, and implement the railway big data strategy step by step in stages in combination with the demand of railway development.

Key words ：industrial big data; Spark framework; big data industry; railway big data

中图分类号: F570

文献标识码： A

文章编号： 1672- 8106( 2019) 03- 0058- 10

收稿日期: 2018- 06- 04

基金项目：国家自然科学基金重大应急项目“我国经济高质量发展与产业结构调整升级研究”(71841015)；中国社会科学院工业经济研究所京津冀智库课题“大数据应用及实验室建设”(GJSZK201905)。

作者简介：

马丽梅，女，深圳大学中国经济特区研究中心讲师。研究方向：产业经济学。

史丹，女，中国社会科学院工业经济研究所研究员，博士生导师。研究方向：产业经济学。

高志远，男，中国铁道科学研究院运输及经济研究所助理研究员。研究方向：运输经济学。

他眼神坚定、言语利落，总能让人感受到一种胸怀山川、不困沟渠的大格局；他坚持将企业定位为“比跨国企业更本土，比本土企业更专业”，最终带领康师傅交出了漂亮的成绩单。

(责任编辑:张雅秋)

标签：工业大数据论文; Spark框架论文; 大数据产业论文; 铁路大数据论文; 深圳大学中国经济特区研究中心论文; 中国社会科学院工业经济研究所论文; 中国铁道科学研究院运输及经济研究所论文;

大数据技术及其行业应用：基于铁路领域的概念框架研究论文

一、引言

二、大数据的技术架构