机场大数据建设探讨
文|云南机场集团有限责任公司 范怀炜
近年来,大数据先是被“神化”,继而被“泛化”,以致于淡化了对大数据本质和内涵的共识。机场大数据,往往作为智慧机场建设中的一项来对待,缺少系统性的规划和建设。本文重拾行业前几年就热烈讨论过的“大数据”话题,分析这些年大数据建设的成绩与不足,以大数据的本质要求为出发点,探讨机场大数据建设当前应做什么,为什么,以及如何做。
一日清理橱柜,翻出了十四年前女儿出生时珍藏的一小布包胎发,郑重其事地交与女儿保管,希望当她有朝一日青丝变白雪之时,能手握这胎发想起已经消失的父母,想起艰难走过的岁月。
一、大数据相关基本概念
大数据(Big Data)一词正式出现在2011年麦肯锡全球研究院发布的《大数据:下一个创新、竞争和生产力的前沿》研究报告中。其实,“大数据”应用在天文、基因、地质、气象、环境生态学等领域以及金融、通讯等行业已经很多年了。
大数据到底是什么?维基百科的定义,大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。研究机构Gartner的定义,大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据其本质仍然是数据,只不过这些数据需要用新的技术手段来处理才能发掘出潜在的价值。这些新的技术手段可以称之为大数据技术。
在大数据技术栈(如表所示)中,有一揽子的信息技术为实现大数据的价值提供支持,其中也有已经使用多年的信息技术。在大数据技术栈中,涵盖了数据采集、数据存储、数据计算、数据展现与交互,以及承载大数据运行的云计算平台、数据传输系统、数据安全技术等。
DIP出现以下情况不得使用:管子表面出现凹陷、裂缝、重皮、毛刺等铸造缺陷超出规范和设计要求;飞边清除后造成壁厚减薄超过壁厚允许值;承插口密封工作面有连续轴向沟纹;管内表面上任何凸起高度超过内衬厚度的1/2。
什么是大数据思维?《大数据时代》的作者维克托·迈尔-舍恩伯格认为,大数据需要全部数据样本而不是抽样,需要关注效率而不是精确度,需要关注相关性而不是因果关系。这个理念被认为是大数据思维,简单来说就是全样思维、容错思维和相关思维。
近几年国内机场新增加不少的“大数据”建设项目,在数据共享、数据交换、数据展现方面取得了一些成绩,也因此促进了信息化基础设施的建设。不足之处有:数据应用的效果远未及大数据的期望,例如通过多源数据的关联性分析可以促进的旅客个性化服务、精准营销、航班预达时间和预离时间、机场规划、航线拓展等方面的应用效果不明显,基于大数据的人工智能类应用包括图像识别、语音识别、文字识别等方面进展缓慢;大数据的基础条件建设成果不适应大数据的要求,例如机场数据管理能力低,数据资产管理的意识不足,数据共享程度低,能够获取到的组织外部的数据不足;模糊性的借用“大数据”概念建设常规的信息系统,误导决策层和最终用户低估大数据系统的价值。
数据通过使用产生价值,大数据的分析使用可以分为五个阶段:数据采集阶段,数据处理阶段(如格式转换、数据加解密、数据签名等),数据建模阶段(如模型管理、模型优化),数据分析阶段(如数据报告、数据预警、数据洞察),数据可视化阶段(如热力图、切片图)。数据的使用价值集中体现在数据分析阶段,常用的有预测性分析、关联性分析、趋势分析等。
决胜居庸关之后的第三天,秦铁崖来到焰火渠平安沟,告知老太医和乔十二郎:“十二郎猜得不错,给江云飞下战书的,并非风云八虎,给风云八虎下战书的,也不是江云飞。此事巧妙之处在于,策划者洞悉双方心理,无论哪一方挑战,另一方都会应战。也就是说,下战书这个环节,无所谓谁先谁后、谁主动谁被动,策划者同时给双方送达了战书。当事双方一接到战书,所想的完全一样,你敢下战书,我就敢应战。”
大数据技术栈
大数据理论和技术都还处于发展阶段,远未成熟。抛弃生硬的技术术语总结一下,大数据就是把从多种数据源获得的数据整合在一起,通过大数据的技术手段对这些数据进行加工,从而产生新的数据,并且这些新的数据价值非常大。大数据系统是一个综合的信息系统,一般包括云计算平台、数据采集系统、数据交换系统、数据计算分析系统和数据展现等功能和部件。
二、机场大数据建设的主要内容
大数据的 4V(Volume,Variety,Velocity,Value)特征中,数据种类多(Variety)是指有结构化数据和非结构化数据,而且数据来源有组织内部的也有组织外部的;数据价值大(Value)是指数据的单位价值密度低,但大数据的战略意义不在于掌握庞大的数据,而在于对这些含有意义的数据进行专业化处理,通过“加工”实现数据的“增值”。
Step 1:建立组织机构,编制管理办法、工作计划。
《中华人民共和国国民经济和社会发展第十三个五年规划纲要》指出:把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新;我国《“十三五”国家信息化规划》第三项重大任务和重点工程是“建立统一开放的大数据体系”,要求加强数据资源规划建设、推动数据资源应用、强化数据资源管理、注重数据安全保护。
Q:上海印刷业近年来获得了众多国内外的印制大奖,这是否代表上海印刷的水平达到了国内乃至国际领先的水平?
可以看出,国家对大数据战略规划的定位是:数据共享、数据应用、数据管理、数据安全。本文从数据共享、数据管理、数据应用、数据安全四个方面,阐述机场大数据建设的主要内容。
(一)数据共享
多种数据来源是大数据的主要特征之一。数据共享包含两个层面,一是机场内部各部门各系统之间的数据共享,二是机场与外部单位的数据共享。
要做机场大数据,首先要实现机场组织内部的数据共享。机场组织内部数据共享的必要性已是共识,目前机场有关生产运行的系统会通过数据总线(数据交换平台)共享数据,也有直接通过数据接口方式实现数据共享的。机场普遍存在组织内部数据共享不足的现象。
数据资产管理一般包括三个层面的内容:首先是对数据资产的管控,让数据准确、一致、完整、安全可控、没有歧义、来源统一;其次是数据资产的应用,让数据在使用过程中更为透明、易用、共享,应用与数据解耦,有利于数据驱动的应用软件开发,促进数据升值;最后是对数据资产的运营,让数据对外开放、分发、交换、共享,从而促进数据资产价值变现。
实现机场与外部单位数据共享的主要工作是对可以共享的信息资源编目、采集、存储、交换(发布),这项工作对有数据共享需求的双方组织都是一样的。我国政务信息系统数据共享近几年取得显著成效,国家出台的《政务信息资源目录体系》(GB/T21063)、《政务信息资源目录编制指南(试行)》、《国务院办公厅关于印发政务信息系统整合共享实施方案的通知》(国办发〔2017〕39号)对政务系统信息共享的推动极大。机场行业信息共享可以参考政务系统的方法,需要强有力的牵头单位以及统一的信息资源编目标准和数据交换平台。
美国道化学公司(DOW Chemical Co.)在1986年5月开发了CEI[6-8],CEI与F & EI配套使用可有效地评价化工装置及相关设施变化的潜在危险。CEI可系统提供一种评价相对危险等级的方法,用于评价可能的化学释放事件对邻近的人员或居民产生的严重健康危害。
机场大数据建设,需要建立“全样、相关”的大数据思维,落地就是要有“信息数据共享”的举措。机场组织内部必须共享信息数据,必须促进机场与外部单位的数据共享。
Around 0.1% of pregnant women develop a malignancy and there is limited experience on the management of colorectal cancer diagnosed during pregnancy or perinatal period. When colorectal cancer is detected in this period,treatment options may be limited.
(二)数据管理
随着智慧机场建设的推进,机场信息弱电系统越来越多,规模越来越大,数据量快速增长。这些不断增长的数据是机场大数据的主要来源,其质量也决定了大数据系统的可用性。
机场产生的数据,应当按照数据资产进行管理。在当前实践中,机场普遍缺乏适应的数据资产管理能力,表现在:机场不知道自己有些什么数据,这些数据从何处产生,存储在什么地方,如何定义,安全性如何,谁负责维护,怎么得到,谁在使用;数据很多,想要的数据却找不到,同一个数据项量值不一致,同一个数据名代表的意义不一样;数据质量差,数据的完整性、规范性、一致性、准确性、惟一性、时效性得不到保证;系统间数据接口复杂,数据流程过长,相互依赖性过高,数据重复处理现象增多。
要做机场大数据,其次要实现机场与外部单位的数据共享。机场在民航业务链条中只是一个环节,在交通运输领域只是一个点。机场的规划建设、生产运行都离不开外部单位的信息数据,比如当地的经济发展数据、人口数据、水文地质气象数据、其他交通运输数据等;比如民航空管、航空公司的航班数据、旅客数据、货运数据等;比如驻场单位海关、检验检疫、公安值班数据;比如前序航班和后续航班机场的运行情况数据等等。机场客观上必须要获得外部单位的数据,也应该为外部单位提供数据服务,比如为其他机场、航空公司、空管、驻场单位、机场商家、国家安全管理部门等提供服务。目前除了空管、航空公司、中国航信外,机场与外部单位数据共享程度低,共享方式一般是通过点对点的接口方式交换双方需要的数据。
机场的数据管理可参考《数据管理能力成熟度评估模型》(GB/T 36073-2018)和《数据资产管理实践白皮书(2.0)》(中国信息通研究院云计算与大数据研究所,2018年4月)。本文参考这两部文献并结合所在机场集团的实际,提出的机场数据管理分步实施主路线如下。
本文认为机场大数据建设是一个长期的过程,首先应不断夯实大数据建设的基础条件,根本的是应做好数据管理。其次以数据驱动的方式不断开发业务应用系统,提升数据的价值。具体要做的工作,可以从国家层面的规划中总结得到。
该实验过程利用Socket实现服务器与查询端之间的数据通信。本实验结果受到待测试数据集基数和服务器数量的影响,并且不同数据集锚点分布不同,会对实验结果造成一定的影响。图4展示了在Core数据集中,PP-VPS协议和VPS协议在服务器数量从2增长到9的过程中的计算时间。当服务器数量从2增长到5时,PPVPS协议运行时间从65.849秒增加到200.945秒。当服务器数量小于5时,PPVPS和VPS算法执行时间近似,当服务器数量大于5时,PPVPS执行时间出现较快增长。
Step 2:整理数据需求。进行业务流程梳理和数据流梳理,进行数据资产盘点(终稿应包括数据资产的分类和编码),编制数据需求报告。
Step 4:数据设计和开发。编制数据解决方案包括数据库结构、数据采集、数据整合、数据访问、数据交换;编制应用系统开发包括数据处理、数据查询、数据推送、数据可视化。
Step 3:制定规范和标准。编制管理规范包括数据需求、数据质量、数据安全、数据共享;编制数据标准包括数据元、元数据、主数据、数据模型、数据接口。数据标准适用于Step 2中数据资产盘点。
Step 5:数据运维。根据管理规范和数据标准,明确数据责任主体(决策者、管理者、提供者、开发者、消费者)的责任和权利。
洋桔梗常见的生理性病害有烧尖、茎裂、黄化等。烧尖是高温、强光、缺钙、氮肥过量或通风不足引起的叶尖干枯现象[5]。茎裂分横裂和直裂,横裂是缺硼或氮、钙肥过量引起,pH值过低也可能引起;直裂是钾肥过量,高温时水分太多引起。氮肥过量容易引起花朵中间变白。新叶黄化主要是缺铁、钙肥或缺其他微量元素引起,根系生长发育不良也会导致叶片黄化。
Step 6:数据退役。包括数据归档及恢复的管理办法,数据销毁的管理办法。
摘要是对原文献内容准确、扼要而不附加解释或评论的简略表述。学术期刊英文摘要是独立于学术论文存在的二次检索文献。摘要具有相对独立的子语篇,具有筛选、预览和索引功能。学术论文摘要常见的结构分为四个语步—引言、方法、结果和结论。摘要可以传递及交流相关科学技术新成就,读者可利用摘要掌握文献线索,从中获取有用资料。学术期刊论文的英文摘要是对促进学术信息的传播起着重要作用,也影响着学术期刊论文被国际权威检索系统收录的数量、被检索率和被引频次。因此,不断提高国内期刊学术论文英文摘要的质量,提出相应的改进措施非常重要。
“从IT时代进入DT时代”、“数据(信息)成为继物质、能源之后的第三大战略资源”,数据资产管理对任何一个组织都日益重要。机场数据管理是建设机场大数据系统的“软件基础”,决定了数据共享能够达到什么样的广度、数据应用能够达到什么样的深度、数据价值有多大,也决定了机场信息化能够走多远,是“机场数字化”转型无法避开的前置性工作。
A:6~7mm;B:3~4mm;C:0;D:4~5mm;E:6~8mm,表面硬度为53.5HRC,均在热处理技术要求范围内,此项为非要因。从热处理加热和剖切的硬化层深方面判断不存在引导轮体过热和不符合热处理技术要求的问题。
(三)数据应用
数据应用是通过“加工”采集到的数据,产生新的数据,是大数据的目标。基于大数据的应用系统开发模式,是以数据为导向的,本质上是数据工程师主导、业务人员参与。这与传统的业务应用系统开发模式不一样,传统的开发模式是以业务需求为导向的,本质上是业务人员主导、软件工程师参与。大数据系统建设,基础条件是要有数据,价值体现是对数据的应用能力。
基于大数据典型的技术应用领域,有数据挖掘、模式识别、机器学习、深度学习、人工智能、专家系统、决策支持、推荐系统、计算广告、虚拟现实、增强现实等等。这些技术在IT领域是有区别的,在应用领域可以简单归为人工智能(AI)类应用。人工智能需要一个“学习”的过程,学习是通过大量的样本数据“训练”完成的。大数据为人工智能的发展提供了样本数据条件,人工智能同时也提高了大数据的数据资产使用价值。目前,人工智能在语音识别、图像识别、文字语义识别方面的成果,可用于机场的业务。比如基于语音识别的机场智能问询系统,基于图像识别的机场“一张脸”的自助系统、FOD检测系统,基于文字语义识别的“舆情监控”系统等。
大数据“相关思维”强调的是多源数据的聚集关联后所形成的某个领域的数据全集,对多源数据的充分融合和深度挖掘以找出数据之间的关联关系,简单的例子就是“啤酒与尿布”的故事。在机场行业,使用大数据进行关联分析的案例不多见,这是值得挖掘的领域。可以设想,当机场的数据源足够丰富时,是否可以分析出跑到预防性维护与跑道特性、当地气候、起降架次和机型以及载重、飞行区地质等之间的关系,是否可以改进目前旅客吞吐量的预测方式以及航线需求的预测方式,是否可以改进航班预达/预离时间的预测,是否可以改进旅客的服务流程、改进机场的管理流程,是否可以减少飞机在机场上空盘旋等待的时间、减少飞机在机场的等待时间,是否可以为机场商家提供数据服务以增加其销售额,是否可以提升终端客户的愿意性(旅客愿意乘坐飞机、愿意在机场消费,货物愿意通过航空运输)。
如何使用数据,是大数据价值最直接的体现,相关技术仍在研究。但是大数据的数据要求即量大、源多、质高,是共识的。所以,本文认为现阶段机场大数据建设需要做好数据共享和数据管理的工作,以数据驱动的方式,不断增加业务应用系统的开发。
(四)数据安全
大数据架构下,数据资源在采集、存储、应用、开放共享等环节都存在安全保护的要求,所以数据安全更为复杂。大数据架构下的安全保障,涉及到物理安全、系统安全、网络安全、应用安全、数据安全、管理安全等方面,面临计算机病毒、网络入侵、网络攻击、自然灾害(地震、水灾、台风等)事件、火灾事件、恐怖袭击事件、信息基础设施故障事件等等的威胁,造成的后果有数据泄露、数据丢失、数据被篡改、系统服务中断等。
机场大数据建设,数据安全方面除了传统保证措施外,技术方面应重点考虑的需求有数据的机密性、完整性、可信性、可用性、使用可控性等。应特别关注的措施包括:
1.“双活”架构的大数据运行平台:“双活”架构包括存储、网络、计算服务器、通信线路、数据库、操作系统、应用软件等方面。“双活”架构主要是提高数据可用性、业务连续性。
2.数据脱敏:机场大数据难免包括旅客个人信息等敏感数据,共享使用应先脱敏,以提高数据机密性的要求。
3.数据的分级分类:对机场的数据实行分级分类管理,以提高数据使用可控性。
4.身份认证和访问授权:身份认证包括用户认证、服务认证、主机认证等,通过身份认证和基于数据分级分类的访问授权以提高数据使用可控性、数据机密性。
5.数据加密和数据签名:在数据传输和存储过程中,通过数据加密和数据签名,以提高数据的机密性、完整性和可信性。
城市化率越高,农村土地流转率越高。城市化的基本特征是农村人口向城市转移,农业向第二、三产业转变。从人口转移的角度看,农民放弃农业生产,获得非农就业机会时,更倾向于在城市或郊区定居;从产业转变的角度看,企业需要更多的资金、技术、资源来扩大规模,同时也提供了更多的就业机会,吸引了农村剩余劳动力。为了迎合产业转型升级、人口转移流动的目的,城市建设用地、居住用地的需求快速增长,在一定程度上推动了农村土地流转系统,有利于提高土地的节约集约度,缓解人地矛盾。
6.异地灾备:提高数据的可用性。
7.虚拟机安全:大数据架构下通常都会使用虚拟机,虚拟机保护措施不容忽视。对虚拟机的安全保护比对传统物理机的安全保护更为复杂,比如“虚拟机溢出”安全问题的发生、“虚拟操作系统的缺陷”被恶意利用等,将可能给系统带来灾难性的破坏。
数据安全的要求往往会与数据共享及数据应用产生冲突,应统筹考虑。有保密要求的数据不主张通过机场大数据系统共享使用,除此之外也不主张过分强调安全而降低数据共享和数据应用。
三、总结
2015年以来,我国各行各业的大数据建设可谓是“千树万树梨花开”,有取得显著效果的也有逐渐就“悄无声息”的。机场大数据建设普遍在数据展示方面给予了足够的重视,但是在数据管理、数据共享、数据应用方面的建设与大数据系统是不适应的。本文认为机场大数据建设在探索、实践几年后,应当进行系统性的思考了。机场为什么要建大数据、建大数据要做什么、怎么做?本文从大数据的本质出发,尝试探讨上述问题,期望能引起行业内更多更深入的讨论。