基于物流成本主题域数据仓库的DSS开发,本文主要内容关键词为:数据仓库论文,物流成本论文,主题论文,DSS论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 开发背景及现状
当前,我国物流业的发展已经达到了一个鼎盛时期,物流企业像雨后春笋般拔地而起,各企业间的激烈竞争也就在所难免。在竞争中,要立于不败之地,对成本的控制是关键所在。如何充分利用、挖掘现有数据,来支持科学决策,充分降低成本,使效益最大化,已被很多大型物流企业认识到。
物流业,本身就是一个融交通运输与信息管理为一体的新兴行业,所以在物流企业中,拥有大量的数据。只不过,这些数据具有冗余、大量、分散、异构等特点。据我国物流行业协会统计,目前92.56%[1]的物流企业,其物流业务系统只作为录入数据的工具,物流数据只作为各物流站点间要传递的信息,物流数据库只作为保存数据的场所。就企业决策而言,数据处于“死数据”状态,对企业决策基本没有意义。
而数据仓库(Data Warehouse,简称DW)正是在这些冗余、大量、分散、异构的数据之上,对数据进行查询、分析、抽取、转换、整合、优化等数据挖掘处理,对企业的决策起到积极地支持作用[2]。决策支持系统(Decision Support System,简称DSS)是辅助决策者通过从DW中挖掘出的数据、模型和知识,以人机交互方式进行半结构化或非结构化决策的计算机应用系统。
在我国,目前虽然还没有基于物流业的决策支持系统,但是基于成本主题域的其他行业DSS已经存在,如,人力资源成本DSS、财务成本DSS等。所以,基于物流业成本主题域DSS的研究与开发,是一个新颖、实用的新课题。
2 物流成本的构成
按成本项目划分,物流成本由物流功能成本和存货相关成本构成[3]。其中物流功能成本包括物流活动过程中所产生的包装成本、运输成本、仓储成本、装卸搬运成本、流通加工成本、物流信息成本和物流管理成本,存货相关成本包括企业在物流活动过程中所发生的与存货有关的资金占用成本、物品损耗成本、保险和税收成本。
(1)运输成本。一定时期内,企业为完成货物运输业务而发生的全部费用,包括从事货物运输业务的人员费用、车辆(包括其他运输工具)的燃料费、折旧费、维修保养费、租赁费、养路费、过路费、年检费、事故损失费、相关税金等。
(2)物流信息成本。一定时期内,企业为采集、传输、处理物流信息而发生的全部费用,具体包括物流信息人员费用,软硬件折旧费、维护保养费、通讯费等。
(3)保险和税收成本。一定时期内,企业支付的与存货相关的财产保险费以及因购进和销售物品应交纳的税金支出。
3 基于物流成本数据仓库的DSS结构框架
物流成本DSS的基本结构框架如图1所示。其主要可以划分为三个部分。
(1)源数据部分:是来自于不同地域、不同类型数据库、不同名称数据项的异构外部数据。
(2)数据仓库管理部分:ETL(Extract-Transform-Load,即数据抽取、转换、装载)是数据抽取、转换、清洗、装载的过程。是构建数据仓库的重要环节,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
(3)分析处理决策部分:联机分析处理(On-Line Analysis Processing,OLAP)是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。它通过对信息的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。决策数据是多维数据,多维数据就是决策的主要内容。其结果是以图形或者表格的形式来表示的对信息的总结。
4 基于物流成本数据仓库的DSS的构建
由于数据仓库是面向决策支持的,它具有数据量大但更新不频繁等特点,所以必须对数据仓库进行精心设计,才能满足数据量快速增加而查询性能并不下降的要求,为决策者提供强有力的决策支持。
4.1 确定主题域,设计数据仓库物理存储结构
由于数据仓库本身就是面向主题域的,所以,构建数据仓库的第一步就是确定主题域。本项目的主题域确定为物流成本主题域。
在确定了主题域后,下一步就是开发数据仓库中的数据物理存储结构。由于本系统使用的是关系型数据库,而未使用多维数据库,所以,需要设计与构建事实表与维度表。
事实表通常包含大量的行,其主要特点是包含数字数据(事实),并且这些数字信息可以汇总[4]。事实表由两部分组成,一部分是维度表的主键,另一部分是相关主题的数值型测量值,即事实。物流成本事实表的部分主要字段及其说明,如表1所示。
维度表可以看做是用户来分析数据的窗口。维度表包含事实数据表中事实记录的特性,有些特性提供描述性信息,有些特性指定如何汇总事实数据表数据,以便为分析者提供有用的信息,维度表包含帮助汇总数据特性的层次结构。部分物流成本维度表的部分主要字段如表2所示。
本项目的数据仓库的建模使用的是星型分析模型,即单个事实表位于中心,围绕着事实表的是多个维度表,如图2所示。不同维度的分析,就是从不同的角度观察事实,对事实颗粒按照不同的维度进行聚合。
4.2 ETL
ETL(Extract-Transform-Load),即数据抽取、转换、装载的过程。ETL负责将分布的、异构数据源中的数据,如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库中,成为联机分析处理、数据挖掘的基础。
(1)数据抽取。由于本项目的主题是物流成本,所以,在此主题下,要从来自不同地域、不同数据库类型、不同数据库、不同表格、不同字段名的数据中,对成本相关的数据进行抽取,以形成数据仓库中的初阶原始数据。
(2)数据转换。本系统的ETL的转换过程可以集中地体现为以下几个方面:
空值处理:可捕获字段空值,进行加载或替换为其他含义数据,并根据字段空值实现分流加载到不同目标库。如,并不是每一笔业务都有违约成本,所以将纪录中违约成本是允许为空值的。此时应将空值替换为了0值。
规范数据格式:可实现字段格式约束定义,对于数据源中时间、数值、字符等数据,自定义加载格式。如,对于车辆调度系统中表示布尔意义的字段“违章记录”,不同的分公司,其定义类型很多是不同的。如表3所示。在进行规范化数据格式后,将其统一为布尔型。
拆分数据:依据业务需求对字段进行分解。如,将日期型数据拆分为年、月、日。
建立主外键约束:对无依赖性的非法数据,替换或导出到错误数据文件中,保证主键唯一记录的加载。
(3)数据装载:用户从数据源抽取出所需的数据,经过数据转换、清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
4.3 数据挖掘
数据挖掘(Data Mining,简称DM),就是从存放在数据库,数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程[5]。例如,我们使用关联规则(Association Rules)挖掘技术,对物流成本库中的纪录进行资料挖掘。首先我们从原始资料集合中,找出了一个高频项目组(Large Itemsets)——[车辆行驶里程,通讯费,违约费]。从字面上看,好像它们间并没有直接关系。但,从数据上看,车辆行驶里程高,则通讯费与违约费相对也高。通过在通讯费及违约费在车辆行驶里程维度上的行驶里程≥10万公里的聚集(Clustering),我们设定了最小支持度(Minimum Support)与最小信赖度(Minimum Confidence)两个门槛值如下所示:
最小支持度:min_support=5%
最小信赖度:min_confidence=70%
经过分析挖掘得出的数据非常令人满意:Support(车辆行驶里程,通讯费,违约费)=7.26%,Confidence(车辆行驶里程,通讯费,违约费)=86.33%。这些数据的物理意义是:在多数物流企业中,每名司机的通讯费是有上限的,而只有当没有按期给客户将物品运送目的地时,才会产生违约费。当车辆行驶里程大于等于10万公里时,车辆容易在路上抛锚。此时的司机与公司和家人等的通讯量会增加,在运输途中的时间会延长,违约率会增加。于是得出的结论是,对于时间要求较强的运输任务,不应调度行驶公里超出10万公里的车辆。这个决策大大降低了违约成本。
5 结束语
在当前社会中现代企业面临的竞争是越来越激烈,影响企业决策的条件也越来越复杂。基于物流成本主题域数据仓库的DSS的构建,为物流企业从各个角度最大化地降低成本起到了非常大的决策支持作用。这使物流企业不仅是大量数据的高速创造者,还是大量数据的充分使用者,使物流企业在数据的支持下更快更好的发展。