决策支持新技术&数据仓库_数据仓库论文

决策支持新技术——数据仓库,本文主要内容关键词为:新技术论文,数据仓库论文,决策支持论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

数据仓库(DW)的概念是Prism Solutions公司副总裁W.H.Inmon在1992年出版的"Building the Data Warehouse"中提出的。进入20世纪90年代,随着信息技术的飞速发展,信息的存储管理、使用和维护变得越来越重要,依靠传统的数据库管理方法已很难满足这些要求。由于市场竞争激烈,新产品周期缩短,如何综合利用分散的异构环境数据源,及时得到准确的信息是使企业取得成功的关键。因此数据仓库技术应运而生,它以关系数据库、并行处理和分布式技术的飞速发展为基础,是信息技术发展中一方面拥有大量数据,另一方面有用信息却很贫乏这种不正常现象的综合解决方案。目前,数据仓库技术已紧跟因特网而上,成为信息社会中获得企业竞争优势的又一关键。

1 数据仓库的概念

社会的需求极大地推动了技术的发展,数据仓库的思想是随着人们逐渐尝试对数据库(DB)中的数据进行再加工,形成一个综合的、面向分析的环境,更好地支持决策分析而逐渐形成的。那么什么是数据仓库呢?从字面上讲,组成这个术语的词有如下定义:

·数据:关于某事的事实和信息。

·仓库:存储货物和商品的地方或设施。

W.H.Inmon在"Building the Data Warehouse"一书中,对数据仓库定义为:数据仓库是面向主题的、集成的、稳定的,不同时间的数据集合,用于支持经营管理中决策制定过程。

传统数据库用于事务处理,也叫操作型处理,是指对数据库联机进行日常操作。数据仓库用于决策支持,也称分析型处理,它是建立决策支持系统(DSS)的基础。操作型数据(DB数据)与分析型数据(DW数据)的区别见表1。

表1 DB数据与DW数据的区别

DB数据

DW数据

细节的 综合或提炼的

在存取时准确的

    代表过去的数据

可更新的  

 不更新

操作需求事先可知道 操作需求事先不知道

事务驱动

 

  分析驱动

面向应用

 

 

面向分析

一次操作数据量小

 

 一次操作数据量大

支持日常操作

支持决策需求

上述操作型数据与分析型数据之间的区别从根本上体现了事务处理与分析处理的差异。例如:银行的用户有储蓄,又有贷款和信用卡,这些数据是存放在不同业务处彼此独立的数据库中。现在,有了数据仓库,它把多个业务数据库集中起来建立起对用户的整体分析,决定是否继续对用户贷款或发信用卡。

2 数据仓库的特征

1)数据仓库是面向主题的。与传统数据库面向应用进行数据组织的特点相对应,数据仓库中的数据是面向主题进行组织的。主题是数据归类的标准,是一个抽象的概念,它基本对应于一个宏观的分析领域。

2)数据仓库的数据是集成的。数据进入数据仓库之前必须经过加工与集成,因为数据是从原有的分散的数据库数据中抽取出来的,对不同的数据来源进行统一数据结构和编码,统一原始数据中的所有矛盾之处,如字长、单位不统一、同名异义、异名同义等,将原始数据结构从面向应用转到面向主题。

3)数据仓库的数据是不可更新的,它反映的是一段相当长的时间内历史数据的内容,进入数据仓库是集成后的数据,不是联机处理的数据。数据不可更新是针对应用而言的,即用户进行分析处理时不进行数据更新操作,只进行数据查询操作,对数据查询提出了更高的要求。

4)数据仓库是随时间变化的。这主要表现在随着时间的变化数据仓库不断增加新的数据内容,不断删去旧的数据内容,数据仓库内的数据时限在5~10年,远远大于操作型环境中的数据时限(60~90天),以适应DSS进行趋势分析的要求。另外数据仓库中大量的综合数据也与时间有关,如数据经常按时间段进行综合等。

3 数据仓库中的几个术语

1)划分粒度:它是数据仓库设计过程中最重要的问题之一。粒度是指数据仓库中数据单元的详细程度和级别。数据越详细,粒度越小,级别就越低,数据综合度越高,粒度越大,级别就越高。如区域粒度:国家、地区、城市;时间粒度:年、季、月、日。粒度的划分是直接影响数据仓库性能的一个重要方面。

2)分割(分类):数据分割是指把逻辑统一的数据分割成较小的,可以独立管理的物理单元(类)进行存储,以便重构、重组和恢复。它也是数据仓库设计的一项重要内容。分割可以有效地支持数据综合,使数据仓库的开发人员和用户具有更大的灵活性。对应用级的分割通常按日期、业务、机构、地址等进行。

3)元数据:它是关于数据的数据,它描述了数据的结构、内容、码、索引等项内容,在数据仓库中扮演了重要的角色。元数据起着定位数据仓库的目录作用;数据为从业务环境向数据仓库环境传送时的数据仓库的目录内容;指导从当前基本数据到轻度综合数据,轻度综合数据到高度综合数据的综合算法的选择。元数据不仅为数据仓库的创建提供必要的信息、描述和定义,还为DSS分析人员访问数据仓库提供直接或辅助的信息。

4 数据仓库系统

建立数据仓库系统可以提高数据质量、适时的数据访问、对组织变化支持、提高生产率、降低费用。数据仓库系统是多种技术的综合体,由3大部分组成:数据仓库、数据仓库管理系统、数据仓库工具集,其中数据仓库是系统的核心。3者间的关系见图1。

4.1 数据仓库结构

数据仓库的一般结构如图2所示。图2中元数据用来组织整个数据仓库的组织结构,它不包含任何业务数据库中的实际数据信息。当前基本数据是最近时期的业务数据,也是数据仓库用户最感兴趣的部分,数据量大。当前基本数据随时间的推移由时间控制机制转为历史基本数据。轻度综合数据是从当前基本数据中提取出来的,高度综合数据十分精炼,是一种准决策数据。

4.2 数据仓库管理系统

数据仓库管理系统负责管理整个系统的运转,是整个系统的引擎(见图3),它由以下几部分组成。

1)定义部件:用于定义和建立数据仓库系统,包括设计和定义数据仓库的数据库;定义数据来源;确定从源系统向数据仓库复制数据时的清理和转换。

2)数据获取部件:依定义部件的规则,从源系统中清理和变换数据进入数据仓库。

3)管理部件:用于管理数据仓库的工作,包括维护数据仓库的工作;把仓库数据送给分散的仓库服务器或用户DSS;对仓库数据的安全、归档、备份、恢复等处理。

图3 数据仓库管理系统

4)信息目录部件:数据仓库的目录数据。包括由定义部件生成的技术目录;由仓库管理员生成的业务目录;使用户容易访问业务,目录和仓库数据的信息引导器,它是数据仓库使用能力的关键因素。

5)DBMS部件:因数据仓库的存储形式仍为关系型数据库,所以需利用数据库管理系统DBMS。

4.3 数据仓库工具集

数据仓库工具是数据仓库系统发挥作用的关键。对一个企业来说,仅拥有数据仓库,而没有高效的数据分析工具来利用其中的数据,就如同守着一座储量丰富的金矿,而不知如何去开采。工具集主要分两类。

1)查询工具:包括可视化工具和多维分析工具。查询不是指记录级数据的查询,而是指对分析要求的查询。

2)开采工具:主要负责从大量数据中发现数据模式,预测趋势和行为。

5 数据仓库设计

数据仓库的特点决定了数据仓库的系统设计不能采用同开发传统的联机事务处理(OLTP)数据库一样的设计方法。数据仓库系统开发是一个经过不断循环、反馈而使系统不断增长与完善的过程,大体有以下几个步骤。

1)概念模型设计,完成界定系统边界和确定主要的主题域及其内容,其成果是在原有的数据库的基础上建立了一个较稳固的概念模型,它是在较高抽象层次上的设计,因此建立概念模型时不用考虑具体技术条件的限制。

2)技术准备工作,包括技术评估和技术环境准备。技术评估就是确定数据仓库的各项性能指标;技术环境准备就是一旦数据仓库的体系化结构模型大体建好后,确定如何装配此体系化结构模型,即确定软硬件的配置。

3)逻辑模型设计,主要工作有分析主题域,确定当前要装载的主题;确定粒度层次划分;确定数据分割策略;关系模式定义;记录系统定义。其成果是对每个当前装载的主题的逻辑实现进行定义,并将相关内容记录在数据仓库的元数据中。

4)物理模型设计,主要是确定数据的存储结构,确定索引策略,确定数据存放位置,确定存储分配。

5)数据仓库的生成,主要工作是接口编程、数据装入,其成果是数据已装入到数据仓库中,可以在其上建立数据仓库的决策支持系统(DSS)的应用。

6)数据仓库的使用和维护,即建立DSS应用;理解需求,调整和完善系统,维护数据仓库。

W.H.Inmon在"Building the Data Warehouse"一书中也介绍了数据仓库设计的步骤(见图4)。

图4 数据仓库设计步骤

6 数据仓库的应用

数据仓库除具有传统数据的查询、报表与统计等功能外,它还具有联机分析处理、数据挖掘、知识发现和决策支持等功能。数据仓库技术为不同层次的用户提供数据挖掘、知识发现的算法和工具,能建立各数据库之间的相互关联,可使非专业人员用自己熟悉的专业术语、指标名称通过简单的操作就能取得决策支持所需的数据,而不必了解数据库的结构以及数据库内各表之间复杂的关联关系,更不必了解所涉及的数据源的种类及数据源的分布情况。目前,数据仓库技术的主要应用领域是在与经济活动有紧密联系的行业,包括大型商业、保险业、金融业等。数据仓库的直接价值在于满足管理者对于全面了解企业内部情况和外部环境的短期需要,同时减少现有系统的维护负担。数据仓库的长期价值在于通过业务数据仓库使企业能够从历史系统转移到适应企业高速变化的结构化环境。

7 结束语

数据仓库的实施虽还在初级阶段,但随着技术创新的发展,它将储存大量的信息来帮助人们重新体验一种经历——缩短了解过去,并且在许多方面是了解将来的学习周期。面向主题的数据仓库概念的提出,不但为有效地支持企业经营管理决策提供了一个全局一致的数据环境,也为历史数据、综合数据的处理提出了一种行之有效的解决方案。数据仓库的主要贡献在于:它明确提出数据处理的两种不同类型,操作型处理和分析型处理,并将两者在实现中区分开来,建立起DB-DW两层体系结构。

数据仓库是一种解决问题的方案,而不是可以买到的产品。数据仓库可以帮助人们吸收足够的信息以作出明智的决策,但不能代替人进行决策,如能最大限度地把握数据仓库的概念,则数据仓库可以优化人们的选择,从而大大地缩小决策范围。

收稿日期:2000-08-22

标签:;  ;  ;  

决策支持新技术&数据仓库_数据仓库论文
下载Doc文档

猜你喜欢