统计数据仓库构建模式研究_数据仓库论文

统计数据仓库构建模式研究_数据仓库论文

统计数据仓库建设模式研究,本文主要内容关键词为:数据仓库论文,模式论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

统计信息化建设作为政府信息化工程的基础和核心,其重要性越来越凸现,研究其解决方案是目前面临的迫切问题。本文通过对统计现状的分析,结合作者的实践经验,针对统计部门的需求,提出“统计数据仓库”的概念,并根据其建设目标设计了体系结构和主要功能;针对设计过程中遇到的关键技术和难点——统计数据的存储、元数据管理和数据展现进行了初步探讨,提出了可行且具特色的解决办法,力图为统计信息化建设提供参考。

一、统计数据仓库建设目标与功能结构设计

统计数据仓库不同于传统的关系型数据库系统,它是一种基于数据仓库的统计信息应用系统,是在统计局现存数据系统上进行的开发,它着眼于有效的抽取、综合、集成和挖掘已有数据资源,以及最有价值的信息,为政府和社会提供有效的决策支持。

(一)统计数据仓库系统建设目标

针对现状,统计数据仓库的建设需要达到以下目标。

1.实现数据抽取、清洗、转换和装载自动化,统一数据格式,充分利用各种数据资源;

2.建立适应统计信息应用要求的数据仓库结构体系,集中存储和管理决策所需数据,保证数据仓库内数据的完整性、一致性和可用性;

3.建立综合信息服务平台,为政府部门提供决策信息查询服务,为社会用户提供统计信息发布服务;

4.为统计局专业分析员提供统计数据的综合应用系统,完成统计数据的组织管理、分析预测和综合查询等工作。

(二)统计数据仓库系统结构和功能设计

基于以上目标,在设计系统结构和功能时,采取“以统计业务流程为框架,以专业统计为基础,以用户需求为中心”的原则,系统在适应专业人员工作习惯的同时,又能使社会各界用户方便灵活的使用。因此,统计数据仓库应由数据整理加载,管理维护系统和数据查询与分析系统三部分构成,分别满足专业人员对异构统计数据的整合和统计报表的管理以及社会用户对统计信息的查询和分析的需要。拓扑结构如图1所示(图略,见原文,下同)。

1.数据整理加载系统

数据整理加载系统用于系统管理人员进行数据的抽取、转换与装载,即是从数据源中抽取数据,对数据进行检验和整理,并根据数据仓库的设计要求,对数据进行重新组织和加工,装载到数据仓库的目标数据库中,并且可以周期性的刷新数据仓库以反映源的变化以及将数据仓库中的数据作转储。

2.管理维护系统

用于统计专业人员对整个统计数据仓库系统进行管理维护,分为:

(1)用户管理模块:对系统的用户及其权限进行管理。包括:用户的建立,用户对专业数据权限的授予、增加、删除、修改等工作。

(2)系统基础管理模块:对系统所需的地址信息进行管理维护;对统计调查类别(普查、经常性调查和一次性调查等)进行管理,对统计调查报告期(年、季、月等)进行管理,对统计调查制度即专业(如农业调查制度)进行管理。

(3)元数据管理模块:对整个系统所涉及到的各种统计分类及属性,各专业的统计指标,系统信息表和其他元数据进行管理。

(4)报表管理模块:

报表维护:实现对统计表的插入、删除、修改及预览,并完成该表综合属性的管理。

报表设计:通过对统计指标和统计分类的拖拽,完成统计表式的设计。

报表编辑:对已完成报表设计的统计表进行单元名称编辑、数据行代码编辑和表式的拐线设计等。

审核描述:用于描述一张统计表的审核信息,包括审核公式的名称、公式内容及出错提示信息等。

数据加载:该功能可对统计表装载选定地址和数据格式的数据。在加载数据之前对预加载的数据按该表的审核描述进行数据审核,删除选定地址的数据。

(5)定制管理模块:可实现两种功能:一是用户可从指标集中抽取使用频率高、具有代表性的统计指标作为常用指标,以备查询使用;二是用户可将反映某一社会现象的一组统计指标组合起来,形成一个统计专题或主题,以备查询使用。

3.数据查询与分析系统

用于授权用户对数据库进行查询,并可将查询出的数据进行统计分析与数据挖掘等加工处理和输出。

(1)查询模块

专业表查询:对已加载数据的统计表直接进行查询。包括,分专业按确定的表式进行查询和分专业根据表式按指标分类进行查询。

专题主题查询:根据专业管理员通过定制管理所定义的专题及常用指标进行查询。

灵活查询:用户根据元数据库所定义的指标、分组与时间、地址进行灵活组合的方式进行的查询。

模糊查询:由用户输入查询条件关键字,并根据指标及统计表进行模糊检索后,再根据所选出的指标及表式进行查询。

快捷查询:用户通过已存贮查询条件进行查询。

(2)查询翻译模块

通过与元数据库的关联,把文字性、描述型的查询请求翻译成计算机可理解的SQL查询语句。

(3)数据挖掘与分析模块

数据分析是在查询出结果数据表的基础上进行相关的统计分析,包括回归分析、方差分析、相关分析和判别分析等,或按自定义的计算公式、数学模型等进行相关计算与分析。

同时我们更提供了数据的多维展示与分析,即数据立方体分析,从不同视野、多角度地层示、分析数据。

数据挖掘是采用人工智能的决策分析方法,按照用户既定的业务目标,对数据仓库中浩如烟海的数据进行探索,揭示隐藏其中的有用规律,并进一步模型化。

(4)数据输出模块

将查询结果或数据分析与挖掘结果输出为网页格式、纯文本格式、EXECL格式等;并将结果动态输出为饼图、曲线图、直方图等多种统计图形;将结果自动分拆打印输出。

二、统计数据仓库设计中的难点和关键技术

(一)数据的存储与管理

统计数据的存储与管理必须遵循:

(1)指标名称的非歧义性。如“流动资产合计,其中:存货”,这个指标人们很容易理解,但仅“其中:存货”人们就不知道什么意思了;(2)指标的实质概念和口径的标准和唯一。由于统计调查制度的变化,有些指标虽然名称没有发生变化,但其实质概念或者是调查时的口径已发生了根本变化,所以这些指标必须设为两个指标,以便进行区别;(3)可移植性原则。数据在不同的计算机硬件、软件平台能进行方便无损的移植;(4)灵活性原则。数据的存储要能实现数据查询的快速便捷,能灵活的组合任意需查询的数据;(5)可观性原则。存储在计算机中的数据必须是计算机可翻译、用户可理解的数据。

遵循上述原则,我们按照数据由要素构成的概念和思想来实现统计数据的规范存储。一笔统计数据我们可表示如图2(图略)。这里“分组”指的是统计分组,即对统计指标进行限定的统计口径。具体如我们需要存储“2003年北京市市属国有烟草制品企业数”这笔数据,则我们把其按要素拆分成如图3(图略)存储。而从数据库设计的规范来讲,所有数据都是以代码为关键字(主键)进行存储的,如图4(图略)。

这样存储一笔数据需要涉及的部分数据库表有:

地址代码名称对照表——地址代码(3500000)、地址名称(北京市);

指标代码名称对照表——指标代码(B0010100000)、指标名称(企业单位数);

分组代码名称对照表——分组代码(zz01020000000)、分组名称(市属);

数据表——地址代码(35000000)、指标代码(B0010100000)、分组代码组合(zz01020000000zz02010100000-zz04010401020)、时间(2003)、数据值(20)。

目前,统计数据的展示一般以统计报表形式为主,这就要求统计数据存储还得考虑统计调查方法、报告期别和调查制度这些限制条件。综上,数据的存储管理流程为图5所示(图略)。

将统计数据分要素存储管理有如下优点:(1)有效地解决了不同地区、不同时间统计口径不一致的问题,由于调查方法、报告期别、地址码、时间、调查制度、指标代码、分组代码、数值共8个属性确定唯一的一笔数据,我们只需更新某一属性表,再进行重新组合就可确定一笔新的数据。(2)为统计数据的灵活、交叉查询提供了坚实的基础,只要将各个要素按需要组合,就能获得系统中存在的任何统计数据。(3)为统计报表的设计、编辑等提供了极大的方便,通过鼠标将需要的各个要素拖拽到报表上,就能设计出各种不同格式、不同功能的统计报表,打破了传统统计报表的束缚。

(二)元数据的管理

本系统中的“元数据”主要措系统定义的统计指标,统计分类,表字段信息和系统信息等。元数据管理主要完成的功能有:

1.元数据的抽取和收集。元数据的收集是指自动识别元数据并定时将它抽取到元数据库中来,抽取规则的制定通常是从统计业务上考虑。

2.元数据的储存和维护。元数据经过抽取、收集后通常存储于元数据库中,元数据库是一个结构化的存储、检索和管理元数据的系统。统计指标和统计分类的维护主要是保持其完整性,主要包含指标分组的删除、添加和修改。

3.基于元模型的信息查询管理。元模型是元数据库的概念模式,详细说明元数据单元以及它们之间现存的关系。元数据库系统应该提供合适的查询、筛选、导航和浏览机制,支持特定环境下的元数据查询,并支持按照元数据的来源、目的、生成时间等属性来进行选择。

4.冲突分析和通知机制。元数据库的冲突分析机制使得数据仓库管理员可以在对数据仓库系统进行某些改变之前来估计这些变化所会引起的系统冲突。当应用需求发生变化时,冲突分析机制就会采用仿真的方法来探测系统的哪一部分将会受到影响。这里特别能避免统计指标和统计分类的重复、不一致等情况。

(三)数据的展现

统计数据的展现是统计数据仓库的门面,它们主要是指数据的便捷查询、数据的多维分析、数理统计和数据挖掘方面。

1.数据查询

数据的便捷查询是一个用户最直接关心的方面。为此设计了多种查询方式,满足不同层面的用户需要。

对于一般查询可以采用专业表查询,它是对整张统计表直接进行查询,是一种方便快捷的查询方式。若用户只关心某一社会经济现象或一些常用指标的情况,则可选择专题主题查询,这种查询方式比较适用于非专业统计人员。若用户对统计指标及分类有一定的了解,则可使用灵活查询,这种查询方式可以将指标、分组与时间、地址等灵活组合后进行查询,它打破了原有专业统计表的束缚,用户可以进行跨专业、跨表、跨时间、跨地址的完全灵活的查询。若用户无法确定所要查询内容的位置或具体内容时,则可采用模糊查询,它由用户输入查询条件关键字,并根据指标及统计表实行模糊检索后进行查询。若用户需频繁重复地进行某些查询,则可使用快捷查询,它通过已存贮查询条件进行查询,用户不必进行时间、地址等查询条件的选择,只要点击相应链接即可,系统会根据缺省默认选择或已存贮查询条件直接进行查询,这种查询方式特别适合于领导。

2.多维分析

多维分析,即数据立方体分析,是数据仓库的重要表现形式,它能从不同视野、不同角度来浏览、分析数据。例如图6(图略)所示的分区域、时间、年龄、性别、教育程度等五个维度对主要人口指标情况进行查询浏览的人口数据立方体。

表1 时间维度表(time)

Time_ID Year SeasonMonth

Time001 99年第一季度1月

Time002 99年第一季度2月

Time003 99年第一季度3月

Time004 99年第二季度4月

 …

数据立方体的构建方法与步骤为:

(1)设计维度表。维度表是用来存放有关维度信息的表,要根据立方体的实际状况来决定,如,企业性质维:国营,私营,合资、港澳台、外资。如表1的时间维度表(time):

(2)设计事实表。事实表是对整理好的原始数据表的一个“复制”。该复制是根据特定的主题,一定的规则把多个相关原始数据表中的数据整合到一块,以有利于数据的读取和查询。如图6的人口数据立方体的事实表的字段设计如图7(图略)所示。

(3)实现数据立方体的设计。根据事实表和维度表按雪花模型或星型模式构造数据立方体。数据立方体构建成功后,便可对其进行上卷、下钻、切片、切块、旋转和过滤等操作。

3.数理统计和数据挖掘

数理统计指常用的统计分析方法,如回归分析,相关性分析等;数据挖掘则按目的不同可分为三类:

(1)关联分析:若两个或多个变量的取值之间存在某种规律性,就称为关联。关联分析的目的是找出数据库中隐藏的关联网,包括分析多种指标相互间的关联程度和某些指标对另一些指标的贡献程度。主要的算法有:灰关联分析,因子分析,Apriori算法。

(2)分类与预测:分类和预测是两种数据分析形式,可以用于提取描述重要数据类的模型或预测未来的数据趋势。具体的说,分类是用构造分类器预测类标号;预测是用预测法预测连续值。一个典型的例子是主要经济社会统计指标预测问题,数据挖掘使用过去大量相关指标的数据来预测未来一段时间的指标发展趋势。主要的算法有:支持向量机分类,决策树分类,神经网络预测,时间序列预测。

(3)聚类:数据库中的记录可被划分为一系列有意义的子集,即聚类。通过聚类,能够找出数据属性之间潜在的相互关系,增强了人们对客观现实的认识。如在可持续发展的研究中,它可以用来辨识不同经济、社会、人口、环境等的发展模式。主要的算法有:模糊聚类,神经网络聚类,谱系聚类。

我们按照选择数据源—数据预处理—选择算法—参数设置—结果表达的流程来实现数据挖掘过程。

三、结论

实现统计信息的充分共享和拓展统计信息在国民经济、社会发展等方面的应用,是统计信息化工程建设的根本目的;数据仓库技术则是数据库技术发展趋向和信息技术的热点,因此统计信息化必须要与数据仓库结合起来。本文设计的统计数据仓库具有如下特色:

1.基于元数据库的设计思想。数据、统计表的定义及设计均来源于系统元数据库,查询用户通过对元数据库中的调查类别、报告期、调查制度、指标、分类、地址的选择,重新组合从而实现各种灵活、方便的查询。

2.即打破了传统的“统计表”的约束,又遵循统计人员习惯的统计表处理方式。用户输入输出界面均是针对不同的统计表进行处理,用户不必了解后台元数据库系统的存贮结构,其面对的都是一张张的普通统计表式。

3.不依赖于统计报表制度改革。由于整个系统的所有数据及统计表的定义及设计构来源于系统元数据库,系统的管理及存贮已不再依赖于统计报表制度改革。不同时期的调查制度,只要它的变化遵循一套标准的元数据库系统,用户就可以对不同时期、不同调查的统一的管理及查询。

4.成功地将数理统计方法,数据立方体和数据挖掘等方法嵌入人中,集分析、评估、预测和预警于一体,能实时掌握一个城市或地区的国民经济与社会发展的指标和状况,为企事业单位提供科学的决策支持。

5.面向对象的设计方法,系统的扩展性好,可以在此基础上方便地建立具有专题性质的应用统计系统。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

统计数据仓库构建模式研究_数据仓库论文
下载Doc文档

猜你喜欢