论统计分析过程中的统计数据组织_统计分析论文

论统计分析过程中统计数据的组织问题,本文主要内容关键词为:统计分析论文,统计数据论文,过程中论文,组织论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一、问题的提出

统计分析的对象是统计数据。对统计数据的有效管理是进行大型统计分析的前提,也是进行长期深入分析的保障。在进行较大规模的统计分析过程中,一般涉及的统计指标个数较多,而且随着时间的推移,统计数据量不断积累和庞大;同时,统计指标体系一般会因统计口径的经常性变动而变得比较复杂。这些都给统计分析的实际工作带来了许多困难:

第一,庞大的数据量给统计数据的组织工作带来极大的不便

在进行一般的统计分析时,由于涉及的统计指标个数比较少,一般的做法是:首先采用手工录入数据的办法,将数据录入到统计分析软件中,并以数据文件的形式存储在磁盘上,然后再对它们进行分析。待分析任务完成,就将它们放置到一边存档。这种方式在数据量较少的情况下可以认为是一种快速有效的方法。但是,如果指标个数较多,就必然造成这样的情况:当以后再想用这些数据时,可能很难再弄清每个数据文件的用途、数据文件中的每个数据项的含义。这样就不得不重新录入这些数据,从而造成分析的数据越多,数据的组织工作就越复杂、越困难的局面。

第二,统计数据的不断积累加重了数据组织工作的困难

统计数据是随着时间的推移而不断积累的。对大量的不断积累的统计数据进行分析和研究是统计分析工作的必然要求。然而,数据的不断积累会给本来已经非常沉重的统计数据组织工作带来更大的困难。我们除了要搞清每个数据文件的用途和其中每个数据项的含义之外,还要考虑如何在原来数据的基础之上再增加新一期的数据。增添新一期的数据并不是一件举手可得的事。因为,一般情况下,原来数据文件中的数据组织形式可能仅仅适合于当时的分析要求,并不一定能够方便现在新增数据。这样,就又不得不重新组织和录入这些庞大的数据,否则就不能满足对某个问题作更深入的分析研究的需要。

第三,庞大的统计数据使得数据的提取(查询)效率极为低下

在实际统计分析过程中,往往需要从不同角度和不同层次对分析数据进行全面深入的分析研究,这就需要对所收集的统计指标在各个层面、各个角度上进行提取。如果统计指标的数量极为庞大就必然要花费相当大的精力对已经存储好的数据进行重新整理、组织甚至重新录入,否则就无法满足统计分析的需要。

第四,多变性的统计指标体系极易造成统计数据语义的混乱不清

在统计分析工作中,一方面,要求统计指标尽可能理想,具有全面性、准确性;但同时另一方面,客观实际情况是,随着时间的推移,由于各种原因会造成统计指标本身缺乏全面性、准确性,统计指标之间缺乏可比性。这个矛盾是经常存在的。如果不能较好地解决它,就不能保证分析工作的顺利完成,甚至造成分析结论置信度的降低。可以通过各方面的努力、各种技术手段来克服这些困难。其中,对于不同时期统计数据的指标口径进行必要调整是一种解决途径。但是人工进行指标调整工作是一项极为艰巨的任务,极易造成统计数据语义的混乱不清。

由此可见,对统计数据进行必要的组织和管理对统计分析工作的实施是非常必要的。

二、统计分析中数据文件的组织方式存在的问题

统计分析工作中常用的计算机软件是统计分析软件,它们在统计分析方法和模型方面具有强大的优势和卓越的才能。统计分析软件是以计算机数据文件的方式来组织统计数据的。这种方式能够满足统计分析模型对数据格式的要求,但在数据的组织和管理方面功能较弱,显得不尽如人意。

我们知道,数据文件是计算机数据组织的基本形式,在很都方面有独到的长处。但是在统计数据分析中,仅采用数据文件的形式存储统计指标必然会出现很多问题。

第一,数据文件只存统计数据的指标值,不存指标名

统计分析软件一般以电子表格的形式存储统计数据。统计数据的数值以变量的形式存放,指标名或者作为各列变量的变量名存储,或者以标签的形式出现,或者根本就不存储,而被统计分析人员记在心里。这种组织方式实际并没有实现计算机对统计指标名的管理,而是由人工来进行管理的,这无疑没有完整地存贮统计数据。因此,当统计数据比较庞大、新一期数据不断产生、指标体系发生变化时,人工管理指标名必然容易造成统计数据含义不清和语义混乱的现象。

第二,数据的组织方式不能支持统计分析中对统计数据的任意提取

在进行不同层次、不同角度的统计分析中,需要经常地对已经存储好的数据进行任意提取。但是,正是一般统计分析软件中数据文件的组织方式没有完整地存储统计数据。致使它无法自动地支持对统计数据的任意查询和提取,更无法谈及查询优化,而只能靠人工完成。在数据量庞大的情况下,人工操作是极其困难、甚至是无法实现的。

第三,数据组织方式的随意性不支持统计分析的长远要求

利用一般的统计分析软件组织统计数据,数据究竟按照那种表格形式存储完全取决于统计分析人员的习惯和当时分析的需要。因此,具有很大的随意性和不规范性。这造成:当一新期数据产生时,可能无法有效地支持增加新指标;当分析研究的层次、角度改变时,可能无法满足灵活多变的统计分析模型对数据格式的要求。

第四,数据的组织方式不能反映统计指标间的相互关系

由于一般的统计分析软件仅存指标值,不存指标名。因而无法反映统计指标在结构上的相互关系,也无法反映统计指标的体系变化。

综上所述,统计分析软件中的按数据文件方式组织数据的方法较难满足实际统计分析工作的需要。因此,选择一种全新的、科学的、符合统计分析工作实际要求的数据组织方式来管理统计指标成为必然,统计数据库系统无疑是一种理想的选择。而其中非常关键的问题是以何种形式存储统计数据。通过长期的研究和实践,笔者认为,统计数据库中统计数据的存储方式应从研究统计数据的自身特点入手,它是决定统计数据库系统成败的关键。

三、统计数据的特点

统计数据一般具有以下几个特点:

第一,统计数据具有“二合一”性

统计数据是说明自然和社会总体现象数量特征的概念和数值。可见,一个完整的统计数据包括两个部分:一是统计数据的概念,又称为指标名,用来说明统计数据的含义;另一个是统计数据的数值,又称为指标值,是统计数据数量特征的体现。统计数据的“二合一”性就是指统计数据是指标名和指标值的统一体,是不可分隔、缺一不可的。否则,便会出现不知所云的现象。

第二,统计数据具有历史性

统计数据是历史发展的积累,随着时间的推移,以往的历史数据不会失去存在的意义,而是进行统计分析、统计预测的基础。

第三,统计数据具有广泛性

统计数据所记录的对象可能横向涉及到各行业的各种事物,而且随着统计手段的加强和统计能力的提高,统计的范围在不断拓展。

第四,统计数据具有大量性

统计数据的纵向历史性和横向广泛性造成统计数据的大量性。

第五,统计数据具有多维性和层次性

分析单个统计数据,可以看出它的指标名具有结构多维性。即:一个指标名是由多个基本元素构成的。如统计数据“1998年美国商业及服务业进口额10506亿美元”是由1998年、美国、商业及服务业、 进口额、10506、亿美元构成,可以成它们为指标元。 缺少其中任何一个指标元,指标的含义就会变化或不清;分析多个统计数据,指标名之间又具有结构层次性。这种层次关系是由指标元的层次关系造成的。如:全国可分为省市,省再可分为县市等指标元。工业可以分为轻重工业,轻工业又可分为纺织、食品等指标元。

第六,统计数据具有变化性和不规范性

历史性必然造成统计数据的变化性和不规范性。随着时间的推移和人们对分析问题认识的不断深入,统计数据的核算单位、统计口径等必然会产生变化,导致统计数据不具有可比性。

研究统计数据的自身特点将为成功地设计统计数据库结构提供极为重要的思路。

四、统计数据库系统中的统计数据组织方案

统计数据库系统的研制是近年来统计界和计算机界都十分关注的课题。统计数据库系统是存储、管理、分析统计数据的数据库系统,是数据采集和数据传送的归宿,是数据存储和数据管理根本手段,是提供数据分析和数据服务基础。

现有成熟的统计数据库系统尚不多见,一般是结合某一部门的实际工作研制,缺乏通用性和灵活性。在数据库设计时,虽然考虑到在存储指标名的同时也存储数值,但从技术上讲,大多是以关系表的形式,直接按照统计表格原有的样式设计统计数据的组织方式,从而造成了表格构建立的不唯一性、数据存储的冗余、关系表结构变动困难、难以适应统计业务的变化等问题。

经过长期的研究和实践,笔者认为,正是由于统计分析所处理的对象是统计数据,因此,一切工作都应围绕如何合理地存储统计数据、如何方便统计分析人员查询提取统计数据等问题展开。在此基础上,结合统计数据的自身特点,提出了以下统计数据的组织思想和方案:

第一,以统计数据为基本存贮单位,抛开以往的以统计表为基本存储单位的设计思想

我们知道,统计表只不过是一种展示统计数据的基本形式。在统计数据库中,在统计数据的采集和输出等方面还应延续这种已经被大众认可的形式,但在内部数据的存储结构上应以统计数据为基本单位。也就是说,数据库表的逻辑模式是统计表格,而物理表模式是统计数据。

第二,统计数据的指标名和指标值分而置之,实现统计数据的完整存储

在实现统计数据完整存储的前提之下,寻求更合理的数据组织方式。将统计数据的指标名称和指标值分别存贮并不是要分裂统计数据这个不可分隔的统一体,而是要更合理地组织统计数据。从统计数据的这两个组成部分看,指标名是文字型的描述数据,指标值是数值型数据。这两类数据在操作处理上存在差异。指标名一般是进行数据查询、数据语义理解的依据。而指标值往往是真正参与统计分析,进行各种数学运算的。基于它们自身的数据类型和性质,将它们分而置之是可行的,可以较好地克服数据存储的冗余问题。

存储指标值的技术相对简单,只需要注意指标和指标名的一一对应即可。关键是存储指标名。

第三,通过划分统计数据的六大基本信息实现指标名的存储

通过对统计指标特点的分析,可以得出,统计数据是由以下六大基本信息组成的。它们是:

统计空间(Space)、

统计时间(Time)、

统计分类(Kind)、

指标(Indicator)、

指标数值(Value)、

计量单位(Unit)。

这六类基本信息之间的关系可以使用一个多元函数表示:

F(S,T,K,I,U)=V

其中统计分类是可以退化的,即:F(S,T,I,U)=V

同时统计分类也是可以多重分组的,即:F(S,T,K1,K2, …Kn,I,U)=V

第四,统计数据的“星型”组织结构

可以将上述六类基本信息分别进行存储。对其中的统计空间、统计时间、统计分类、计量单位这四类信息(指标元),按照人们日常对事物的认识和理解模式,构造出语义网络树,并与指标、指标值相对应,从而形成“星型”的统计数据存储模式。如下图所示:

这种数据组织方案已经我们研制的诸多统计数据库系统中得以实现。通过实际的系统运作,证明这种统计数据的组织方案能够较好地克服上面提到的诸多问题。它实现了统计数据的完整存储;通过语义网络树,能够使用户直观地、方便地了解各指标之间的复杂关系,利于统计指标口径的自动调整;以统计数据为存储基本单位,极大地提高了数据的存储效率和查询效率;能够方便地增加新数据;能够方便快捷地满足统计分析人员对统计数据的各种层次和角度提取需求。

标签:;  

论统计分析过程中的统计数据组织_统计分析论文
下载Doc文档

猜你喜欢