王大威[1]2001年在《基于属性划分存储结构的并行联机分析处理操作算法研究》文中提出数据仓库是存储供查询和决策分析使用的集成化和历史化数据的仓库,通过提供联机分析处理应用,为复杂数据分析和高层决策提供有效支持。联机分析处理(OLAP)是数据仓库系统的最主要应用之一,OLAP的性能直接影响数据仓库系统的性能。本文以计算机机群计算并行系统为并行计算环境,充分利用了一种新的高效存储结构——属性划分存储结构的特点,提出了一组基于属性划分存储结构的并行OLAP操作算法。所有并行操作算法已经用于我们自行研制的并行数据仓库管理系统。理论分析和实验证明,并行算法具有很高的效率和加速比。
张德辉[2]2001年在《基于多维压缩数组存储结构的并行联机分析处理操作算法研究》文中认为数据仓库是一个新的研究领域,国内刚刚起步,研究成果很少,研究工作比较零散粗略。 本文在吸取前人经验的基础上提出了基于多维压缩数组存储结构的并行和顺序数据仓库操作算法。 这些算法充分利用了多维数组存储结构的特点,以计算机机群并行环境为基础支持一大类数据压缩方法。这些算法直接在压缩的数据上进行操作运算,不需对数据进行解压缩,因而获得了很高的效率,赢得了宝贵的时间,有效的支持了数据仓库的用户要求,满足了数据仓库对大数据量的性能要求。这些算法适用于多种常用的数据压缩方法。其性能是操作对象的参数和主存储区容量的函数。 此外,本文在并行环境下设计了一种新的数据通信方式,缩短了数据通信的时间,解决了并行算法中的瓶颈问题。
宋旭东[3]2010年在《企业集团数据仓库系统关键技术研究》文中研究表明企业集团信息化运营过程中积累了大量的设计、生产、库存、销售、采购和财务等业务数据,如何将企业集团海量业务数据转化为决策信息已成为目前企业集团信息化难点和热点问题,数据仓库系统被认为是最好的解决方案。企业集团数据仓库系统是一个复杂的系统,涉及众多复杂的概念和技术。本文就企业集团数据仓库系统中的几个关键技术进行了研究,本文的研究成果为企业集团实施数据仓库系统提供了很好的借鉴作用,有着重要的理论和现实意义。本文的主要工作如下:(1)企业集团数据仓库系统的概念及体系结构的研究。给出了企业集团数据仓库系统的定义,提出了统一视图模型的基本概念,提出了一个基于统一视图模型的数据仓库系统体系结构。(2)数据仓库系统ETL技术的研究。给出了一种新的基于统一视图模型的数据仓库ETL体系结构,提出了一种基于统一视图模型的ETL过程建模和实现方法。同时,针对数据仓库ETL任务调度问题,以数据仓库总的ETL执行时间最短为调度目标,建立了ETL任务调度模型,提出基于同层划分的遗传算法进行模型求解的算法流程。(3)企业集团数据仓库技术的研究。给出了企业集团分布式数据仓库分层结构,提出了一种面向企业集团的分布式数据仓库模型,并总结了分布式数据仓库的实施策略及其关键技术,同时将模型驱动的方法应用到数据仓库模型开发中。(4)企业集团OLAP技术的研究。将模型驱动体系架构的软件开发方法应用到OLAP开发中,该方法在数据仓库系统统一建模框架下,将OLAP设计从逻辑层提升到概念层,在概念层实现OLAP的PIM建模,通过PIM模型到PSM模型及PSM模型到SQL代码转换实现OLAP开发。(5)企业集团数据挖掘技术的研究。提出了一种基于抽样的决策树分类改进算法,使得这种算法在大数据集的情况下也能挖掘出正确的分类规则。将该算法应用到企业生产成本关键工序挖掘上,挖掘出工艺路线中的关键工序和影响钢铁企业成本的分类规则。同时,针对大数据集下的关联规则挖掘,提出了有向项集图的叁叉链表式存储结构和基于有向项集图的关联规则挖掘改进算法,通过东北特钢钢企业集团的客户数据关联规则挖掘应用,挖掘出的客户的购买行为和潜在需求规律。(6)企业集团决策支持技术的研究。给出了基于分布式数据仓库的企业集团决策支持系统整体框架,通过定义决策方案层和决策任务模型层,采用分层策略,降低了决策支持系统的复杂性,采用面向对象的软构件方法,将数据和决策算法有效集成,增强了系统的重用性和扩展性。
梁经纬[4]2013年在《基于多核CPU的数据立方体并行计算方法研究》文中认为随着大数据时代的到来,联机分析处理领域也面临大数据的严峻挑战。联机分析处理以多维分析为基础,根据用户需求构造数据立方体,对数据立方体进行处理加工后将结果展示给用户。数据立方体的计算在联机分析处理领域一直是研究的热点,在数据量不断增多,维度不断增加的情况下,传统的数据立方体的计算遇到严重瓶颈——难以在有限的时间内完成高维度、大数据量的数据立方体的计算。随着近年来多核CPU的普及和应用以及内存容量的不断增长,如何建立基于内存的数据结构并高效利用多核CPU的并发处理能力来处理海量高维度的数据立方体成为研究的热点。本文提出了基于内存的立方体树数据结构模型,提出了基于多核CPU的多线程高维立方体生成低维立方体的算法,加快了立方体的生成速度。针对数据立方体的生成问题,本文的主要研究内容如下:(1)对数据立方体的基础知识和数据立方体聚集运算中聚集函数的分类以及基于数据立方体的基本操作进行了总结,对一些经典的数据立方体进行了描述;(2)深入讨论了统计树以及基于统计树的算法,针对其占用存储空间较大的缺点提出了立方体树存储结构,以及利用多核CPU并行创建立方体树的算法;(3)提出了基于立方体树存储模型的高维立方体生成低维立方体的断层重排算法,并基于多核CPU对该算法进行了并行化实现,并通过实验证明了该算法的高效性。
顾颀[5]2007年在《OLAP系统中Cube并行与分布式处理技术的研究》文中研究表明数据立方体(Data Cube,Cube)是一项可对数据仓库中的数据进行快速访问的技术,它是联机分析处理(On-Line Analytical Processing,OLAP)的主要对象。决策分析者可以在Cube中享受高效率的数据访问,快速获取有用的决策信息。在本文中,我们提出了在并行环境下建立基于高维数据的Cube数据存储和OLAP查询分析系统,以及在网络环境下建立基于海量痕迹数据的Cube数据存储和OLAP查询分析系统,并给出了该方面工作的进一步研究思路。随着数据仓库中数据规模的不断增大,Cube的维度和维度的层次结构日益复杂,在单处理机上物化整个Cube,无论在计算时间还是存储空间上的代价都十分昂贵。尽管采用了许多改进的算法及Iceberg Cube,Condensed cube,Dwarf等Cube压缩技术,也不能从根本上解决高维数据的Cube存储问题,并行技术为我们解决这一问题提供了新思路。本文针对高维数据所引起的“维灾”,提出了一种并行环境下的高效存储结构——HDCube(High Dimensional Cube),HDCube通过分段划分策略将高维层次数据根据节点的个数划分成若干个低维层次数据,利用并行处理技术创建各个节点上的LDCube(Low Dimensional Cube),同时充分利用维属性具有层次性的特点,采用基于维层次编码(Dimenison Hierarchical Encoding,DHE)的索引技术,生成各个维的维层次编码表来代替维表中原关键字,在实现维关键字压缩的同时加快了Cube中的数据检索速度。然后结合并行处理技术,建立了并行环境下的HDCube数据存储与OLAP查询分析系统,对HDCube进行并行创建与增量更新维护,并给出了HDCube的并行查询处理及优化算法。理论分析和实验证明,相对于以往的完整物化和部分物化等传统方法,我们提出的并行环境下的HDCube性能有显着的提高,具有很高的效率和加速比。OLAP除了在传统领域,如金融、保险、电信等行业中的特定应用之外,在物流行业的发展也很广阔。我们结合危险品运输过程中产生的海量痕迹数据,提出了海量痕迹数据的Cube存储结构——MTCube(Massive Trace Cube),MTCube适用于实际应用中普遍存在的海量痕迹数据,它在根据痕迹数据特性大幅度压缩数据的同时,通过层次前缀痕迹(Hierarchy Prefix Trace)和层次前缀标识(Hierarchy Prefix ID)在存储结构中记录数据的痕迹,帮助用户在跟踪危险品的同时,能从庞杂的数据中进行信息提炼,分析现在的、有用的关系和模式,为复杂数据的分析和高层决策提供更有效的支持。由于痕迹数据往往是海量的、地理分布的,同时查询复杂化和显示多样化的需求不断地增加,原有的集中式管理已经越来越表现出其局限性。为此我们提出了建立网络环境下的MTCube数据存储与OLAP查询分析系统,它由若干个本地站点的局部Cube/OLAP系统(Local Cube/OLAP System,LCOS)组成。理论分析和实验证明,我们提出的MTCube在对数据进行高度压缩的同时,可以支持对危险品的有效监控和风险预测。
王大威, 李建中[6]2000年在《基于并行属性划分存储结构的并行聚集算法》文中研究指明1引言为了有效支持复杂数据分析和高层决策,数据库工作者提出了数据仓库的概念,开展了大量研究工作。联机分析处理(OLAP)是数据仓库的主要应用。聚集(Aggregation)操作是
师金钢[7]2011年在《基于MapReduce架构的实时数据仓库关键技术研究》文中指出随着数字技术和计算机信息化的普及和发展,大多数企业都采用了计算机进行管理和运营。这些计算机系统通常都具有强大的收集、存储和处理数据的能力。生产监控数据、医疗数据、人口统计数据、财经数据和海洋数据等,这些日积月累的数据形成了一个巨大的“宝藏”。随着市场竞争的加剧和信息社会需求的发展,从大量数据中挖掘规律性知识,指导制定生产和营销策略,就显得越来越重要。数据仓库技术正是为此提供解决方案而产生的,也是目前学术界和工业界研究开发的热点问题之一。随着企业对数据仓库的熟悉,数据仓库支持预测分析的能力越来越好地被用来驱动商业决策。然而传统数据仓库是周期性更新的,决策所用的信息和数据并没有包括最新的生产数据和信息,基于传统数据仓库的战略决策在时间的实时性上不能满足要求。随着业务节奏的加快,需要分析的实时数据信息的数量呈爆炸性增长。数据仓库必须有能力支持快速的业务分析,能够将最新信息尽快反映给决策者,使决策者对瞬息万变的商业形势做出快速的反应。因此,实时数据仓库技术随之应运而生。实时数据仓库技术与传统数据仓库有很大的不同,它既要为商业决策提供实时的数据保证,又要提供更快速的查询分析。为此,本文针对实时数据仓库中的实时体系结构建模、更新与查询调度、并行数据仓库查询、并行数据立方构建等关键问题进行了研究。主要工作包含以下几点:(1)设计了实时数据仓库的总体框架结构,并针对灵活可变却又十分重要的实时数据存储区的设计方法进行了研究,包括ODS分区、双镜像交替分区、数据仓库副本分区和多级缓存分区机制等。最后将几种实时数据存储区设计方法进行了对比,分析了各种方法适用的环境。(2)提出一种实时数据仓库中基于优先级的更新查询平衡调度算法PBBS,详细阐述了PBBS算法的系统结构和算法思想。PBBS算法综合考虑了系统中更新任务的优先级、用户查询任务的优先程度、任务队列的实时执行状况、系统资源的使用现况,来进行任务的并行调度。PBBS算法不但能够根据用户需求调整更新与查询的资源分配,也能够合理利用系统资源,保证优先级较高的任务优先被调度执行。不仅减少了重要查询的系统响应时间,而且提高了重要数据的数据新鲜度。(3)提出一种实时数据仓库中的支持QoS的更新和查询调度算法。算法首先提出了实时数据仓库中与查询相关的一些用户交互式QoS参数,然后根据查询的QoS参数要求来进行更新任务和查询任务的实时调度。QoS算法能够根据用户的具体QoS查询需求,合理地调整任务的执行顺序,有效地使用系统资源,为用户查询提供更快速的响应和更高的数据实时性。(4)设计了基于MapReduce框架的关系型数据的并行运算操作,对传统的查询、投影、连接、除、聚集等关系运算基于MapReduce框架进行了设计并实现;并提出一种基于分块结构的分布式关系数据库ChunkDB,详细设计了ChunkDB的整体架构、数据分块方式、数据存放结构、子块分布策略、元数据信息、容错性和可扩展性等方面;最后设计了基于ChunkDB数据库的MapReduce计算方法,对MapReduce框架进行了扩展,使之与ChunkDB很好地兼容,方便高效地进行数据读取。(5)提出一种基于MapReduce框架的并行Dwarf数据立方构建算法。算法首先对传统的单Dwarf立方进行等价划分,将其分割为多个独立的子Dwarf立方;其次算法采用MapReduce架构,对Dwarf立方进行并行地构建、查询和更新。并行Dwarf算法首先能够提供高效的数据立方的建立,其次针对MapReduce机制无索引的顺序扫描机制,Dwarf立方的自索引机制提供了高效的查询;然后并行Dwarf克服了传统Dwarf较低的增量更新性能,为Dwarf的实际应用提供了条件;并且并行Dwarf具有良好的可扩展性,随着数据量的增加,可以通过动态增加结点的方法,有效地提高Dwarf立方的性能。(6)设计并实现了MR-RTDWH原型系统。通过将本文所提出的实时数据体系结构、更新与查询调度、基于MapReudce的关系运算、MapReduce架构与关系数据库的融合、实时数据立方的并行构建等理论和方法在MR-RTDWH系统中的实现,验证了这些理论和方法的正确性和有效性。总之,本文研究了基于MapReduce的实时数据仓库中的相关问题,将MapReduce并行计算框架与实时数据仓库技术相结合,对其中包含的主要研究问题提出了有效的解决方案,理论分析和大量的实验结果证明了这些算法的有效性和高效性。这些算法和模型将对今后实时数据仓库的研究工作打下良好的基础,同时也对数据密集型计算和云计算系统的建设与开发具有一定的参考价值。
刘文龙[8]2014年在《具有复杂约束条件的海量数据聚集及其并行化实现》文中研究指明海量数据聚集算法是在线联机分析处理(Online Analytical Processing,简称OLAP)的核心问题。OLAP旨在处理涉及到商业智能的数据,这是一类非常重要而又异常复杂的问题。OLAP利用聚集算法产生的N维数据模型(数据立方体)可以在极短的时间内响应查询;同时带有复杂条件约束的范围聚集查询(多维范围查询)随着商业智能的发展显得越发重要。随着计算机技术发展,查询变得更加复杂、立方体维度不断上升、数据规模持续扩大,这些新情况给OLAP带来了严峻的挑战,海量数据聚集所需的计算时间成为了严重制约OLAP系统性能的瓶颈。CUDA是由NVIDIA所推出的一种集成技术,将图形处理器(Graphic Processing Unit,简称GPU)引入高性能计算领域。同传统CPU相比,GPU拥有更高的计算能力和内部带宽,于是如何利用GPU设计新的聚集算法成为OLAP计算领域中一个新的热点。针对利用GPU解决OLAP聚集问题,本文主要研究内容如下:(1)分析了经典的CPU算法和新近提出的GPU算法之间的区别及各自优缺点,总结了影响聚集效率的主要因素;(2)提出了一种面向并行聚集的多维前序树(Multi-dimensional Prefix Tree)存储模型,可以依据前序编码(Prefix Encoding)分割数据空间,对原始数据进行压缩和存储;提出了多维前序树并行构造算法,并通过实验证明了其相对数据库有6倍的加速比;(3)基于多维前序树模型,面向GPU构架,提出了一种并行的面向海量数据的选择及聚集算法,可以快速应答带有复杂条件约束的聚集查询,最后通过对比实验证明了其相对数据库有6倍的加速比,对比同类GPU算法也有1.3倍的加速比。
杨绪岩[9]2001年在《并行数据仓库系统中元数据管理、并发控制与恢复策略的研究》文中研究表明数据仓库是一个面向主题的、集成的、不可更新的且随时间不断变化的数据集合。用来支持管理人员进行决策分析,能够使企业以合理的代价取得有效的决策支持。数据仓库的研究是一项具有重要学术价值和广泛应用前景并且十分迫切的任务。数据仓库研究是当今信息技术研究的新焦点。 本文主要对数据仓库的元数据组织与管理、并发控制、数据仓库系统恢复叁方面进行了研究,提出了一种有效的字典组织方式,很好的描述了多维数据模型,针对数据仓库的操作的特点提出了两种并发控制策略和一种恢复策略。并给出了相应的组织结构与算法描述。
郑晓艳[10]2009年在《频繁模式挖掘技术研究及其在供应链管理中的应用》文中认为频繁模式挖掘是数据挖掘的一个重要内容,由于处理的数据量巨大,并行挖掘算法受到越来越多的重视,但是在具体应用领域还有许多亟待解决的问题。本文针对多重支持度频繁模式挖掘、特殊数据源上的数据挖掘等特殊问题进行研究,在一个新的面向视图的分布式共享内存并行编程环境VODCA下,提出了频繁模式挖掘的几种新的算法,并且应用到再制造/制造集成系统供应链管理中。首先,针对CD算法的通信量较少,能够在分布式共享内存系统中获得较好性能,但是没有有效的剪枝策略的特点,提出了带有事务删减的CD算法。该算法首先采用改进的层次聚类方法对数据进行分类,获得具有不同项目集合的数据子集,采用动态任务分配策略在不同处理器之间分配计算任务。在进行第k次数据库扫描时,根据事务中是否含有k-频繁项集,对数据库中的事务进行剪枝,由于预处理过的不同数据子集所包含的项目集合不同,起到对某些数据子集进行剪枝的作用。第二,为了实现用多重支持度发现更多长模式的目的,提出了从冗余的FP-tree挖掘频繁模式的方法。利用从条件FP-tree可以直接产生频繁项集的特点,根据模式长度改变支持度阈值,产生支持度不同的模式。约束函数采用分段函数实现,具有简单、灵活的特点,允许用户指定最小模式长度和支持度范围,能够方便地发现用户感兴趣的长模式。第叁,稀疏数据源是数据挖掘任务中常见的一种数据源类型,本文在分析频繁模式挖掘中各种已有的数据结构基础上,提出了一种压缩存储稀疏数据源的链表结构,并在此基础上提出了稀疏数据源频繁模式挖掘算法,实现了高效挖掘稀疏数据源频繁模式的目的。详细讨论了VODCA系统环境下视图的划分依据和使用。最后,针对再制造/制造集成系统供应链管理中的两个关键问题:回收商选择问题和专业拆解中心选址问题,讨论了频繁模式挖掘算法在这类问题中的应用,提出了回收商绩效评价系统模型,介绍了关键属性的选取和处理方法。采用基于χ~2统计的有监督属性量化方法和属性值映射方法,将数据源处理成为稀疏数据集,寻找属性之间的关联关系,为问题中各类评价指标的确定提供指导。
参考文献:
[1]. 基于属性划分存储结构的并行联机分析处理操作算法研究[D]. 王大威. 黑龙江大学. 2001
[2]. 基于多维压缩数组存储结构的并行联机分析处理操作算法研究[D]. 张德辉. 黑龙江大学. 2001
[3]. 企业集团数据仓库系统关键技术研究[D]. 宋旭东. 大连理工大学. 2010
[4]. 基于多核CPU的数据立方体并行计算方法研究[D]. 梁经纬. 哈尔滨工业大学. 2013
[5]. OLAP系统中Cube并行与分布式处理技术的研究[D]. 顾颀. 扬州大学. 2007
[6]. 基于并行属性划分存储结构的并行聚集算法[C]. 王大威, 李建中. 第十七届全国数据库学术会议论文集(研究报告篇). 2000
[7]. 基于MapReduce架构的实时数据仓库关键技术研究[D]. 师金钢. 东北大学. 2011
[8]. 具有复杂约束条件的海量数据聚集及其并行化实现[D]. 刘文龙. 哈尔滨工业大学. 2014
[9]. 并行数据仓库系统中元数据管理、并发控制与恢复策略的研究[D]. 杨绪岩. 黑龙江大学. 2001
[10]. 频繁模式挖掘技术研究及其在供应链管理中的应用[D]. 郑晓艳. 天津大学. 2009
标签:计算机软件及计算机应用论文; 数据仓库论文; 立方体论文; mapreduce论文; 数据立方体论文; 并行处理论文; 实时系统论文; 数据分析论文; 算法论文; cube论文;