并行数据仓库系统中元数据管理、并发控制与恢复策略的研究

并行数据仓库系统中元数据管理、并发控制与恢复策略的研究

杨绪岩[1]2001年在《并行数据仓库系统中元数据管理、并发控制与恢复策略的研究》文中研究说明数据仓库是一个面向主题的、集成的、不可更新的且随时间不断变化的数据集合。用来支持管理人员进行决策分析,能够使企业以合理的代价取得有效的决策支持。数据仓库的研究是一项具有重要学术价值和广泛应用前景并且十分迫切的任务。数据仓库研究是当今信息技术研究的新焦点。 本文主要对数据仓库的元数据组织与管理、并发控制、数据仓库系统恢复叁方面进行了研究,提出了一种有效的字典组织方式,很好的描述了多维数据模型,针对数据仓库的操作的特点提出了两种并发控制策略和一种恢复策略。并给出了相应的组织结构与算法描述。

牛筱峰[2]2008年在《基于元数据的数据仓库任务调度原型系统的设计与实现》文中提出数据仓库系统建设可以分为四个过程:数据采集,ETL1,ETL2,数据展现。这些过程内部、过程之间存在着复杂的关系。如何设计一个较好的调度系统,使其在保证数据正确性的前提下尽可能的提高系统效率,是数据仓库调度系统所要解决的问题。元数据及元数据管理的相关研究为解决数据仓库任务调度问题带来了新的思路。OMG组织提出的公共仓库元模型(Common Warehouse Metamodel,CWM)提供了一个描述数据仓库领域数据源、数据目的、转换、分析以及数据仓库管理元数据的通用框架,为异构产品和工具之间进行元数据通信和共享提供了标准。近年来,工作流技术日益成熟,为实现业务流程管理和流程自动化,提高系统效率提供了切实可行的解决方案。基于以上背景,作者深入研究了铁路试点数据中心的建设过程,分析了铁路试点数据中心的实际环境、任务调度现状和存在的问题,据此提出了一种基于元数据的数据仓库任务调度系统的设计方案。该系统基于CWM元模型,以调度元数据库为核心,将数据仓库调度过程集中起来,由一个调度系统来统一管理。为了提高系统的处理效率,作者将工作流技术引入到数据仓库任务调度过程,用来协调调度活动的执行。之后,作者描述了任务调度实现的流程,并讨论了系统实现中业务规则表示、并发控制、任务管理、任务指派、依赖检查、转发控制等关键问题。

龚卫华[3]2006年在《数据库集群系统的关键技术研究》文中研究指明目前大型DBMS在海量数据的OLTP商业应用中已成为制约整个信息系统性能和效率提升的瓶颈,传统的提高单机的硬件配置和优化数据库系统性能参数的方法也只能有限地提高系统性能。因此,基于多机并行处理的数据库集群成为人们关注的热点,它以高性能、高可用性和高可扩展性为目标,在高性能计算、海量数据的存储和处理、Web服务、电子商务等领域有着广泛的应用。围绕数据库集群系统的并行性能,主要从系统结构、全局事务的并发控制、负载平衡以及数据分布等方面解决了集群系统中的一些关键问题。为了将集群技术应用于数据库系统以实现大规模和高并行性能的数据库集群系统,在无共享的数据库集群基础上设计了一种通用的、具有高并行性能的中间件系统,提供单一系统映像结构,采用元数据管理、多线索机制、并行事务预处理等技术,实现了数据库集群的协作与并行处理,能满足对性能要求较高的OLTP商业应用,具有理想的性价比。该系统既保持了集群中局部数据库站点的自治性,又提高了数据库集群系统的并行性能,解决了大型DBMS的性能瓶颈。在并发控制方面,为了保证集群系统中全局事务的并发正确执行,采用基于谓词级的多级粒度冲突检测机制,并通过检测谓词冲突图中是否存在环的方法来避免冲突的全局事务可能会产生的全局死锁,不仅减小了死锁检测粒度而且还提高了全局事务处理的并发度,同时也保持了集群中局部数据库的自治性。此外,还改进了一种以事务提交图为中心的并发事务调度算法来保证全局事务的可串行化提交,实验比较结果表明该算法有效地提高了全局事务执行的并发度,增加了事务吞吐率和减少了响应时间。负载平衡是集群系统获得高并行处理性能和提高资源利用率的有效手段,集群中的负载平衡器根据同构或异构节点上的CPU、内存和磁盘I/O等计算资源在不同负载下的综合利用率来衡量节点的加权负载状态,所提出的基于阈值的动态负载平衡算法不仅考虑了资源的利用率,而且还考虑了负载类型对集群系统性能的影响。实验证实该策略不仅动态地保持了系统的负载平衡,而且还充分发挥了各节点的计算能力,提高了系统中各计算资源的利用率。数据分布平衡是影响数据库集群系统性能的重要因素,现存的一些数据划分方法把关系和数据都均匀地分布到多个处理节点上,而没有考虑异构节点间计算能力的差异,使得数据库集群的并行处理能力没有被充分地发挥,因此,提出了适合于同构及异构集群中数据分布的改进的Range划分方法,根据集群中同构或异构节点的计算能力将数据不均匀地分布各节点上,克服了传统的数据均匀划分的缺点。针对系统负载中发生的数据倾斜,所采用的联机数据迁移算法根据负载访问特点把过载节点上的热点数据迁移到轻负载的节点上以分担系统负载,其优点是不仅有效避免了数据执行倾斜,提高了事务吞吐率,也保持了集群系统的动态平衡。最后,综合分析和评价了同构及异构数据库集群系统的各种并行性能度量指标,TPC-C测试结果表明数据库集群系统在并行OLTP处理中具有良好的可扩展性、次线性的加速比、以及高性价比的并行处理服务,为满足电信、金融等领域大规模OLTP处理的需要打下坚实的基础。

岳利群[4]2011年在《基于分布式存储的虚拟地理环境关键技术研究》文中认为本文在学习,借鉴国内外相关研究成果的基础上,对分布式存储虚拟地理环境中的一些重要理论和关键技术以及相关算法做了较为深入的研究,通过大量的实验数据论证了论文提出的自适应空间数据模型和基于元数据的空间数据引擎,并在此基础上模拟构建了多级别多地区分布式存储虚拟地理环境,完成了原型平台的设计与开发,实现了地理空间数据的存储、管理、共享及可视化。主要研究内容和创新点如下:1.研究分析了现有分布式存储VGE的体系结构、数据资源、支撑技术和应用平台的特征及存在问题,建立了四层体系结构的分布式存储虚拟地理环境的架构,并从技术和应用两个层面,给出了基础层、资源层、服务层和应用层的内容构成和支撑技术,为分布式存储VGE的研究设计和应用服务提供了理论和方法指导。同时,探索并设计了基于网格、云模式和物联网模式下的虚拟地理环境的体系结构,为分布式存储VGE的发展提供了思路,也验证了本文提出的体系结构的扩展性和兼容性。2.建立了VGE元数据模型。结合分布式存储VGE的应用需求,建立了面向叁维仿真模型、矢栅一体表达的元数据模型,实现了VGE元数据的动态管理、快速解析、缓存维护等8项技术,为分布式存储VGE元数据的规范化和标准化提供参考。3.建立了自适应的空间数据模型。提出了自适应空间数据模型建立的五大制约因素:数据、软件、用户、计算机和网络,通过改进基于球面Clipmap的数据模型和分布式存储VGE的数据模型,构建了自适应空间数据模型,解决了分布式存储VGE中空间数据自适应组织和管理的难题。其中改进后的球面Clipmap空间数据模型,空间数据利用率提高了2倍。4.构建了基于元数据的分布式空间数据引擎,解决了分布式存储空间数据的快速索引和提取问题。构建并分析了空间数据存储体系,提出了基于Linux构建多缓存服务器的数据服务模式,该服务模式不但提高了数据访问速度,还消除了Lustre文件系统不支持Windows客户端的瓶颈问题。在服务器快速定位、数据缓存设计、数据并行提取、Socket连接池等方面改进和实现了空间数据引擎的若干关键技术,最终构建了分布式存储VGE的空间数据引擎。5.实现了自适应空间数据可视化的多模式应用,建立了全球矢栅一体可视化框架和分布式空间数据可视化框架,探讨并实践了分布式空间数据可视化应用的加速技术,基于自适应空间数据模型生成了空间数据可视化多模式应用,验证了自适应空间数据模型的有效性。6.设计并实现了基于分布式存储的高效高可用性虚拟地理环境平台。对分布式存储虚拟地理环境平台(DSVGEP)中重点模块存储数据入库、元数据管理、自适应空间数据模型、空间数据服务引擎、可视化表达进行了说明,在此基础上对平台进行模拟部署与应用。经实验测试,单台Linux客户端能够同时支持100台可视化客户端的并行访问。

曹蓟光[5]2001年在《联机分析挖掘处理技术(OLAM)的研究》文中提出联机分析处理技术(OLAP)和数据挖掘技术均是决策支持的重要技术,两者在决策分析过程中可以分工合作、功能互补。但是两者的产生背景、发展历程、数据基础、分析层次、用户群等方面存在着较大的差别,这妨碍了两者在决策支持应用中有机、高效的结合。为了减少或消除这种差别,实现联机分析处理技术和数据挖掘技术的紧密结合,J.W.HAN于1997年提出了OLAM的概念,即OLAP Mining,他从统一两者的数据基础入手,提出在多维数据模型的基础上同时支持OLAP应用和数据挖掘应用的思路。但是数据挖掘所需的数据基础通常是多样的,单纯的多维数据模型使得数据挖掘的功能不能充分的发挥。 论文对OLAM的概念进行了扩展,对OLAM的内涵进行了深化,把OLAM定义为联机分析挖掘处理(On Line Analytical Mining Processing),实现对OLAP技术和数据挖掘技术的紧密集成。OLAM的数据基础不再局限于多维数据模型,而是包括多维数据模型、关系数据模型、对象数据模型和对象关系数据模型、半结构或无结构化数据模型等多种模型的异构环境。研究的重点为如何把OLAP与数据挖掘技术有机的集成在一起为用户提供高效地决策支持应用。 论文首次为OLAM技术建立统一的系统理论框架。作者在OLAM系统的体系结构、概念和逻辑模型、任/事务模型、事务的优化和调度、信息的组织和管理、OLAM语言的设计和分析、系统管理策略等方面提出了自己的见解。 论文在深入分析了OLAM应用的特点之后,提出了OLAM系统所应具备的十四条特性,这些特性同时可以认为是OLAM系统的建设准则,它对于构建和评价OLAM系统有一定的指导意义。在这些准则的基础上给出了OLAM系统的概念模型和逻辑模型。作者提出的OLAM系统概念模型界定了OLAM技术的研究范围,首次提出了工作仓库和导出对象存储的概念,明确了它们在OLAM系统中的重要作用。 论文通过对大量决策分析算法的分析,首次提出了基于限制(Constraint)的OLAM任务语义模型,这个模型从一定的逻辑高度对OLAM任务进行抽象,利用它可以分析OLAM任务的共性,提取OLAM任务执行时的基本操作,这些基本操作的基础是语义片断。论文给出了语义片断之间关联关系的分析和判断方法,提出了基于限制的、具有方向性的语义关联度定义。语义片断间的关系的确定是OLAM任务/事务优化的基础。 论文在对OLAM任务的特点和任务类别的分析的基础上,提出了一种新的OLAM任务/事务模型,这个模型通过AOR-DAG图来表示复杂的OLAM任务和事务,其中同时蕴涵了事务的控制流和数据流,是OLAM事务优化和调度的依据。 论文综合考虑了OLAM事务中的决定OLAM事务调度主要因素,首次提出了OLAM子事务的价值模型,一个OLAM子事务的价值包括自身价值、社会价值、继承价值叁个部分,它与OLAM任务/事务模型相结合是OLAM事务优化的基础。论文还给出了OLAM事务间的多种协作模型,提出了“基于有效资源的事务价值最大最优先的OLAM事务调度策略”。并着重对OLAM事务调度过程中任务时效性的保证进行了讨论。 导出对象中的信息表示的是OLAM任务语义模型中的语义片断的内涵,它是OLAM事务语义相关性分析的基础,研究导出对象的数据模型、组织和索引形式、导出对象间的关系以及导出对象的维护方法对于OLAM事务的优化和执行有着重要的意义。论文给出了导出对象的数据模型和导出对象的价值模型,同时结合关系模型给出了导出对象间关联关系的高效判断方法。为了提高导出对象的维护效率,论文提山了一套导出生成原语,同时讨论了导出对象的维护和管理方法。 元数据是OLAM系统的核心,论文在对元数据概念、元数据管理策略进行分析比较的基“础上,指出了元数据管理方法的未来发展方向。同时结合OLAM系统中元数据的特点提出了基于XML的元数据管理策略,并给出了OLAM系统中元数据仓库的系统模型。 OLAM技术作为一种新的决策支持应用开发技术,从自身内涵到系统理论框架,有很多问题需要解决,论文对OLAM技术发展中需要迫切解决的关键问题进行了讨论,提出了一套系统理论框架,为OLAM技术的进一步发展奠定了基础。

林建昌[6]2015年在《电力行业分布式ETL数据集成系统研究与实现》文中进行了进一步梳理电力行业的信息化建设经过多年的发展,已取得了显着的成效。如:调度SCADA系统、营销SG186系统、用电信息采集系统、ERP系统、GIS地理信息系统等应用系统已在各电力企业稳定运行,积累了大量的有用数据。然而,由于各个系统自成体系,成为了一个个独立的“信息孤岛”,以至于无法实现各系统间数据共享,同时分散的数据严重制约了企业的统一决策。针对这些分布的异构的数据源,企业拟建立这样一个电网生产管理信息平台(GPMS):这个平台能集成这些异构的数据源,并将这些有用数据源用于企业共享和决策分析。这个平台最关键的就是要解决数据集成问题,而数据仓库的提出为企业有效集成已有的数据资源提供了解决方案。数据仓库对决策的支持依赖于高质量的数据,而ETL(Extraction-数据抽取、Transformation-数据转换、Loading-数据加载)是数据仓库获得高质量数据的重要环节,它屏蔽了复杂的业务逻辑,为基于数据仓库的各种分析和应用提供了统一的数据接口。市场上的ETL产品普遍存在费用昂贵、操作复杂、功能繁杂但使用率低等缺陷,而且大多采用集中式架构,将ETL的设计、运行、管理都集中在一点上,加重了服务器的负担,对服务器的性能提出了较高的要求。本文通过采用分布式架构,将ETL的设计、管理和运行分布到网络上不同的节点,支持多台机器协同并行设计与运行ETL作业,以此克服传统ETL工具对ETL服务器的高度依赖性,降低了ETL系统的硬件成本,加快了数据处理速度。本文核心的部分是分布式ETL模型,模型中规定了ETL所有组件的边界、每个组件承担的任务和组件间的协作关系。模型中主要的组件有基于C/S模式的作业设计器、ETL作业调度模块、分布式计算管理、ETL作业执行引擎等。本研究在遵循分布式ETL模型的基础上实现了一个分布式ETL工具并就系统的性能进行了测试。并将该方法成功应用到GPMS平台的数据集成系统的建设中。论文最后对本次研究的所有工作做一个总结,并阐述未来进一步可以完善的方面。

罗兵[7]2006年在《基于元数据控制的ETL系统应用研究》文中提出随着信息技术的飞速发展,企业内部产生了越来越多的数据,但这些数据并没有产生应有的信息,这就出现了“数据爆炸,知识贫乏”的局面,数据仓库技术应运而生。数据仓库是一个面向主题的、集成的、不断更新的且随时间不断变化的数据集合,数据仓库是支持企业决策分析的核心技术。数据仓库的目的是为了建立一种体系化的数据存储环境,将分析决策所需的大量数据从传统的操作环境中分离出来,使分散、不一致的操作数据转换为集成、统一的信息。然而,这个过程并非易事,这里所谓的传统的操作环境,是指企业在不同时期、在不同的背景下开发出来的事务处理系统,这些业务系统的建立,也往往是面向不同的应用、由不同的开发商来完成的,其数据的存储结构、存储平台和系统平台具有很大的异构性。如何将这些异构的数据有效地集成到数据仓库中,是企业所面临的一个难题。企业需要一个全面的解决方案来解决数据的一致性和集成化问题,使我们能够从所有传统平台和环境中采集数据,并利用一个单一的解决方案对其进行高效的转换,这个解决方案就是ETL。 ETL(Extract、Transform、Load),数据抽取转换装载系统,一般把它简称为数据抽取系统。ETL包括叁个方面:首先是抽取,将数据从各种原始的业务系统中提取出来,这是所有工作的前提;其次是转换,按照预先设计好的规则对抽取的数据进行转换,使得本来异构的数据格式能够统一起来;最后就是加载,将转换好的数据按计划增量或者全部导入到数据仓库中。 可以说,ETL在传统的业务系统和数据仓库之间架立起了一座桥梁,确保新的数据能够源源不断地进入数据仓库。从整体的角度来看,ETL的主要作用在于其屏蔽了复杂的业务逻辑,从而为各种基于数据仓库的分析和应用提供了统一的数据接口。虽然ETL的技术含量相对来讲不算高,但其涉及到大量的业务逻辑和异构环境,因此在一般的数据仓库项目中,ETL部分往往是牵扯精力最多的。随着银行业务的不断增多,系统的数据量也迅速膨胀,年业务数据量往往是以G为单位,一些比较大的银行,年业务数据量甚至达到了几十G,乃至上百G。如此海量的数据,对ETL的运行效率提出了新的要求。 在传统的数据仓库建设中,往往强调数据仓库本身的建模和前端数据展示,而对ETL的设计和建模关心不足,使ETL过程反复进行,甚至导致项目实施的失败。从国内外众多的实践得到普遍的共识是ETL设计与实施的工作量要占到整个数据仓库项目时间的60%-50%o ETL在数据仓库建设的重要地位越来越得到人们的关注。 本文以某商业银行稽核系统为平台,在以下两个方面进行了深入研究:ETL架构设计和ETL任务模型设计。ETL架构设计属于ETL过程的物理结构,类似于工厂中的设备;而ETL任务模型设计属于ETL过程的逻辑结构,类似于工厂生产的调度、指挥等等。可以说,这两

刘艳艳[8]2008年在《基于数据库集群的海洋环境数据优化存储与分布式管理》文中指出由于卫星遥感等海洋探测技术的快速发展,所获得的海洋数据呈爆炸趋势增长,数据量高达几百GB甚至于TB级的海量海洋数据库应用已经出现。海洋环境数据存在着多源多格式、数据量大的特点,而基于互联网或局域网对这些数据的访问又有速度、效率、可用性等方面的要求。本文针对这些问题,研究海量数据优化存储方法以及基于数据库集群的分布式数据管理技术,提高海洋数据管理的整体性能和系统的可靠性。论文的主要研究内容和成果如下:1.海洋环境数据优化存储研究由于海洋环境数据应用具有面向查询的特点,查询效率和存储空间占用量是进行海洋环境数据库建设所要考虑的最重要的因素。基于这种实际需求,对海洋数据优化存储进行研究,研究包括叁个方面:改造传统关系存储模式;研究数据分片方法;研究相应的数据操作方法。本文提出了一种新的类似网格结构的关系模式Grid_R来管理海洋数据,该结构类似数据采集的实际地理经纬度网格,除了时间,纬度,将所有的经度直接作为属性列。数据分片方法以及相应的数据操作方法研究均基于Grid_R数据组织结构。通过存储与组织的优化减少了数据库的数据冗余,磁盘空间占用量不到传统方法的1/4,减少了网络传输时的数据量,在某种意义上实现了数据压缩。单表查询效率比传统方法提高了4倍以上。2.基于数据库集群技术的海量数据分布式管理研究传统的集中式数据库系统难以有效支持基于wEB的海洋地理信息系统功能。随着数据库请求不断增加,查询方式的日益复杂,数据库服务器的负载增加,响应单个请求的速度越来越慢,对系统的稳定运行带来了不利影响。海量数据也对单服务器的存储能力提出挑战。本文将数据库集群技术应用于海洋环境数据的管理,提出使用基于中间件的数据库集群实现海量数据的分布式管理,将数据分布于不同的数据库节点上,集群中间件系统负责各节点的协作与并行处理,可以获得高性能、高可用性、高可扩展性,突破传统的集中式数据库服务器上的DBMS所固有的性能瓶颈限制。3.海洋环境数据库集群关键技术研究基于优化存储结构和分布式管理策略,对数据库集群数据分布、负载均衡以及并行查询等关键技术进行研究:提出了一种新的数据分布算法:两步分布法,将数据集分为分片数据集和复制数据集,两步分布法即先均匀分布分片数据集、再按异构节点资源权值分布复制数据集,在保证相邻数据分布在不同节点的基础上,使数据分布尽量达到均衡;提出了一种基于数据复制的动态负载均衡算法来平衡集群的负载,以达到提高整体性能的目标,并解决了局部节点过热和集群可用性问题;提出了一种并行查询算法来实现用户对集群的透明查询,将用户的全局查询进行解析,根据元数据将全局查询转化对各节点的本地查询,调用负载均衡获得最佳查询节点,然后在各节点并行执行查询,最后进行重构得到最终结果,并将结果返回用户。根据研究成果,基于海洋大气地理信息系统MAGIS(Marine and AtmosphericGeographicalInformation System)平台软件,建设了多节点海洋环境数据库集群,并开发了集群中间件分布式海洋数据管理器,实现了海洋数据的优化存储与分布式管理,提高了系统的整体性能和可靠性。

余丹[9]2009年在《银行企业级数据仓库建设研究》文中研究表明我国的商业银行虽已积累了大量的客户信息和经营数据,但对于综合性、整体性较强的业务分析需求难以满足,各应用之间存在一定程度的数据重复下载、重复加工计算、数据冗余存储、设备资源较难得到共享利用。构建银行数据仓库,为全行各部门提供全行统一的、集成的、面向主题和保存历史的数据信息平台,以该平台为基础建立起统一的全行范围业务信息视图,建设完善符合业务实际和发展要求的全行管理信息系统,可以提高银行的服务质量和核心竞争能力。本文对数据仓库基本理论、实施方法论进行研究,构建了银行数据仓库系统。论文首先研究了数据仓库的相关理论,以及银行数据仓库的发展现状和发展趋势,进而确立了建立银行数据仓库的重大意义,明确了建设的目标和需要完成的基本功能;然后论述了构建数据仓库的整体架构,包括系统架构、物理架构、逻辑架构、数据流等;接着针对数据仓库系统架构的每个组成部分的建设方法进行研究,包括了数据源的选取、ETL的设计、模型设计、灵活查询及数据挖掘、数据质量治理、元数据管理,以及系统检控、系统备份和恢复;然后论述了数据仓库实施过程中的组织结构以及项目管理流程;最后对数据仓库建设过程中出现的配合协调工作不充分等情况加以分析,并提出了下一步的工作目标和方向。

战颖[10]2015年在《多数据库系统数据仓库集成技术应用研究》文中研究说明在信息增长迅猛的今天,数据呈现出海量、分布和异构的特点,这使得集中式数据仓库在数据分析处理能力方面越来越有局限性。基于分布式数据仓库具有维护成本低、数据整合性强、高容错力、高效性和存储空间几乎不受限的特点,分布式数据仓库环境针对一些特殊情况更具优势,典型的例子有银行和电子商务平台。课题以一种SaaS模式的平台为研究背景,它的特点是面向具有相同业务模式的、多小微型企业。虽然企业用户的业务模式相同,但企业之间相互独立,各自的营销策略不尽相同。综上所述,平台采用多数据库系统方式,为每个企业用户创建独立的表空间,不同表空间中对应的业务表结构相同。为满足对企业自身和平台的不同数据分析需求,需要通过建立数据仓库来实现。通过对集中式和分布式两种不同数据仓库结构的分析与对比发现,分布式数据仓库结构的高容错能力和高存储性能更适于具有不同分析需求的平台应用。数据仓库集成技术研究的主要问题包括:逻辑模型设计、数据ETL过程、数据传输策略和元数据管理,因此解决上述问题是方案设计与实现的重点。结合研究背景,系统整体设计可划分为两部分:一是面向企业用户和后台管理员的数据分析部分;二是面向后台管理员的数据仓库管理部分。第一部分在电子商务云平台和云管理系统中都有体现,第二部分集成在云管理系统中。基于上述不同需求,两级数据仓库的逻辑模型从分析主题和粒度方面存在着差异,因此需要分别进行设计,最后通过开源分析展示工具向用户展示可读性强的数据分析结果。对于数据仓库管理部分,重点在于实现手动创建数据仓库的功能。对于数据处理部分,根据目标表的更新频率可将数据分为实时型和延迟型两种,从数据抽取、转换和传输叁个方面进行分析并给出实现方法。针对数据传输策略进行研究,文章首先总结概括出上级轮循调度和下级数据驱动两种策略,通过时间对比发现数据驱动策略更适用于本平台。元数据管理模块同样是课题研究的重点。除对数据仓库建立和数据ETL过程产生的元数据进行管理外,文章创新性地针对逻辑模型完整性进行管理,并提供实现恢复维度表/事实表的功能。本文还针对数据驱动策略的时间效率问题进行了研究,通过模拟实际应用环境的实验,结合实验结果的对比分析得出利用Oracle11g提供的表分区技术能够提高数据传输效率的结论,为今后的深入优化奠定理论基础。

参考文献:

[1]. 并行数据仓库系统中元数据管理、并发控制与恢复策略的研究[D]. 杨绪岩. 黑龙江大学. 2001

[2]. 基于元数据的数据仓库任务调度原型系统的设计与实现[D]. 牛筱峰. 北京交通大学. 2008

[3]. 数据库集群系统的关键技术研究[D]. 龚卫华. 华中科技大学. 2006

[4]. 基于分布式存储的虚拟地理环境关键技术研究[D]. 岳利群. 解放军信息工程大学. 2011

[5]. 联机分析挖掘处理技术(OLAM)的研究[D]. 曹蓟光. 浙江大学. 2001

[6]. 电力行业分布式ETL数据集成系统研究与实现[D]. 林建昌. 电子科技大学. 2015

[7]. 基于元数据控制的ETL系统应用研究[D]. 罗兵. 西南大学. 2006

[8]. 基于数据库集群的海洋环境数据优化存储与分布式管理[D]. 刘艳艳. 中国海洋大学. 2008

[9]. 银行企业级数据仓库建设研究[D]. 余丹. 吉林大学. 2009

[10]. 多数据库系统数据仓库集成技术应用研究[D]. 战颖. 北方工业大学. 2015

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

并行数据仓库系统中元数据管理、并发控制与恢复策略的研究
下载Doc文档

猜你喜欢