数据仓库中数据志跟踪的理论与方法研究

数据仓库中数据志跟踪的理论与方法研究

戴超凡[1]2002年在《数据仓库中数据志跟踪的理论与方法研究》文中研究表明在数据仓库系统中,一个仓库数据项的精确的历史沿革,即该数据项从获取、转换、集成到现状这一完整过程的相关描述和信息,称为数据志(Data Lineage)。数据志包含两个部分:起始数据集和作用在该数据集上的数据处理过程。获取数据志的过程称为数据志跟踪(Data Lineage Tracing)。数据志跟踪技术是数据仓库研究中一个最新的前沿性课题,不仅可以支持更全面、更深入的数据分析,还可以帮助技术人员验证源数据、清洗规则和转换处理的正确性,从而提高数据仓库的质量。 作者从定义起源集入手,找出了起源集的一般规律,证明了有关起源集的定理,提出了一种“基于属性映射的弱逆与验证”的起源集跟踪方法,给出了一系列有关起源集跟踪的算法,并设计了数据志跟踪的基本过程,从而形成了一套系统的数据志跟踪理论与方法。本文的主要工作与创新有以下几个方面: 作者首先对与数据志相关的概念进行了完善和细化,给出了起源集的形式化定义,并提出了补集无关和补集相关的概念。这些定义和概念是跟踪起源集的基础,也是检验跟踪结果的依据。在此基础上,作者证明了有关起源集的5个定理,这些定理证明了转换与属性映射、起源集与属性映射、起源集与作用集之间的关系,并证明了几类转换的补集无关性。这些定理为作者根据属性映射的可逆性构造和验证弱起源集提供了基本依据和指导思想,丰富了数据志跟踪的基本理论。 作者根据可逆与弱可逆的思想,提出了一种“基于属性映射的弱逆与验证的方法(Wivem,Weak Inversion and VErification of attRibute mapping)”求解属性映射的(属性级)起源集。在此基础上,作者分析了转换的可逆性,给出了弱可逆转换的形式化定义,并通过对弱可逆转换中弱逆映射求解的弱起源集进行单维合并、多维合并来求解转换的(元组级)弱起源集。 作者证明了基本运算的起源集的唯一性定理和求解定理。基本运算的起源集唯一性定理保证了求解的基本运算的起源集的正确性,基本运算的起源集求解定理给出了求解公式,通过这些求解公式可以直接求解这些基本运算的精准的起源集,而不需要进行验证,并且一般不需要访问输入数据集,因此求解性能很好。 作者基于导出关系给出了转换图的起源集的形式化定义,证明了起源集的传递性定理。在此基础上,设计了跟踪转换图的数据志的基本过程。在构造弱起源集阶段,提出了可延续跟踪性的概念,给出了可延续跟踪性判别算法和可延续跟踪的弱逆映射的筛选算法;在验证弱起源集阶段,针对不同类型的转换和属性映射,给出了相应的验证算法。 为了验证本文提出的理论和方法,作者对TPC-H测试标准中具有代表性的关系查询Q2和Q12进行了数据志跟踪实验,验证了起源集理论和方法的有效性,并与Cui博士提出的“基于转换性质的跟踪查询过程的方法”进行了详细的比较。实验结果表明,从跟踪响应时间、存储需求和结果的精度等主要指标来分析和评价,作者提出的Wivem方法的跟踪性能在总体上优于Cui博士方法的跟踪性能。

江绵康[2]2006年在《“数字城市”的理论与实践》文中研究说明自“数字地球”的概念被提出以来,已经引起世界各国的广泛关注,并受到诸国政界、学术界和产业界的热烈响应。从那以后,由“数字地球”又引伸出一系列相关的概念,如“数字国家”、“数字城市”、“数字社区”、“数字行业”等等。“数字城市”是“数字地球”的重要组成部分,是“数字地球”在城市的具体体现,它是城市信息化的战略目标和城市现代化的重要标志。建设“数字城市”,既是加快城市现代化的内在要求,更是增强城市综合竞争力的必然选择。构建“数字城市”,将会改变人们传统的生产、生活方式,丰富人们的物质文化生活,促进经济健康发展和社会全面进步。 本文以“数字上海”建设为例,研究探讨了构建“数字城市”的理论基础、关键技术和建设实践。整个论文共分五个章节,第一章从“数字城市”的产生背景、基本概念和国内外“数字城市”的发展现状以及建设“数字城市”的重要意义等方面阐述了建设“数字城市”的理论基础;第二章根据目前的技术发展现状,列举了全球定位系统、遥感、地理信息系统、元数据与海量数据处理、数据仓库与数据挖掘、数据融合与虚拟现实和互操作与超链接等支撑“数字城市”的关键技术;第叁章按照笔者对“数字城市”概念的理解,结合上海既有的设施基础、技术条件、管理体制和信息化水平,提出了构建“数字上海”的基本框架;第四章以上海市数字化地形图数据库、数字化遥感图数据库、基础地理要素编码标准和人口资源地理数据库的建设为实例,详尽地描述了“数字上海”的基础性工程——上海城市地理信息系统

李华[3]2014年在《面向关系数据库关键字查询的物化视图维护方法研究》文中研究指明在关系数据库上进行关键字查询已成为近来数据库领域的研究热点。然而,若针对每个查询都重新执行,查询代价很高。鉴于物化视图能够有效地提高查询效率,本文把关键字查询的中间结果和Top-k结果物化为视图,并通过维护视图来维护关键字查询结果。已有研究工作大多都是面向SQL的物化视图维护,已有增量维护方法存在近似维护且只面向单视图最优维护的问题,并且针对关键字Top-k查询结果维护研究较少且维护效率低。针对已有问题,主要从以下叁个部分开展研究:第一部分,研究基于公共表达式的多视图生成算法。从相关度高的几个候选网络中选择公共表达式,利用Huffman树把关键字查询路径存储为二叉树,每一个中间结果物化为视图存储,同时在视图中增加辅助列。通过实验验证了方法可提高查询效率。第二部分,研究高效而准确的视图维护方法。接第一部分研究内容,基于Huffman树,对与查询关键字无关数据的修改操作,提出基于溯源信息快速更新视图方法;对与查询关键字有关数据的修改操作,即面向删除与插入操作,提出基于溯源信息的精确的增量维护视图方法。通过实验验证本文提出的两种视图维护方法可有效地提高维护效率且准确率提高至100%。第叁部分,研究高效率的维护关键字查询Top-k结果。针对与关键字无关的修改,提出了近似的快速维护视图方法;与关键字相关的数据修改,在第二部分提出的基于溯源信息精确的增量维护算法基础上,对Top-k结果进行维护,并且在维护的过程中考虑一些优化条件,进一步提出了优化的Top-k'视图增量维护算法。通过实验验证本文提出方法可有效地提高Top-k结果的维护效率和查询效率。

陈志辉[4]2007年在《面向数值天气预报研究的数据管理系统》文中认为数值天气预报研究是气象应用界的热点问题之一,随着气象科学、数值预报理论以及高性能计算机技术的不断发展,特别是SOA(Service-OrientedArchitecture)技术的迅猛发展,拉开了气象数值预报从传统基于脚本的方式到基于SOA工作流方式的转变序幕。而对气象数据集成与访问业务自动化的支持是SOA数值预报工作流中迫切需要解决的问题。数据集成是应对信息孤岛、解决数据共享与访问的有效方法。但目前的气象数据集成与访问系统主要是应对储存气象资料和用户检索的需求,提供的接口也是人机交互的方式,需要用户的参与,且有太多的手动操作,很难满足数据集成与访问业务的自动化需求。本文针对SOA数值预报工作流对气象数据集成和访问的需求,研究了基于元数据的气象数据集成的技术和方法。通过研究SOA数值天气预报中元数据自动生成技术,提出了两种元数据掘取框架,解决了气象资料元数据的自动生成问题;通过研究XML的存取技术,针对原生XML(eXtensible Markup Language)数据库存取速度慢的现状,提出了一种在关系数据库上存取XML元数据的方法,解决了元数据目录的构建问题;在Globus已有的数据服务组件基础上,通过服务整合,形成了一个可用于气象数据资料传输、主副本和数据cache管理的综合数据服务,解决了自动检索后的数据访问与传输等问题。最后在以上研究的基础上,使用Web服务技术,设计和实现了支持SOA数值预报工作流的气象数据集成和访问系统,较好的满足了引入SOA技术后,数值预报工作流中所面临的数据集成和访问业务自动化的需求。

李劼[5]2007年在《质量元数据及其管理系统的研究与应用》文中研究说明进入新世纪,质量管理已经发展到以市场为导向,以全面质量管理为核心,结合其他各种先进的质量管理方法和理论,并利用计算机技术和网络技术实现企业质量管理的信息化和电子化的阶段,形成了现代质量管理,它的特点是质量成为企业一切工作的核心,各种质量管理技术也应用到了企业的各个部门和产品生产的各级阶段,各级质量管理人员需要利用这些技术和方法以及质量管理软件解决相关质量问题。现代质量管理的特点决定了质量数据在企业质量管理中起着至关重要的作用,质量管理人员只有在正确地理解和有效地使用质量数据的基础上,才能有效地作出各种质量管理决策。为此,本文将元数据这一概念引入现代质量信息管理系统中,形成质量元数据,使企业质量管理人员对质量数据有更全面、更清晰的了解,从而帮助质量管理人员更有效地利用质量数据进行质量管理。质量元数据的引入和应用可以促进企业质量信息管理水平的提高。本文在文献综述的基础上,首先分析了现代质量管理的特点,并对质量元数据进行了系统的研究;对质量元数据的定义、作用、分类、来源、包含的内容以及质量元数据在企业质量管理中的应用流程进行了系统的分析,针对质量元数据标准在元数据应用中的核心地位,建立了质量元数据标准的雏形——质量元数据规范集,并利用XML Schema技术对规范集进行了描述,为质量元数据用户使用元数据和基于规范集的元数据共享和互操作奠定了基础;为了实现质量元数据的电子化、信息化和网络化管理,开发了质量元数据管理系统,分析了系统所涉及的关键技术和总体结构,最后阐述了元数据管理系统的开发与应用实例。

戴超凡, 王涛, 张鹏程[6]2010年在《数据起源技术发展研究综述》文中指出在总结国内外相关文献基础上,系统介绍了数据起源的概念、内容及其主要应用,介绍了数据起源的基础研究和开放环境下两个典型的形式化模型,然后介绍了其在数据库和工作流及其他领域的应用,对现有成熟的起源管理系统进行了分析和比较,最后展望了数据起源技术的发展方向。

刘进军[7]2016年在《云存储系统中基于溯源关系的文件查询与管理方法研究》文中提出随着备份、归档、视频等网络服务的广泛应用,云存储系统的规模越来越大,给文件访问的性能带来挑战。用户在访问文件之前需依靠文件查询来确定待访问的文件及其地址,因此需要提高文件查询的性能。而现有的元数据查询方法无法有效地支持文件的高性能查询,因此需要挖掘更多的文件相关性来提高元数据查询的性能。云存储系统中,大部分的数据都处于冷数据状态,被存储在价格便宜、性能较差的设备上。有些应用需要保证高效的冷数据访问性能,因此需要通过分析冷数据文件在文件访问以及文件属性的相关性来提高文件管理的性能,建立一个高效的冷数据的分布及其元数据的索引结构。现在,大数据存储及其网络传输中视频已经占了65%,这些视频中大量的近似重复视频带来了巨大的传输和存储开销。针对这种特殊文件的应用和管理,需要通过挖掘这些视频之间的关系来提高视频的存储空间有效性以及访问速度。因此,挖掘文件之间的相关性对于提高云存储系统中文件访问性能具有重要作用。在云存储系统中,具有溯源关系的文件之间具有数据相关性,这种数据相关性导致这些文件具有相同或相似的内容,因此从溯源数据中可以挖掘到具有溯源关系的文件相关性,包括很强的内容相似性、属性相似性和读写特征的相似性以及较弱的内容差异性等。同时,文件的溯源数据记录了影响这个文件最终状态的所有进程和文件,通过对溯源数据的分析不仅在空间维度上可挖掘到更多文件的相关性,而且在时间维度上可以得到文件之间的相关性的变化,从而可提高文件相关性度量的精确度。因此,围绕加快文件访问的速度这一目标,本文利用文件相关特性提出了叁种优化方法。(1)针对云存储系统规模的扩大会降低文件访问所必需的元数据查询操作的性能的问题,提出了一种挖掘具有溯源关系的文件之间的内容相似性的元数据查询方法PROMES,通过在查询流程中增加关系图查询减少元数据索引树中的查询范围而加快了查询速度,通过引入关系的时效性和文件的权重两个参数提高了关系图中文件相关性度量的准确性而增加了查询准确率。PROMES中的元数据查询分为叁步:通过一个相关性感知的元数据索引树来定位到一些文件的元数据作为种子。绝大部分的种子满足查询条件,然后使用种子在根据溯源关系所生成的关系图中查询剩余的查询结果,最后进行排序并精简以得到最终的查询结果。因为由溯源关系生成的关系图具有文件相关性紧密、轻量索引的特点,所以PROMES具有显着的高查询准确率和低延迟的优点。实验测试表明:PROMES比现在最新的元数据查询方法减小了1到2个数量级的查询时间,并具有更高的查询准确率。(2)针对云存储服务供应商通常在低功耗的设备上存储冷数据文件及其元数据而导致文件访问速度受限的问题,提出了一种基于溯源关系中文件的属性和访问特征相似性的冷数据分布及其元数据索引机制,通过挖掘具有溯源关系的文件之间的访问特征相似性调整文件的分布状态减少访问冷数据文件的等待时间并节省能源,通过挖掘具有溯源关系的文件之间的元数据相似性对文件元数据进行逻辑分组减少冷数据文件的元数据查询的延时。这个机制包含两个方法:基于溯源关系中文件的访问特征相似性的冷数据重分布方法Prodi和基于溯源关系中文件的属性特征相似性的冷数据元数据索引方法P-index。通过测试表明Prodi节省了25%能源,而P-index的性能比现有的元数据索引结构减少了1到2个数量级的查询时间开销。(3)针对云存储系统中大量的近似重复视频降低了用户的体验质量,并消耗了服务供应商的很多资源的问题,提出了一种基于溯源关系中文件的内容差异性的视频压缩与传输机制Provis,利用视频的溯源数据能够支持视频重建和记录了具有溯源关系的视频之间内容差异的溯源数据的大小远小于视频文件的特性,通过保存视频的溯源数据来替代保存视频的方法压缩近似视频而提高存储系统的空间有效性,通过上传视频的溯源数据后再在云端重建视频的方法来替代直接上传视频而加快了视频上传的速度并减少上传的网络开销。通过两个视频数据集的测试比较了Provis与其它现存的视频压缩技术,结果显示Provis能够显着节省空间并降低视频上传的网络开销,溯源图的存储开销和视频重建的时延在用户可接受范围内。综上所述,本文主要解决云存储系统规模的扩大给文件的查询与管理性能带来新的挑战的问题,通过挖掘具有溯源关系的文件之间的各种相关特性来优化云存储系统的文件查询和管理,提出了一系列的方法,这些方法不仅可以用来提高存储系统的文件访问的性能,而且为溯源关系的广泛应用提供了相关理论和技术支撑。

夏菁[8]2011年在《基于可信度计算的不确定数据起源研究》文中研究指明随着互联网的迅速发展,数据规模不断扩大,数据形式趋于多样化,共享范围愈加宽广,各行各业逐渐形成庞大、复杂和异构的数据环境。这些数据环境中的数据可能是由原始采集得到,也可能是经过多次复制、转换和传播而来,人们开始关心数据从何而来,数据从原始创建到当前输出经历哪些变迁过程,以及数据的质量和可靠性。数据起源的研究由此而来,同时,数据演化过程中不可避免产生不确定性,特别是当原始数据本身存在不确定性时,结果数据的不确定性来源和不确定性大小成为不确定数据研究的重点。而目前数据库领域中,过往的研究大多针对确定性数据,本文针对不确定数据的起源展开了研究,研究了不确定数据的起源追踪方法、评价结果数据不确定大小的算法。主要的研究工作主要包括如下几个方面:(1)研究了数据库领域中数据起源的相关概念和算法,重点分析和比较了具有代表性的几种起源模型的特点,提炼出它们之间的差异和相互关系。(2)针对不确定数据的特殊性,研究得出Why起源和How起源均可形成一种最小证据集,并以此来追踪不确定数据的不确定来源和评价不确定大小。研究最小证据集的形成算法和利用最小证据集进行可信度计算的算法,经过在Trio上的实验,验证了算法的有效性。(3)研究了不确定数据起源追踪系统的设计,通过设计有效的起源存储模式,归纳出了起源的传播规则,并对传统的关系代数和SQL语言进行了扩展,最后给出了不确定数据的起源计算和可信度计算算法的具体实现。

郝鹏飞[9]2017年在《大数据模型分析平台下的数据溯源关键技术研究》文中研究说明近年来,随着计算机和移动互联网的发展,各种信息呈爆炸式的增长,人们现在已不仅仅只关注数据本身,还关注数据的源头以及历史演变信息,这些历史信息我们称之为溯源信息。数据溯源在数据库以及科学研究领域已经有了很广泛的应用,这其中也包括很多溯源信息系统。除此之外,数据溯源还在其它很多方面发挥着重要的作用,例如调试数据和转换,审计,评估数据的质量和信任度以及实现对数据的访问控制等方面。但是在大数据平台下,不管是源数据还是结果数据,都存储在HDFS之上,传统的溯源方法已经不适合。针对上述问题,本文重点研究了在大数据平台下的模型工作流中不同粒度的数据溯源问题,并设计了一个基于该平台的数据溯源系统,用户可以根据目标结果数据进行追本溯源,从而实现该模型平台的可回溯性,以便以后能够通过溯源来保证数据质量,主要研究内容如下:第一,对粗粒度的数据溯源方法研究。本文针对模型工作流设计并构建了一种溯源元数据模型,基于模型的流程图,采用DAG(Directed Acyclic Graph,有向无环图)作为描述语言,提出一种粗粒度的数据溯源方法,解决了对模型工作流结果数据的来源以及演变过程的问题,本文称该方法为粗粒度溯源方法。但是该溯源方法只能针对目录文件级的数据进行溯源,而无法解决文件中基于数据项的依赖归属问题。第二,针对粗粒度溯源方法无法精确对单个数据项进行溯源的问题,论文进一步研究了如何解决单数据溯源中数据项的依赖区分问题,并提出一种相对粗粒度溯源粒度到达每条数据项的细粒度溯源方法,该方法通过对原生态的大数据框架进行修改扩展,引入溯源标记,从而实现在模型执行过程中自动捕获和保存溯源信息。针对该溯源模型,论文在此基础之上设计了向前和向后的溯源追踪算法。最后,本文根据以上研究内容对该系统进行了设计与实现,并且通过一个实例以及实验展示出效果,同时验证了本文提出的溯源方法的可行性,达到了预期的设计目标。

周忠[10]2016年在《数据起源技术研究及其在PostgreSQL中的实现》文中进行了进一步梳理数据起源是指数据的来源及生命周期中的处理历史。传统的关系型数据库管理系统主要提供高效的查询、插入、删除以及更新等方法,没有解决数据起源问题。针对这一不足,本文对关系数据库中的数据起源问题进行了深入研究,分别从模式级、字段级以及元组级叁个层次研究了数据起源的追踪过程,并在PostgreSQL数据库系统中实现了数据起源模块。本文的主要贡献如下:(1)提出了一种基于SQL关系代数的数据转换图模型。数据转换图描述了模式级的数据处理过程,本文结合关系代数给出了SQL子查询中的9类转换,并对涉及数据起源的SQL语法给出了源表结点、目标表结点以及转换结点的解析过程。(2)在转换的基础上进一步提出了属性映射的概念,并给出了属性映射图的形式化定义。属性映射图是数据转换图的细化,给出了源表字段与目标表字段之间的映射关系。本文进一步在属性映射图的基础上对数据转换图进行了约简,形成数据起源图,并给出了约简算法。(3)基于K-Relation对起源半环模型进行了扩展,增加了元组标注的分组演算过程,并根据扩展后的起源半环模型给出了标注的传播规则。(4)对PostgreSQL的功能进行了扩展,实现了模式级、字段级以及元组级叁个层次的数据起源功能,包括起源解析、起源存储、起源查询和可视化过程。论文最后对研究工作进行了总结,提出了今后进一步的研究方向。

参考文献:

[1]. 数据仓库中数据志跟踪的理论与方法研究[D]. 戴超凡. 中国人民解放军国防科学技术大学. 2002

[2]. “数字城市”的理论与实践[D]. 江绵康. 华东师范大学. 2006

[3]. 面向关系数据库关键字查询的物化视图维护方法研究[D]. 李华. 东北大学. 2014

[4]. 面向数值天气预报研究的数据管理系统[D]. 陈志辉. 国防科学技术大学. 2007

[5]. 质量元数据及其管理系统的研究与应用[D]. 李劼. 重庆大学. 2007

[6]. 数据起源技术发展研究综述[J]. 戴超凡, 王涛, 张鹏程. 计算机应用研究. 2010

[7]. 云存储系统中基于溯源关系的文件查询与管理方法研究[D]. 刘进军. 华中科技大学. 2016

[8]. 基于可信度计算的不确定数据起源研究[D]. 夏菁. 南京航空航天大学. 2011

[9]. 大数据模型分析平台下的数据溯源关键技术研究[D]. 郝鹏飞. 电子科技大学. 2017

[10]. 数据起源技术研究及其在PostgreSQL中的实现[D]. 周忠. 华南理工大学. 2016

标签:;  ;  ;  ;  ;  ;  ;  

数据仓库中数据志跟踪的理论与方法研究
下载Doc文档

猜你喜欢