数据挖掘结果模式的存储及应用研究

数据挖掘结果模式的存储及应用研究

张蕊[1]2002年在《数据挖掘结果模式的存储及应用研究》文中指出数据挖掘是近年来企业实现商业智能的核心技术,它是知识发现过程中的关键步骤,得到了学术界的广泛关注。如何提高数据挖掘的效率成为学术界热门的研究课题。针对这一状况,作者对现有的数据挖掘系统结构进行了分析,提出了一种新的数据挖掘体系结构。即在原有的数据挖掘体系结构中增加一个模式库管理系统,该系统有叁个主要的功能部件:模式库——用于存储数据挖掘得到的模式(如:关联规则、分类规则和序列模式等等);模式库管理系统——负责对模式库进行管理,通过这个子系统用户可以对模式库进行各种操作和管理;监视器——提供自动触发机制,负责自动检测信息源中数据的变化并把这些变化上报给模式库管理系统,以便通过模式库管理系统启动挖掘模块重新进行数据挖掘来实现模式的自动更新,为模式时效性问题的解决提供了一种方法。通过增加这样一个新的系统就为数据挖掘结果的共享及数据挖掘效率的提高提供了一种新的途径。为使数据挖掘结果能统一存储在模式库中,作者对关联规则、分类规则和序列模式挖掘结果的存储方法进行了深入的研究,提出了数据挖掘结果模式的存储方法,并用关系代数进行了描述,在关系数据库中实现了多种数据挖掘结果模式的统一存储。由于关系数据库的广泛使用,这种改进的存储方法为不同系统间共享数据挖掘结果提供了统一的平台。在此基础上,作者对数据挖掘结果的操作进行了研究,提出了结构化的模式查询语言SPQL(Structured Pattern Query Language)。利用SPQL语言的语句可以实现对数据挖掘结果的管理和查询。作者在论文中给出了SPQL语句在关系数据库中的实现方法,即通过SQL语句来解释SPQL语句。有了这种查询语言就可以很方便地操作模式库中存储的各种数据挖掘结果,为管理和共享数据挖掘结果提供了一种有效手段。作者将此数据挖掘结果的存储方法和部分SPQL语句应用于“重庆市医药股份有限公司综合管理系统”中,开发出了一套实验系统,从而验证了数据挖掘结果存储方法的可行性和正确性。

熊忠阳[2]2004年在《面向商业智能的并行数据挖掘技术及应用研究》文中研究指明随着企业信息化进程的不断推进, 很多企业已经积累了大量的业务数据,但这些业务数据的商业价值并没有得到充分的挖掘和利用。随着市场竞争的不断加剧, 企业需要商业智能指导业务行为并进行辅助决策, 以便在激烈的市场竞争中赢得主动和更多的商机。作为企业实现商业智能核心技术的数据挖掘技术虽然为企业实现商业智能提供了可能和技术保证,但是面对企业复杂的数据分析问题,现有数据挖掘技术显然不能很好适应并较好地解决所有这些问题。除了需要研究更好的数据挖掘技术和理论以外,如何提高数据挖掘的效率已经成为学术界研究的焦点。本论文以商业智能应用为背景,以提高数据挖掘的效率作为研究目标,将并行处理技术与数据挖掘技术紧密结合在一起,从并行数据挖掘体系结构、数据挖掘结果模式的表达和存储、并行神经网络?BP算法以及其商业应用等四个方面,为实现商业企业的商业智能提供了一整套解决方案。因此本论文的研究工作具有较高的学术意义和实用价值。论文的主要创新性工作可以归纳为以下几点:在深入分析、归纳PRAM、BSP和阶段模型特点的基础上给出了叁种并行计算模型计算时间耗费的一般性公式,从而为并行体系结构或者并行算法的性能评价提供了有价值的参考公式。提出了一个面向商业智能的、具有较高数据挖掘效率的并行数据挖掘体系结构。论文选择具有较高性价比的COW和PVM作为并行计算平台;通过在并行数据挖掘体系结构中增加模式库管理系统,对数据挖掘的结果模式进行存储和管理,从而有效利用了历史模式,提高了整个数据挖掘系统的效率。提出了一种将关联、分类和时序叁种数据挖掘结果模式进行统一存储及统一操作的方法。论文利用关系数据库来存储关联、分类和时序叁种数据挖掘结果模式,并给出了存储方法的关系代数描述;为了方便对结果模式的操作,又定义了结构化查询语言SPQL(Structured Pattern Query Language),给出了SPQL语句的具体实现方法。所提出的叁种数据挖掘结果模式存储方法是对多种结果模式存储方法进行的一次有益的、创新性的探索。设计出了一个可以较好解决局部极值、具有较快收敛速度的二次并行神经网络TP-BP算法。并行TP-BP算法以具有较优性能的RPROP算法为<WP=6>基础,通过不等量划分权值搜索空间的方法,在正式训练之前先并行地寻找最小极值区域,然后再用第二次并行操作对BP网络进行训练,从而很大程度上避免了局部极小、加快了收敛进程、降低了epoch数。实验结果表明二次并行TP-BP算法具有较好的加速比性能和适用性。结合重庆市应用基础项目的研究,建立并初步实现了一个医药销售趋势预测模型。该医药销售预测模型采用了并行TP-BP算法,并在基于COW的并行计算环境下实现。实际应用效果表明,药品销售趋势预测模型所给出的销售趋势预测值与实际销售情况基本吻合,对于企业的经营决策具有较高的参考价值,同时也进一步验证了论文所提出的并行数据挖掘体系结构和并行TP-BP算法的可行性和实用价值。

任芳[3]2006年在《基于XML的数据挖掘结果存储方法研究与实现》文中研究说明数据挖掘在企业决策支持系统中处于重要地位,能提供非常重要的决策信息。如何提高企业决策支持系统的效率一直是数据仓库和数据挖掘技术致力解决的问题。对数据挖掘得出的结果进行存储利用是解决这个问题的主要途径之一。对数据挖掘结果进行存储的主要意义在于:对挖掘结果进行集中存储可以减少存储空间,在一定程度上解决数据仓库体积膨胀的问题;通过对存储的挖掘结果进行管理可以把最新的结果返回给用户,不必再次进行挖掘,以此提高数据挖掘效率;可以有效地利用挖掘结果;能为挖掘结果在不同挖掘系统间的共享提供途径。基于此思想,本文采用一种带有结果存储系统的数据挖掘体系结构,这种体系结构能加快数据挖掘的速度,从而有效提高系统决策的效率。本文在分析现有数据挖掘结果存储方法缺点的基础上,提出一种基于XML的挖掘结果存储方法:先以XML描述各种数据挖掘结果,再利用关系数据库存储描述挖掘结果的XML文档。深入研究了以XML描述五种常见数据挖掘结果(关联规则、序列模式、分类规则、描述规则和聚类结果)的方法,并给出对这五种挖掘结果的一种统一XML描述方法,为数据挖掘结果的集中存储、操作以及共享奠定了基础。XML的内容独立性和平台无关性使它可以作为不同数据挖掘系统中描述挖掘结果的统一形式。XML在数据表示上的强大能力和极强的可扩展性使本文提出的这种XML描述思想可为大部分挖掘结果的XML描述提供基础。同时,本文研究了利用关系数据库对描述数据挖掘结果的XML进行存储和操作的方法,并进行了相关实验。基于论文提出的数据挖掘结果存储方法,作者开发出一个仿真的挖掘结果存储系统,实现了对五种挖掘结果进行存储和查询的全过程,验证了此挖掘结果存储方法的可行性和正确性。本文提出的存储思想可为不同挖掘系统共享挖掘结果提供统一平台,并能够有效提高数据挖掘效率,为企业决策提供有力的支持;同时,本文方法可以为大部分挖掘结果的存储和应用提供基础,其思想具有普遍性和很强的扩充性。

熊赟[4]2007年在《生物序列模式挖掘与聚类研究》文中提出生物信息学是一门综合运用数学、计算机科学和生物学等方法研究生物数据所包含生物学意义的交叉学科,是当前的研究热点。数据挖掘是从大量数据中寻找其规律的技术,是目前最强有力的计算机数据分析技术之一,也是生物信息学采用的主要数据分析技术。生物序列数据是最重要的一类生物数据,生物序列数掘挖掘技术的研究和应用也是生物信息学最活跃的研究方向之一。当前生物序列数据挖掘研究的关键在于如何设计有效的挖掘算法,主要涉及两个方面:一方面,由于没有根据领域知识设计专门的挖掘算法,造成挖掘结果难以给出生物学解释,无法满足生物学研究要求;另一方面,由于生物序列数据的特殊性,使得现有的序列数据挖掘算法无法直接在大规模生物序列数据中高效实现。生物序列数据挖掘的主要目的是识别序列中的功能元素、研究序列间的相互关系等等。生物序列模式挖掘和生物序列聚类是生物序列数据挖掘中重要的两个研究内容。生物序列模式挖掘是识别功能元素进而了解序列功能等的关键技术,序列模式还能够描述序列特征,作为生物序列聚类相似性度量设计的依据;生物序列模式挖掘也是生物序列关联分析的基础。生物序列聚类是研究序列间相互关系进而解释进化关系等的主要手段,其结果是具有共同特征的序列簇;另外在这样的簇中挖掘序列模式能进一步提高序列模式挖掘结果的准确率,从而更好的指导功能元素的识别;生物序列聚类也可作为分类、异常挖掘等的预处理步骤。生物序列模式挖掘与生物序列聚类在整个生物序列数据挖掘研究中起着重要作用。为改善生物序列模式挖掘和聚类的性能和效果,本文对算法的可用性、效率等关键问题进行了探索和研究。针对存在的问题,提出了有效的挖掘度量和具有较好性能的挖掘算法。并且从生物序列数据的表达和存储方面,对生物序列数据处理效率问题进行了进一步讨论和研究,给出了新的生物序列数据模型。最后将这些方法应用于转录调控序列数据挖掘系统中。本文取得的主要研究成果如下:(1).提出了生物序列模式挖掘的多支持度度量并设计了相应的挖掘算法目前序列模式挖掘算法将支持度定义为包含模式的序列数(或百分比),而不考虑模式在各条序列中的重复出现,其挖掘结果是包含在足够多序列中的模式,丢失了部分在生物学上看来是有意义的序列模式。本文研究了生物序列模式挖掘的问题,提出了生物序列模式挖掘的度量——多支持度,包括分布、局部和总体支持度,给出了多支持度序列模式挖掘框架,在此基础上设计了一个挖掘算法BioPM,实现了依据上述支持度的各种组合进行序列模式挖掘。BioPM挖掘得到的结果更好的符合生物学研究的多种需求,包括保守序列模式、重复序列模式和两者结合的序列模式的挖掘等,是对基于单一支持度度量挖掘方法的补充和完善。实验验证了BioPM算法不仅提高了挖掘的效率,并能得到更为有效的结果。(2).提出了一个蛋白质序列的相似性度量函数并设计了相应的聚类算法生物序列模式能够描述序列特征,作为序列聚类相似性度量设计的依掘之一。目前依据序列模式设计相似性度量的方法没有考虑序列的全局和局部特征,影响聚类结果质量。本文研究了蛋白质序列聚类问题,根据多支持度序列模式提出了一个蛋白质序列相似性度量函数Bio_Sim(),在此基础上设计了一个聚类算法ProFaM。ProFaM采用多支持度序列模式挖掘方法来抽取描述蛋白质序列特征(全局和局部)的序列模式,然后根据这些模式构造相似性度量函数Bio_sim()。ProFaM聚类过程使用共享最近邻方法。不同于基于同源片断邻接保守假设的相似性度量,ProFaM算法考虑了序列的全局和局部特征,能够表达序列遗传重组问题,聚类结果能更好地指导蛋白质家族特征的解释。实验表明相对依据单一支持度序列模式的相似性度量,ProFaM在蛋白质家族分析上取得更为有效的结果。(3).提出了一个基因序列的相似性度量并设计了相应的聚类算法基因序列和蛋白质序列有着不同的特征,其上的聚类需求也不相同。近年来生物学实验表明“序列相似不一定功能相似”,仅从序列本身出发的聚类方法在挖掘功能相似的基因序列时可能失效。本文研究了共表达基因序列聚类的问题,根据基因序列的共表达特征提出了一个基因序列的相似性度量“N-同维趋势相似”,并在此基础上设计了一个聚类算法Gen-Cluster。Gen-Cluster算法根据N-同维趋势相似对基因序列进行聚类得到“N-同维趋势簇”,即为共表达基因序列簇。相对于仅从序列本身出发进行基因序列聚类的方法,“N-同维趋势簇”能够更好的指导基因序列功能的解释。此外在N-同维趋势簇中挖掘保守模式将进一步提高序列模式挖掘结果的准确率。用实验验证了算法性能和挖掘结果的有效性。(4).提出了一个新的生物序列数据模型BioSeg生物序列数据的表达和存储方式是生物序列数据访问和处理的关键。现有的生物序列数据文本类型存储方式是影响生物序列数据高效处理的主要原因之一。本文研究了生物序列数据管理和查询的问题,提出了一个新的生物序列数据模型BioSeg,并给出了实现生物序列数据查询的代数操作。相对于生物序列数据的文本存储方式,BioSeg模型提供的数据查询具有更高的效率和灵活性。(5).设计实现了转录调控序列数据挖掘系统TBMiner转录调控是后基因组时代研究的热点之一。序列模式挖掘和聚类是预测顺式调控元件(转录因子结合位点)的重要方法。本文将上述方法应用于顺式调控元件的预测,设计实现了转录调控序列数据挖掘系统TBMiner。为生物学家进行转录调控规律研究提供了良好的生物信息学工具。

贾哲[5]2012年在《分布式环境中信息挖掘与隐私保护相关技术研究》文中提出随着互联网和存储技术的快速发展,网络用户数和应用规模迅速扩大,数据存储量呈现爆炸式的增长。在海量数据面前,也要求能够快速的进行管理和计算,提高响应速度。传统的单一服务器的存储模式,已无法满足大数据量存储和计算对性能和可靠性的要求。分布式存储和并行计算很好的解决了上述难题,不但能优化数据存储带来的性能和容量开销,还解决了数据不断增长的扩展性问题,具有良好的可拓展性。伴随着云计算时代的到来,Hadoop分布式计算平台,以其庞大的存储和计算能力,简便的计算模式,便捷的服务形式,得到了极其广泛的应用。越来越多的研究开始致力于向云计算的分布式环境中扩展,如数据挖掘、数据分析等涉及海量数据计算的领域,均开始致力于分布式环境中的算法研究。但是,由于云计算环境开放的平台和共享的模式,用户和资源高度集中,也面临着很多安全性和隐私保护方面的挑战。尤其是对隐私问题的关注度不断提升,众多研究者也开始致力于隐私保护的研究中。例如,分布式环境中常常出现多部门数据库之间联合挖掘的现象。由于数据通常记载了各部门核心技术和隐私信息,如何在联合挖掘的过程中不泄露用户数据的隐私,就是一个现实需要解决的问题。而分布式外包数据库服务中,由于用户权限分散,为了保护用户数据的安全,一种很自然的方式就是进行权限控制。如何在外包数据库可以进行权限控制的同时,而不泄露用户权限的具体信息,也是一个需要研究的热点。因此,基于上述分析,定位出本文的研究重点,即分布式环境中信息挖掘与隐私保护相关技术研究。本文的主要内容包括:(1)分布式环境中的数据挖掘算法的研究。Web日志挖掘,主要针对互联网日志信息进行分析,获取页面关联、用户分类、热点聚类、访问序列等信息,改善用户体验。但是,随着互联网的发展,各网站每天记录着数以亿计的交易、访问的日志信息,对Web日志的分析和挖掘,急需向分布式环境中迁移。本文主要针对Web访问日志的频繁序列的挖掘任务,以PrefixSpan序列模式挖掘算法为基础,提出一种在水平分布环境中,基于滑动窗口模型的快速、高效的连续序列模式挖掘算法,并在Hadoop平台上对该算法进行了实现。实验表明,滑动窗口模型,在得到完全的频繁序列的同时,极大的缩减了冗余频繁序列的规模,满足了大数据量的挖掘需求。(2)分布式环境中保护隐私数据挖掘算法的研究。随着各商业主体之间的合作日益频繁,在多个商业主体联合数据库上进行挖掘的任务变得越来越普遍。而基于隐私的考虑,数据拥有者不希望公布自已的数据信息,只想获得联合挖掘的结果。基于安全多方计算的保护隐私的数据挖掘很好的解决了上述难题。因此,本文针对分布式数据库,采用安全多方计算的基础协议作为处理模块,主要研究了保护隐私的水平分布序列模式挖掘算法和保护隐私的垂直分布关联挖掘算法。针对水平分布序列模式挖掘算法,本文提出新的基于ElGamal门限密码体制和同态加密体制的安全多方矩阵求和协议;针对垂直分布的关联规则算法,本文提出一种新的基于Mix-Match的安全两方点积协议。通过这些基本协议的应用,很好的解决了数据挖掘过程中的隐私保护问题。理论分析表明,在无可信第叁方参与的情况下,上述协议能够很好的隐藏数据信息,保护私有信息。文中还对基于安全多方计算的保护隐私数据挖掘问题的设计思路进行了整理和归纳,采用模块化的设计思想,具有灵活、操作简便的优点。(3)外包数据库访问控制的隐私保护的研究。外包数据库服务是云计算中一种常见的服务模式。随着用户对数据安全的关注增多,数据拥有者希望采用安全的方式将数据进行代理服务器的委托存储,并通过权限控制实现对用户的访问管理。但是,随着用户对隐私的考虑,用户希望保护服务器的访问权限信息,避免数据的访问控制策略的泄露。因此,本文提出一种外包数据库服务中访问控制的隐私保护协议。首先采用秘密共享方案对数据进行分片存储,保障数据安全;采用ElGamal加密体制对外包数据库的权限进行加密存储,保障了授权信息的安全;基于ElGamal同态特性的将代理服务器的权限控制和用户查询相结合,在保护访问权限隐私的情况下,用户能够安全的获得查询结果。理论分析表明,在无可信第叁方参与的情况下,能够很好的隐藏访问权限数据,保护数据拥有者和查询者的私有信息。

熊忠阳, 胡月, 曾令秋, 张玉芳[6]2004年在《一种基于Agent的数据挖掘结果模式推荐模型》文中指出结合数据挖掘模式存储和人工智能Agent技术,提出了基于智能个性化Agent的数据挖掘结果模式的推荐模型,该推荐模型能自动对用户兴趣进行分析,并向用户推荐其感兴趣而又值得关注的挖掘结果模式,有一定的实用价值。

孔淑慧[7]2008年在《流数据时序模式依赖挖掘在股市行情分析中的应用》文中提出随着计算机信息技术的飞速发展,出现了一种新数据模型——流数据。流数据以连续的、快速的、随时间变化的并且可能是不可预测和无限的流的方式到达。目前,流数据在通信、金融证券和零售业等领域已得到广泛应用。流数据的出现从本质上对适用于静态数据的数据库技术和数据挖掘技术提出了新的挑战。由于流数据是无限、连续到达的大量数据,不可能存储所有的数据,因此,许多传统的数据挖掘算法不适合于流数据的挖掘。本文通过对流数据时序模式挖掘算法和应用的研究,提出了一个在动态股市行情数据上进行股价数据流时序模式依赖挖掘的模型和算法,并以实例对具有模式依赖的股票进行了短期预测,从而,为投资者进行股票交易提供理性指导。本文首先分析了股价数据进行流数据时序模式依赖挖掘的可行性,构建了一个在动态股市行情数据上进行时序模式依赖挖掘的模型,然后,在此基础上进行股价数据流时序模式依赖挖掘算法的设计,提出了基于滑动窗口和概要数据结构的股市行情时序模式依赖挖掘算法,最后,以实例验证了该时序模式依赖算法的有效性,并对有模式依赖的股票进行了短期预测。该算法满足股价数据的挖掘要求,有效适应股价数据的非线性和实时动态变化特征,并能有效进行流数据时序模式依赖挖掘和预测,可以满足用户对股市行情的实时查询和分析需求。

姜军晓[8]2007年在《一种流数据频繁模式挖掘算法的研究与实现》文中研究表明数据挖掘,是数据库研究中的一个很有应用价值的领域,目的是从大型数据库中提取隐含的、人们事先不知道的、潜在有用的信息或模式。经过近十几年的努力,已经相当成熟。然而,随着电子商务、传感器网络、股票数据分析等的应用,提出一种新的数据模型——流数据。这些数据源源不断地到来,只能按顺序进行处理,因此在流数据环境中进行挖掘是一项具有挑战性的工作,在数据库应用领域有很高的研究价值。本文主要是对流数据中的频繁项集的挖掘进行研究。分析了流数据模型与传统的数据模型的区别、主要的流数据处理技术、当前的挖掘任务等。针对如何在流数据上挖掘频繁模式这一课题,分析了经典的流数据挖掘算法FP-stream算法,结合流数据分段理论和滑动窗口技术,采用批处理式挖掘方式,进行基于滑动窗口的流数据频繁模式挖掘算法DSFP-SW(Data Stream Frequent Pattern based-on Sliding Window)的研究。DSFP-SW算法是一种批处理式的挖掘算法,先将流数据分段,每段作为一个滑动窗口,再将滑动窗口划分为几个基本的窗口,利用改进的频繁模式挖掘算法,计算每个基本窗口的临界频繁项集。为了适应流数据快速、大量的特性,在频繁模式树的基础上,改进了一种新的前缀树结构DSFP-SW-tree来存储每个基本窗口的临界频繁项集,树中的每个结点代表了一个频繁项集。随着滑动窗口的更新,更新DSFP-SW-tree。并每隔一段时间调用剪枝算法,快速地挖掘滑动窗口中所有的频繁模式。通过试验把该算法于经典的FP-Stream算法进行对比,结果表明,本文给出的算法在时间和空间上优于FP-Stream算法,适合流数据挖掘。

顾荣[9]2016年在《大数据处理技术与系统研究》文中提出随着计算机和信息技术的迅猛发展和普及应用,行业数据爆炸性增长,全球已经进入了“大数据”时代。大数据已引起全球业界、学术界和各国政府的高度关注。大数据已经渗透到各行各业,巨大的数据资源已成为国家和企业的战略资源。大数据给全球带来了重大的发展机遇与挑战。一方面,大规模数据资源蕴涵着巨大的商业价值和社会价值,有效地管理和利用这些数据、挖掘数据的深度价值,对国家治理、社会管理、企业决策和个人生活将带来巨大的影响。另一方面,大数据带来新的发展机遇的同时,也带来很多技术挑战。格式多样、形态复杂、规模庞大的行业大数据给传统的计算技术带来了巨大挑战,传统的信息处理与计算技术已难以有效地应对大数据的处理。因此,需要从计算技术的多个层面出发,采用新的技术方法,才能提供有效的大数据处理技术手段和方法。大规模数据的有效处理面临数据的存储、计算和分析等几个层面上的主要技术困难。首先,动辄达到数百TB级甚至PB级规模的行业大数据,远远超出了传统数据库系统的处理能力。因此,需要研究提供有效的分布式大数据存储管理技术方法与系统。同时,大规模数据处理是一个非常耗时的计算过程,使得传统的单机系统远远无法满足大数据对计算性能的要求。因此,需要研究提供高效的并行化大数据计算技术方法与系统。进一步,大数据的有效分析利用通常涉及到对大规模数据的分析挖掘,而巨大的数据量使得传统的单机机器学习和数据挖掘算法都难以在可接受时间内完成计算,导致算法失效。因此,需要研究提供有效的并行化大数据机器学习与分析挖掘算法和大数据机器学习系统。大数据处理不同于传统的计算与信息处理技术的另一个重要特点是,它是一项涉及计算与信息处理技术众多方面的综合性技术,具有显着的技术综合性和交叉性特征,以任何一个单一和隔离的技术层面和技术方法,都难以有效完成大数据的处理。因此,大数据的有效处理需要将存储、计算与分析层面的技术紧密结合、交叉综合,以形成一种完整的大数据处理技术栈,构成一体化的大数据处理系统平台。基于以上问题背景,本文对大数据处理的多个技术层面进行了深入研究,在分布式存储技术与系统、并行化计算技术与系统、以及大数据并行化机器学习与数据分析算法与系统方面,进行了一系列的研究。具体而言,本文工作包括以下主要技术内容和贡献:(1)大数据分布式存储管理技术与系统研究。主要开展了叁方面的研究工作。1)为了提升大数据分布式存储系统的性能,研究实现了分层式大数据存储系统缓存调度策略与性能优化方法,可显着提高分布式存储系统数据访问的性能;2)研究实现了一种通用的分布式文件系统性能测试方法与系统工具,可以用于各种分布式文件系统的性能评估和研究优化,或者用于大数据应用系统设计时选择合适的存储系统和参数优化配置;3)研究设计了分布式层次化大规模RDF语义数据存储技术与管理系统,可有效地存储管理大规模RDF语义数据。(2)主流大数据并行计算系统性能优化研究。主要研究了两方面的工作。1)Hadoop MapReduce作业执行调度优化技术,研究实现了优化的MapReduce作业与任务调度处理方法以及高效的任务执行状态通信方法,实现了一个与标准Hadoop完全兼容的优化版本Hadoop; 2) Spark RDD数据堆外(Off Heap)内存存储机制,针对Spark在处理大规模数据性能受到JVM垃圾回收严重影响的问题,研究实现了一种基于分布式堆外内存存储的Spark RDD数据存储机制。(3)大数据并行化机器学习与数据分析方法与算法研究。主要研究实现了多个应用领域的复杂大数据机器学习与数据分析并行化算法,包括:1)针对数据挖掘领域中大规模神经网络训练性能低下的问题,研究实现了一个定制式大规模神经网络训练并行化算法与计算平台cNeural;2)针对在搜索引擎和信息检索领域重要的排序学习(Learning To Rank)算法GBRT (Gradient Boosting Regression Tree)训练耗时较长的问题,研究提出了基于K-Means直方图近似算法优化的加速方法及其并行化算法;3)针对语义网推理领域中RDFS和OWL推理规则集在大规模语义数据上推理耗时过长的问题,研究实现了基于Spark并行计算平台的高效并行化推理方法与系统。(4)统一大数据机器学习与数据分析编程模型与系统平台研究。针对大数据分析处理时面临的系统平台可编程性和易用性问题、以及大数据分析处理时的计算性能问题,研究提出了一种基于矩阵模型的统一大数据机器学习与数据分析编程模型与框架,并进一步设计实现了一个跨平台统一大数据机器学习与数据分析系统平台Octopus(大章鱼),该系统底层可与Hadoop、Spark、MPI、Flink等主流大数据平台集成,实现底层平台对上层数据分析程序员的透明性,而上层可使用R/Python编程语言与编程开发环境,基于矩阵模型,方便高效地完成大数据分析算法和应用的编程和计算。通过对上述大数据分布式存储、并行化计算、以及大数据分析层面关键技术方法与系统的研究,本文取得了一系列研究工作成果,这些成果可作为重要支撑技术与系统,有效运用于构建一体化的大数据处理系统平台。本文部分成果已经被成功运用于工业界的开源或者商业化大数据处理系统或应用产品中。

彭慧伶[10]2007年在《关联规则的交互式可视化挖掘研究》文中进行了进一步梳理数据挖掘可视化方法的目的就是要很好地利用人类对可视化形式下模型和结构的获取能力,来对执行结果进行分析解释并控制整个挖掘过程。对用户来说,将关联规则挖掘过程以可视化的形式呈现出来,并实现用户与挖掘过程的交互非常重要。论文的工作是对关联规则挖掘过程和交互式可视化技术进行研究,最终将数据挖掘工具与可视化展现工具融为一体,促成关联规则的交互式可视化挖掘。使用户能够参与关联规则挖掘过程,控制挖掘过程中的参数,从而实现用户与关联规则挖掘过程的充分交互,大大提高关联规则挖掘的效率和质量,增加用户对结果模式的理解,提高用户对挖掘结果的满意度。论文在数据挖掘技术、可视化交互技术的基础上,对关联规则挖掘技术的概念、算法和挖掘过程进行研究,论文的成果主要体现在以下几个方面:1.提出了关联规则的交互式可视化挖掘方法。指出在关联规则的交互式可视化挖掘过程中应体现叁个重要特性,即前阶段的可约束性,过程中的可交互性,后阶段的可评价性。提出了集这叁个特性为一体的关联规则交互式可视化挖掘过程,该过程包括叁个阶段,在不同的阶段用户可以设置不同的约束条件和参数,以实现用户与挖掘过程的交互。2.设计并实现了基于XML/EXCEL的挖掘结果模型表示方法。使得规则文档保持了良好的结构,并且具有清楚的语义表达能力,以便提供给挖掘系统的规则展示模块、其它系统(软件)和知识工程师/普通用户进行决策分析。3.设计实现了交互式可视化关联规则学习器RestrictApriori并将其与机器学习平台Weka集成。弥补了Weka中关联规则挖掘缺少项约束、挖掘过程缺乏可控性等不足,从而完善了Weka的数据挖掘性能。

参考文献:

[1]. 数据挖掘结果模式的存储及应用研究[D]. 张蕊. 重庆大学. 2002

[2]. 面向商业智能的并行数据挖掘技术及应用研究[D]. 熊忠阳. 重庆大学. 2004

[3]. 基于XML的数据挖掘结果存储方法研究与实现[D]. 任芳. 重庆大学. 2006

[4]. 生物序列模式挖掘与聚类研究[D]. 熊赟. 复旦大学. 2007

[5]. 分布式环境中信息挖掘与隐私保护相关技术研究[D]. 贾哲. 北京邮电大学. 2012

[6]. 一种基于Agent的数据挖掘结果模式推荐模型[J]. 熊忠阳, 胡月, 曾令秋, 张玉芳. 计算机应用研究. 2004

[7]. 流数据时序模式依赖挖掘在股市行情分析中的应用[D]. 孔淑慧. 北京交通大学. 2008

[8]. 一种流数据频繁模式挖掘算法的研究与实现[D]. 姜军晓. 大连理工大学. 2007

[9]. 大数据处理技术与系统研究[D]. 顾荣. 南京大学. 2016

[10]. 关联规则的交互式可视化挖掘研究[D]. 彭慧伶. 江西理工大学. 2007

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

数据挖掘结果模式的存储及应用研究
下载Doc文档

猜你喜欢