面向工作流的数据挖掘系统

面向工作流的数据挖掘系统

宋研[1]2008年在《基于插件技术的数据挖掘平台设计与实现》文中研究说明数据挖掘(Data Mining)已经被广泛应用于各行各业的数据分析和知识发现领域。为了方便数据挖掘的应用,设计和开发数据挖掘系统已经成为目前研究的热点。本文的主要工作是设计和实现了基于插件技术的数据挖掘平台,该平台利用Eclipse插件技术,方便地把数据挖掘应用于商业数据分析和部署,使得平台各个模块间达到无缝连接并且使算法开发人员可以在不考虑系统管理和底层数据存储的情况下开发上层的算法模型,从而简化算法研究和开发者不必要的工作。同时,本文利用Eclipse插件技术将一个数据库以插件的形式嵌入到数据挖掘平台当中。本文研究了开源数据库Derby并对Derby数据库进行了分析,最后将Derby数据库转化成插件嵌入到数据挖掘平台中,从而使算法的源数据,中间数据以及结果数据能更好的存储。

王飞[2]2006年在《面向电子商务的web数据挖掘的研究与设计》文中研究说明数据挖掘是指从大量的数据中自动地提取出有价值的知识和信息。数据挖掘已成为数据库技术和机器学习方面的重要的研究课题。当前,World Wide Web正向应用的深度和广度方面迅速发展。将数据挖掘的思想和方法应用到Web上,解决WWW中遇到的一些问题,从而形成了Web数据挖掘(Web mining)这样一个新的研究方向。Web数据挖掘是指针对包括Web页面内容、页面之间的结构、用户访问信息、电子商务信息在内的各种Web数据,应用传统数据挖掘方法以发现有用的知识,帮助人们从WWW中提取知识,改进站点设计,更好地开展电子商务。电子商务是指个人或企业通过Internet网络,采用数字化电子方式进行商务数据交换和开展广告、推销、购买商品或服务等商务活动。相对于传统商务活动,电子商务具有不受地域限制、节省成本等众多优点本文对Web数据挖掘在电子商务中的应用进行了研究,主要做了以下工作:1.总结了数据挖掘研究现状及最新进展。提出了数据挖掘逻辑模型及存在的一些问题。2.描述了Web数据挖掘技术,Web数据挖掘的过程、数据源及用途。3.讨论了在电子商务中如何有效地利用几种可行的数据挖掘技术,如、关联规则分析、序列模式分析、分类分析和聚类分析等挖掘出用户的购买模式及浏览模式,并就其中的路径分析和序列模式分析提出了实现的方法。4.论述了Web访问信息挖掘的一般过程,将传统数据挖掘过程中的各种关键技术,如数据预处理,聚类算法,关联规则、序列模式发现等引入到对于Web信息的挖掘活动中,并通过一系列的实验进行验证及评价,在以上工作的基础上,设计并实现了一个Web数据挖掘原型系统(EWMiner)。web数据挖掘在电子商务里表现为在大型数据库里面搜索有价值的商业信息。数据仓库、数据挖掘技术和Internet/intranet的完美结合,使其在21世纪的电子商务中有广泛的应用前景。

刘光远[3]2007年在《基于数据挖掘的移动通信用户流失研究》文中研究表明随着电信市场的逐渐放开,电信企业间竞争加剧,由于企业间的竞争导致的用户流失逐渐成为影响企业经营效益的主要原因。电信企业具有国内领先的数据仓库系统,为实施基于数据挖掘的用户流失分析提供了条件。用户流失预测系统作为经营分析系统的一个重要组成部分,通过建立用户流失预测模型,使企业能发现即将流失的用户,及时采取措施,减少用户流失的发生。因此,用户流失预测研究对电信企业降低运营成本,提高经营业绩有着极为重要的意义。本文根据通信企业现状,全面分析了数据挖掘技术及数据挖掘在通信企业中的应用,提出了基于进化计算、序列模式的流失预测算法,并建立了用户流失预测分析模型。主要研究内容包括:1、针对目前相关研究中存在的问题,给出了应用数据挖掘进行用户流失预测研究中涉及的主要问题的解决方案,包括连续数据离散化、属性选择等;2、在分析了进化计算适于解决优化问题的基础上,提出基于进化计算的用户流失预测算法,建立了基于进化计算的用户流失分析模型,并进行了对比实验分析;3、针对用户的历史数据和短期偶发数据,基于序列模式挖掘方法,并结合决策树,形成了一个综合的链型树分类器CTC,建立了用户流失分析模型,并进行了对比实验分析;4、针对竞争对手营销政策产生用户流失的问题,提出了基于竞争策略的流失预测模型,并进行了对比实验分析。

赵征[4]2009年在《网格环境下面向服务的分布式数据挖掘研究与实现》文中研究说明目前,无论是数字化管理的需要还是后工业化进程的要求,都使我们日益面对以前无法想象的海量数据。虽然数据挖掘技术已经在医学珍断、市场与销售、图像筛选、负载预测等领域得到了广泛的应用,但是面对日益爆炸式增长的数据和高度复杂的计算模型,传统的集中式数据挖掘技术已显得有些力不从心,必须利用分布式、并行计算技术将其过渡到新的处理模式上。网格技术和Web服务技术的出现,为分布式数据挖掘的研究带来了新的契机,因为网格技术可以将分散在不同地理位置的各种异构资源有机地整合起来形成一个具有超级计算能力的平台,从而达到计算资源、存储资源、算法资源、信息资源等的全面共享,而Web服务作为一种新兴的Web应用模式和分布式计算模型,正可以用来解决各种异构资源之间的互操作和互通信问题。因此,在网格环境下,将Web服务技术应用到数据挖掘领域是一个全新的理念,利用Web服务机制对服务的发布、发现及管理来达到资源的共享,有效地弥补网格资源的动态性及分布性。本文在深入研究相关理论的基础上,对如何将网格与Web服务技术融合并应用于数据挖掘领域做了初步的探索,主要工作包括:(1)结合数据挖掘的全过程提出了面向服务的基于工作流的数据挖掘管道模型,基于此模型提出并设计了一种新型的面向服务的分布式数据挖掘平台SODDM体系结构,实现了用户可以交互式地完成整个数据挖掘任务的执行。(2)利用Web服务的发布与发现机制设计并实现了面向服务的分布式数据挖掘门户PDDM。构建了私有的UDDI注册中心来对服务资源进行统一的存储和管理,不仅为提供者发布服务提供宿主,同时能为请求者查找服务提供基础。在服务查找时提出了一种新型的服务质量计算模型来度量用户对服务的满意度。(3)基于Weka类库开发了一系列通用的、可扩展的数据挖掘工具,包括数据选择、数据转换、算法选择、算法参数配置、属性选择及结果集的表示。这些工具集可以使用户交互式地参与整个数据挖掘过程,同时也能与数据挖掘服务进行动态组合,完成数据挖掘管道的构建。(4)随着网格与Web服务的融合,越来越多的资源会以Web服务的形式提供,以分布式问题求解环境Triana和开源数据挖掘类库Weka为底层支撑环境,设计并实现了面向服务的分布式数据挖掘系统DDMWS,实现了对PDDM门户中查找到的数据挖掘服务的导入、组合和调用。此外,系统能以工作流形式灵活地构建数据挖掘管道,用来支持交互式、分布式和并行数据挖掘的实现。(5)本文对所提出的SODDM平台进行了有效性验证,利用WAT对PDDM门户进行了定量分析,测试门户能够承受并发用户的数目;利用校园网搭建虚拟网格实验环境,基于该环境对DDMWS系统的可用性及通用性进行了论证,分别采用分类、聚类、关联规则进行了系统验证,结果表明该系统可以有效地解决各类分布式/并行数据挖掘任务。基于上述对本文工作内容的总结及目前国内外对该课题的研究现状,本文研究工作的特色在于:(1)结合数据挖掘领域的特点,提取了一组服务质量参数及计算模型。并定义了服务质量的计算方法,用来为请求者提供满意的服务提供质量担保。(2)构建了私有的UDDI注册中心,用来管理和协调数据挖掘服务、实现服务的发布与发现。在服务发现时,能够为用户查找满足一定服务质量QoS的数据挖掘服务。(3)提出了一种基于工作流的数据挖掘管道模型,基于此模型利用Weka开发了一系列数据挖掘工具。在DDMWS中利用数据挖掘工具集与数据挖掘服务进行动态组合、构建数据挖掘管道、完成数据挖掘任务的执行。

周健[5]2008年在《基于数据挖掘的短时交通流预测系统研究初步》文中研究指明近年来城市道路交通状况越来越拥挤,交通问题几乎成为了所有大、中型城市面临的共同问题。交叉路口是城市交通网络中重要的节点,对路口短时流量的准确预测可以辅助改善路口混乱的交通状况,缓解城市交通拥挤,优化城市路网运行,同时对智能交通领域的研究、应用、实施和促进城市交通健康、和谐、稳定地发展具有重要意义。数据挖掘则是近年来信息技术领域兴起的一个重要研究领域。大量原始数据的价值在于其中可能隐藏着一些未知的知识,可以给人们的觉得提供更多的帮助。随着数据采集技术的发展,数据量越来越大,属性也越来越多,如何从这些数据中获得有效的知识正是数据挖掘所要解决的问题。目前,该研究领域已经成为数据库、信息管理系统、人工智能及决策支持等相关领域的研究课题。如何应用先进的信息技术,对数量日益庞大、类别日益繁多的静态、动态交通数据信息及社会信息资源进行综合开发和有效利用,成为一个迫切的问题,把数据挖掘技术应用于交通流预测具有现实意义。在数据挖掘的前期,要进行数据仓库的建设,本文首先整体的介绍了数据仓库建设的过程,以及对数据挖掘的概念及其应用做了较全面的论述,接着把数据挖掘技术和交通流预测结合起来综合讨论,最后设计和实现了基于SOA(Service-Oriented Architecture,面向服务的体系结构)的高性能、可扩展的数据挖掘系统,该系统通过数据挖掘过程描述和通用的过程模型接口,实现数据挖掘应用的统一管理和调用,最后在系统上建立了基于路口流量预测的应用模型。

苏晓旭[6]2014年在《Zmining数据挖掘系统中数据结构的设计与实现》文中进行了进一步梳理随着数据化时代的来临,人们逐渐进入一个数据量急剧膨胀的时代,面对海量的数据不知道该如何处理利用,有着“数据丰富而知识匮乏”的问题。数据挖掘技术的产生为人们从海量数据中发现知识提供了有效的途径,而数据挖掘系统则建立起数据挖掘技术和数据挖掘应用之间的一座桥梁。设计和开发数据挖掘系统已经成为目前的研究热点。本文从数据挖掘过程模型入手,确定了数据挖掘系统的设计准则。通过引入插件的系统构建,提出了使用Eclipse的插件技术来构建数据挖掘系统,在系统的架构和插件的体系上对系统进行了全面的设计。并分析了使用插件设计的优点。之后,对数据挖掘系统中的数据结构进行了全面的分析与设计,使用j2ee的接口模式,设计和实现出一种通用的,扩展性高的数据结构,使新提出的数据挖掘算法按照规定的接口规范设计可以很好的融入平台之上。在完成系统主要功能和设计基础上,对系统进行了原型系统的实现。平台采用Java编程语言,MVC设计模式,在Eclipse平台上,开发和完成了主要功能,并对整个数据挖掘工作流以及数据存储容器的设计和实现进行了说明。通过对原型的实现,为进一步对数据挖掘系统的提升提供了一定参考价值。

余永红, 向晓军, 高阳, 商琳, 杨育彬[7]2012年在《面向服务的云数据挖掘引擎的研究》文中研究表明数据挖掘算法处理海量数据时,扩展性受到制约。在商业和科学研究的各个领域,知识发现的过程和需求差异较大,需要有效的机制来设计和运行各种类型的分布式数据挖掘应用。提出了一种面向服务的云数据挖掘引擎的框架CloudDM。不同于基于网格的分布式数据挖掘框架,CloudDM利用开源云计算平台Hadoop处理海量数据的能力,以面向服务的形式支持分布式数据挖掘应用的设计和运行,并描述面向服务的云数据挖掘引擎系统的关键部件和实现技术。依据面向服务的软件体系结构和基于云平台的数据挖掘引擎,可以有效解决海量数据挖掘中的海量数据存储、数据处理和数据挖掘算法互操作性等问题。

吴毅挺[8]2008年在《DartSpora数据挖掘平台的构建及其在中医方剂领域的应用》文中进行了进一步梳理在信息时代,随着互联网的发展,人类积累了海量数据。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据,因而数据挖掘显得越来越重要。数据挖掘是一个复杂而又需求庞大的任务。即便已经建立了很多方法来处理层出不穷的问题,依然还需要面临许多挑战。数据挖掘需求的快速变化要求能够支持对已有方法的最大程度重用和创新组合,同时简单快速的集成新的方法。随着中医药的信息化进程的推进,数据挖掘也越来越广泛的应用到中医药领域。方剂数据经过中医学界及相关领域广大工作者的不懈努力,规范整理形成了几大方剂数据库。复方数量达十几万首,其中中医古方剂库就包含了8万方剂,为研究方剂配伍规律打下了坚实的基础。在本文中,我们设计并开发了DartSpora数据挖掘平台,与中医科学院合作,将DartSpora平台应用到中医方剂领域,研究方剂配伍规律。本文主要的研究内容如下:1.应用AJAX技术以Google Web Toolkits,GWT-EXT开源框架和RapidMiner开源项目设计与实现Dart Spora数据挖掘平台。包括实验管理模块、Dart Grid模块、数据库连接管理模块、用户管理模块等。2.整合DartSpora与Dart Grid,以提供基于语义集成的分布式数据库访问。用户在不需要了解基于语义集成的分布式数据库结构的情况下,凭借自身的领域知识就能获取需要的数据进行数据挖掘。3.针对中医方剂数据的特点,设计基于规则的替换与拆分预处理方法。提高了中医方剂数据处理的效率和可配置性。4.改进传统经典Apriori算法,引入数据权值,开发WApriori算法;并分别以互联网知名度和历史文献认可度为权值,对脾胃方剂进行挖掘。将实验室已开发的各种算法移植到DartSpora平台。5.DartSpora平台在中医方剂领域的应用案例。主要包括:基于规则的替换与拆分进行中医方剂预处理、病毒性心肌炎方剂最大高频模式挖掘、脾胃方基于数据可信度的加权频繁模式挖掘。

刘其良[9]2007年在《基于数据仓库的数据挖掘系统平台研究》文中研究指明电厂中大量的历史数据中必然会隐含一些有用而没有被发现的规律,这些有用的信息都被冰冻在海量的DCS数据中,数据仓库技术由此而生,它与OLAP技术的结合应用,充分利用DCS系统中的海量数据,挖掘出有用的信息,从而为电厂的可靠运行进一步提供了保障。本文针对这类问题做了开发性实验研究,建立了前台应用分析界面、后台数据仓库,即建立了一个基于数据仓库的数据挖掘展现系统的雏形。两者通过JAVA语言实现两者的链接。本文针对一个凝汽器进行分析,建立了一个小的模块,前台分层次输入换热器进水温度tw’、出水温度tw’’、汽机低压缸排气量Dn、真空度ps等数据,后台进行运算分析,将结果显示在前台界面,依此来判断该设备是否需要清洗,对事故有一定的预警作用。另外,前台和后台之间的链接、运算、显示不超过三秒,能够达到电厂快速操作反应的要求。

周绪倩[10]2010年在《基于电子商务的Web数据挖掘系统架构研究》文中进行了进一步梳理随着网络技术的发展和Internet的普及,电子商务这一现代新兴商业模式也以惊人的速度蓬勃发展起来,正在影响着整个社会的经济运行结构。电子商务系统每天都会产生蕴涵着大量重要信息的原始交易数据和访问数据,这些数据主要以Web日志文件格式存储于Web服务器中。如何将这些异构的、不确定性的和非结构化的海量数据转化为有用的信息成为当前电子商务系统建设的重要任务之一。数据挖掘技术是从大量复杂的数据中,提取潜在有用的信息和知识的过程。把Web数据挖掘技术应用于电子商务系统的建设具有重要的意义。目前,几乎所有的大型电子商务系统,都不同程度地使用了各种形式的数据挖掘技术,为客户提供个性化服务,如Amazon(亚马逊)、dangdang(当当网)等。但是多数系统仅提供基于OLAP的简单统计分析,且多数系统的挖掘架构均是基于封闭体系设计的,在需求多变的电子商务挖掘应用中显得不足。本课题致力于构建一个基于电子商务环境下的开放式的数据挖掘架构,把Web服务和移动Agent技术应用到此架构中。本文主要做了如下工作:(1)分析和总结了目前电子商务系统架构的研究现状与动态,指出了传统用于电子商务的Web挖掘系统所存在的问题。通过研究Web服务和移动Agent技术的相关理论,提出了利用Web服务分布式思想和移动Agent的智能性,实现电子商务环境中Web数据挖掘架构的优越性。(2)在研究应用于电子商务环境的多种Web挖掘算法的基础上,对关键的Apriori关联规则和k-means聚类核心算法存在的不足进行了改进,并对改进的算法用实验检验了其有效性。同时在挖掘架构阶段对多种Web算法做了封装,共同完成挖掘任务。(3)研究了电子商务系统的实现技术,并对基于J2EE平台的实现和应用其它平台的实现进行比较。最后采用基于J2EE平台的三层结构模式和MVC等设计模式进行原型系统的简单设计。

参考文献:

[1]. 基于插件技术的数据挖掘平台设计与实现[D]. 宋研. 吉林大学. 2008

[2]. 面向电子商务的web数据挖掘的研究与设计[D]. 王飞. 四川大学. 2006

[3]. 基于数据挖掘的移动通信用户流失研究[D]. 刘光远. 吉林大学. 2007

[4]. 网格环境下面向服务的分布式数据挖掘研究与实现[D]. 赵征. 武汉理工大学. 2009

[5]. 基于数据挖掘的短时交通流预测系统研究初步[D]. 周健. 长沙理工大学. 2008

[6]. Zmining数据挖掘系统中数据结构的设计与实现[D]. 苏晓旭. 郑州大学. 2014

[7]. 面向服务的云数据挖掘引擎的研究[J]. 余永红, 向晓军, 高阳, 商琳, 杨育彬. 计算机科学与探索. 2012

[8]. DartSpora数据挖掘平台的构建及其在中医方剂领域的应用[D]. 吴毅挺. 浙江大学. 2008

[9]. 基于数据仓库的数据挖掘系统平台研究[D]. 刘其良. 华北电力大学(北京). 2007

[10]. 基于电子商务的Web数据挖掘系统架构研究[D]. 周绪倩. 河北工程大学. 2010

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

面向工作流的数据挖掘系统
下载Doc文档

猜你喜欢