傅明[1]2004年在《基于Web的空间数据挖掘研究》文中提出空间数据挖掘(Spatial Data Mining,SDM)是二十世纪九十年代发展起来的一项新技术,近年来得到了越来越多学者的重视。随着计算机网络技术的飞速发展,如何在Internet或Intranet上进行空间数据挖掘,即如何进行基于Web的空间数据挖掘(Web Based Spatial Data Mining,WBSDM)是SDM的一个新的研究领域,也是相关学者日渐关注的研究课题之一。作者1999年提出申请并获湖南省自然科学基金资助于2000年至2003年主持承担了“基于Web的GIS空间数据挖掘”研究,就相关问题开展了探索。 本项研究旨在总结空间数据挖掘技术和基于Web的数据挖掘技术及WBSDM的应用前景;系统地提出基于Web的空间数据挖掘框架;设计基于XML/J2EE的WBSDM平台模型;将MAS(Multi-Agent System)技术引入WBSDM并提出应用策略;研究基于粗糙集的空间知识库刻画模型,提出并实现高维数据的特征提取和数据浓缩算法;提出并实现基于知识库的知识发现模型;构造一个WBSDM的原型实验系统,对本文的相关研究进行验证。具体内容包括: (1) 系统地总结和评述了空间数据挖掘技术和基于Web的数据挖掘等相关技术,在此基础上提出了WBSDM概念,论述了其研究意义和主要功能。 (2) 提出基于Web的空间数据挖掘框架,对WBSDM研究背景、定义、特点、功能组成、体系结构、实现策略、关键技术等进行了系统地论述。 (3) 根据WBSDM的业务需要,在对WebGIS研究进行总结的基础上,设计了一个分布式WebGIS集成模型,明确提出了技术实施方案:基于XML/J2EE技术,设计统一的数据访问接口协议Replys和Request,采用JAFMAS,扩展远程分布式数据挖掘构件。详细阐述了该模型的设计目标、体系结构及关键技术,使该模型能满足WBSDM的要求。 (4) 将MAS技术引入WBSDM中,详细剖析了第叁方提供的移动Agent的纯Java构件JAFMAS,为JAFMAS应用于WBSDM作了细致地研究工作,扩展了该构件并针对WBSDM的需求提出了多Agent合作算法。 (5) 刻划了基于粗糙集信息颗粒的知识库模型,证明了基于基本信 息颗粒的一种正区域等价算法,分析了不可分矩阵的性质,提 出并实现了基于粗糙信息颗粒的属性约简算法,使粗糙集理论 能更好地适应空间海量数据集的挖掘。 (6)为解决WBSDM中自不同空间数据库所获知识所面临的知识融 合问题,提出了一种新的基于知识库的知识发现模型。实验表 明,在对规则知识的冗余、循环、冲突等处理上该模型有良好 的效果。(7)设计并部分实现了一个基于研触b的空间数据挖掘原型系统 场旧 SDMS,结合实际项目,用本系统对城市供水系统数据库进 行了挖掘。该系统能够选用多种算法进行挖掘,具有较好的开 放性和可扩展性。
欧阳怡彪[2]2006年在《空间数据挖掘的聚类方法与应用》文中进行了进一步梳理数据挖掘涉及到数据库、模式识别、神经网络、统计学、计算智能等相关技术,是当今国际上研究热点之一。空间数据挖掘是数据挖掘研究的一个重要研究方向,是从空间数据库中识别或提取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。聚类是数据挖掘中的一种非常重要的技术和方法。空间聚类分析既可以发现隐含在海量数据中的聚类规则,又可以与其它数据挖掘方法结合使用,发掘更深层次的知识,从而提高数据挖掘的效率和质量。空间聚类分析是空间数据挖掘的重要研究方向之一。本文主要工作如下:1.对空间数据挖掘进行了概述,简要介绍了空间数据挖掘的理论、方法和研究内容、发展趋势及方向,并指出当前空间数据挖掘技术中尚需解决的问题;2.阐述了聚类的概念,系统而完整地分析和总结了主要的空间数据聚类算法的性能、优缺点、计算复杂度以及各聚类算法的应用条件;3.在数据挖掘应用方面,电子科技大学计算智能实验室(CILab)数据挖掘小组研究开发了基于Web的数据挖掘服务系统-MinerOnWeb,提供在线的数据挖掘服务。本文介绍了MinerOnWeb的系统功能、特点、体系结构,详细地分析和讨论了EJB服务端、Web应用服务端的预处理模块的具体设计和实现过程;4.成功地设计和实现了MinerOnWeb系统的EJB服务端(系统核心模块),用于管理数据挖掘的数据对象和算法对象,完成算法运算。设计相关功能接口并具体实现,将接口提供给Web服务端;5.成功地设计和实现了Web应用服务的数据预处理模块,集成了一些常用的预处理算法,提供数据预处理的功能。解决了JSP页面中算法项的树型显示问题;6.针对高维复杂的空间数值数据,本文仔细分析了基于GHSOM网络的聚类算法,对自组织训练学习算法进行了优化,一定程度上提高了网络迭代训练的速度。详细阐述了该算法的实现,并将其集成到
王旭红[3]2005年在《遥感影像数据挖掘技术研究》文中研究指明随着传感器技术的发展,遥感影像的数量以飞快地速度增长。人们收集和存储影像的能力已经大大超过分析和从影像上获取信息的能力。这一切促使我们发展图像挖掘技术,它需各学科如图像处理、数据库、信息提取、机器学习和软件设计等同仁共同付出努力。图像挖掘旨在发现隐藏在数据库中含蓄的不明确的知识、影像数据的关系或其它模式,是数据挖掘的一个重要分支。 遥感图像数据挖掘(remote sensing image mining,(ReSIM))技术不仅是图像挖掘技术在遥感领域的应用,也是空间数据挖掘技术的一个重要拓展分支。它既要应用图像挖掘的一般性的理论和技术,又要结合遥感数据和空间数据的特殊性如独特的空间位置信息、复杂的空间关系和空间尺度,是空间数据挖掘与图像挖掘交叉的研究学科。其中,分类和预测方法是遥感图像分析和信息挖掘的重要研究内容,也是研究的重点。 本文围绕遥感影像信息自动化与智能化的获取和利用这一线索,对遥感影像数据挖掘理论和技术进行了研究,主要的研究成果和创新点如下: (1)研究了功能驱动和信息驱动两种图像挖掘模式,提出了信息驱动的遥感影像挖掘原型系统结构图和流程图,并指出系统应具备的功能和必要的工具。 (2)实现了最常用的两种分类器一监督分类(bayes)和非监督分类(Isodata)算法,并提出了bayes算法改良方法;实现了灰度共生矩阵纹理表示法;研究了图像中对象的空间结构和空间关系。 (3)在研究几种数据挖掘理论如模糊分类法、证据理论、人工神经网络(BP算法和SOM网络)、支持向量机、关联规则、决策树算法基础上,提出了基于这几种理论的遥感影像挖掘方法。 (4)上述的数据挖掘方法都是针对像元的图像分析,所能够得到的信息是极其有限的,不能够反映像邻域间的上下文信息(contextual information)。提出了“面向对象”图像挖掘方法,给出了该方法的流程和算法,实现了该流程和算法。 (5)在研究知识——颜色、纹理和边界等语义特征、混合光谱特征、高维数据的特征、GIS数据、地学专家知识等表示方法的基础上,提出了GIS数据辅助遥感图像数据挖掘的两种途径——以逻辑波段形式直接参与分类和融于空间数据库中系统化应用,并给出应用模型或系统框架结构;指出挖掘查询语言应为类似SQL的适用于地理信息挖掘的输入请求语言——GMQL(Geo-Mining Query Language);提出了知识库的表示方法;实现了基于规则化知识库遥感图像挖掘方法;实现了基于数据降维的高维数据特征提取算法。 (6)在分析Web环境下数据挖掘现状的基础上,提出了Web环境下图像挖掘系统框架图;进一步提出了Web环境下遥感影像数据挖掘系统框架图。
樊明辉[4]2006年在《空间数据挖掘及其可视化系统若干关键技术研究》文中指出数据挖掘技术已经成为解决“数据爆炸、知识贫乏”问题的有效手段,在地学数据分析领域引入数据挖掘与知识发现的概念、模式和方法,探讨适合地学应用的数据挖掘新方法,对于有效处理海量地学数据、提高地学分析的自动化和智能化水平具有重要意义。 可视化技术能为数据挖掘提供直观的数据输入、结果输出和挖掘过程的交互探索分析手段,提供在人的感知力、洞察力、判断力参与下的数据挖掘手段,从而大大地弥补了GIS重“显示数据对象”轻“刻画信息结构”的弱点,有力地提高空间数据挖掘进程的效率和结果的可信度,在地学领域,可视化与空间数据挖掘的结合已成为必然。 本文系统地讨论了基于数据仓库的空间数据集成技术,改进了空间关联规则、粗糙集和空间聚类算法,研究了契合上述挖掘算法的若干可视化技术,在此基础上,实现了一种开放式的“即插即用型”数据挖掘系统,并集成上述数据挖掘技术、可视化技术,形成一套可视化空间数据挖掘的理论框架、技术方法和原型系统。研究内容和结果可归纳为: (1) 阐述了空间数据集成和空间数据集成模型的相关理论和概念,对多源空间数据的集成模式进行了探讨。讨论了多源空间数据的一体化处理技术和多尺度空间数据的一体化处理技术,提出了基于数据仓库的数据集成总体框架,设计了一个基于Web的空间OLAP工具,并给出了具体的实现流程。 (2) 改进了Apriori算法,提出了一种基于映射的高效大项集关联规则发现算法MBAR。探讨了空间概念树和层次关联规则结合的途径,提出了基于概念树的多层次空间规则算法,给出了算法处理流程和应用实例。 (3) 探讨了应用于多准则决策分析的基于优势关系的粗糙集扩展模型,对该模型中已有的求核和知识约简算法进行了研究,提出了一个新的优势区分矩阵的定义,在该定义的基础上给出了相应的求核和求约简算法,给出了在属性约简之后提取优势规则的方法。 (4) 研究了基于空间邻接关系的空间聚类挖掘算法VSG-CLUST。该算法是一种基于图分割的可视化空间聚类算法,利用Delaunay叁角网工具和MST(最小生成树)将地理实体的邻接信息(空间相邻关系)加入并参与到空间聚类中。研究了利用多尺度的空间概念层次关系进行空间聚类挖掘的算法,将尺度因素作为一种约束条件施加于VSG-CLUST算法中MST的分割和修剪策略,即一种基于尺度约束的空间层次聚类挖掘算法。 (5) 讨论了基于OLAP的空间多维可视化方法,并给出OLAP多维可视化
李君轶[5]2007年在《基于Internet的陕西国内旅游市场虚拟研究》文中研究说明自上个世纪以来,旅游市场的研究在国内外迅速兴起,涉及内容比较广泛,已经形成了一定的研究体系。但是在基于Internet的旅游市场虚拟研究方面相应的重要学术成果和研究尚不多见。本文以陕西省国内旅游市场作为实证,借助Web数据挖掘、旅游市场学、旅游经济学、旅游地理学、地理信息系统(GIS)计量经济学、消费者行为学、统计学等学科的理论和方法,首次提出旅游市场虚拟的新概念并将Web数据源应用于研究之中。笔者以国家自然科学基会项目(40271037)和陕西省社会科学基金项目(06E004Z)为依托,在国内外市场学研究基础之上,根据当前旅游市场研究的热点和难点问题,以Internet为突破口进行基于Web数据源的旅游市场虚拟探索。研究以Web数据源应用于旅游市场虚拟的可行性及Web数据源和旅游市场分析框架之间映射关系的建立为着眼点。从理论上试图建立多学科交叉支持下的以Web数据源和旅游市场研究为主体的旅游市场虚拟理论研究体系,研究方法上尝试定性与定量相结合、理论分析与实际应用相结合,追求对旅游资源开发、旅游规划、旅游产品开发及线路设计、旅游市场学的理论和实践指导价值。这一问题的解决将大大改善我国在旅游市场分析和需求预测方面的瓶颈,能够及时快速掌握旅游市场的发展趋势,对旅游目的地建设和开发具有十分重要的意义,并为旅游企业及旅游行政管理部门的动态管理和决策提供支持。研究中和中华行知网进行了友好的项目合作,利用中华行知网获取304.4万条Web日志数据记录,以及作者亲自在实地进行旅游市场调研等所获取的24722个调查样本数据和各种相关的统计资料,通过Web数据和实地调研数据的对比分析,论证了基于Web数据源的旅游市场虚拟理论,并利用Web数据挖掘对陕西省国内旅游市场进行了虚拟研究。主要工作和结论如下:1.研究背景及理论基础分析。通过分析国内外旅游业、Internet的发展和旅游市场研究现状,指出本研究的目的和意义。根据研究目标,确定了研究方案和技术路线。分析了陕西省旅游市场现状、存在问题以及其所面临的发展机遇以及我国Internet发展状况和网民特征,发现我国国内游客利用Internet获取旅游信息比例较大,并有不断增长的趋势,而且游客群体特征和网民群体特征十分相似:详细阐述了研究所依据的理论基础。2.基于Web数据源的旅游市场虚拟系统分析。提出旅游市场虚拟的新概念,对旅游市场虚拟进行了系统的研究;分析了利用Internet和Web数据挖掘研究旅游市场的优势;通过对旅游Web数据源特征的探讨,发现集中式Web数据源进行市场虚拟研究具有较大优势,应用旅游需求侧理论分析了集中式旅游Web数据源驱动因素;构建了Web数据源和旅游市场分析框架之间的映射关系以及分析知识库,分析和建立了旅游市场虚拟的流程框架。3.Web旅游数据和实地调研旅游数据的相关性研究。得出实地调研数据(实际需求)和Web数据之间具有很强的关联性,不论是客源市场的空间结构或时间分布,两者均具有高度的一致性,通过建立两种数据之间的关联关系,证明修正的Web数据源可以作为可靠的旅游市场虚拟的数据源。4.利用Web数据的具体案例分析。通过实证分析发现,在时空分布上,Web数据和实地调查数据有一定的规律,从时间分布来看,Web数据有一定的超前性,时间约有1个月左右。从客源空间分布上陕西省国内旅游客源的空间分布与Web数据基本一致,Web数据可以作为旅游需求空间结构分析和预测的依据。利用Web数据和实地调研数据对陕西省旅游市场进行对比分析,发现在空间上陕西省旅游客源主要以本省和临近省份为主,叁大客源地的游客数量不足,但是潜力巨大;在时间上陕西省具有明显的季节性,主要集中在每年的5—6月和9—10月两个时段;在资源的偏好方面,虽然陕西省历史文化类旅游资源占优,但是国内游客却偏好陕西省自然类旅游资源;从景区(点)级别和知名度来看,大尺度游客偏爱级别高、知名度大的旅游景区(点)。提出了Web亲景度的概念并应用于陕西省实践研究之中。5.旅游需求预测模型的案例研究。构建了基于Web数据的多种旅游需求预测模型,并和传统模型进行了对比,发现基于Web数据的预测模型具有较好的精度。构建的这些模型分别是基于Web数据的陕西省旅游需求引力修正模型、基于Web数据的陕西省主要客源地的旅游需求预测模型、游客在目的地的空间分布模型、不同层次景区的旅游需求潜在模型以及ARIMA模型,可为快速准确地进行旅游需求预测提供方便。6.陕西省国内旅游市场虚拟信息系统研究。利用GIS的理论和方法,选择以MapInfo为平台,利用MapX+VB的组件式开发方式,构建了陕西省国内旅游市场虚拟信息系统,为陕西省国内旅游市场虚管理、决策提供方便和支持。本文试图在如下方面进行创新:首次提出了旅游市场虚拟的概念,对基于Web数据源的旅游市场虚拟进行了系统分析;通过分析认为集中式Web数据源是进行市场虚拟的最佳数据源之一;建立了Web数据源和旅游市场分析框架之间的映射关系和分析知识库、规则和分析流程;利用陕西省Web数据和实地调查数据进行对比分析,找出了两种数据之间的关联关系;提出了Web亲景度的概念,并应用于陕西省国内旅游市场分析中;构建了基于Web数据的陕西省旅游需求引力修正模型等多种旅游需求预测模型。由于本人水平和条件所限,在长趋势Web数据、多类型Web数据以及游客信息获取的行为模式和规律方面的研究存在不足,将在下一步的工作中不断的探索和完善。
徐兴元[6]2013年在《Web时空数据挖掘及其地图信息服务》文中研究表明随着计算机和网络技术的迅速发展,尤其移动互联网的崛起,Web已成为知识获取和信息传输不可或缺的渠道。Web2.0技术的出现,使互联网的使用产生了革命性转变,即每个用户从单纯的访问者转变成了潜在的信息发布者。因此,Web资源蕴含着大量社会行为和自然事件方方面面的信息,从中挖掘带有时空信息的数据,可作为社会研究的重要素材。同时Web技术的发展也推动着地理信息技术的前进,WebGIS是地理信息技术和Web技术发展到一定阶段的结合产物。它以服务大众为宗旨,能够作为时空数据和相关知识展示的平台。本文拟从网络资源中抓取感兴趣的半结构化网页文本,经过时空信息抽取和整理等处理步骤,形成结构化的时空数据,以数据库形式进行存储。之后将多种时空数据源进行整合,利用时空数据挖掘技术,发现这些数据中隐含的知识和规则。在知识表达方面,应用WebGIS地图可视化的方式展示统计分析得到的时空数据和数据挖掘得到的知识。根据以上思路,本文分为六个章节:第二章探讨研究的背景和意义,同时对国内外的相关研究进展做了综述,同时论述本文的研究内容和目标,最后确定论文架构。第二章概述数据挖掘及其分支Web数据挖掘、空间数据挖掘、时空数据挖掘、Web数据挖掘和Web时空数据挖掘的概念和基础理论。最后介绍地理信息系统及其分支WebGIS的相关概念。第一章介绍本研究的主要技术和算法,其中包括HTTP、URL地址、网络爬虫、网页解析、分词技术和Apriori算法。最后讨论本研究用到的一些工具。第四章选取中国天气网和新浪微博网站作为例子,介绍网页数据下载,时空信息的抽取、整理、入库及变换,时空关联规则表的建立,以及如何利用Apriori算法计算气象数据和交通事故之间的关联规则。最后讲述系统实现的功能和向用户提供的服务。第五章总结回顾全文,概括研究成果和创新点,同时指出本文的不足和下一步需做的工作。
吴小竹[7]2004年在《基于Web Services的热点挖掘系统的研究与实践》文中指出海量的空间数据集隐藏着丰富的知识,但目前空间数据挖掘研究的进展却较为缓慢。论文提出的热点挖掘试图从空间数据集中识别出隐藏的、有趣的模式,解决目前空间数据丰富而知识匮乏的问题。作为数据挖掘的技术载体—数据挖掘系统,经过几十年的演变已经发展到了第叁代。但目前各种挖掘系统各自独立,异种系统之间交互困难。而作为系统核心的挖掘算法,往往以插件的形式嵌入系统中,使得系统在算法的增添上存在困难,算法插件的可重用性也比较低。Web Services技术将较好地解决以上问题。本文的主要研究工作如下:阐述了空间聚类,空间离群挖掘,时序数据挖掘的国内外研究进展,概括了数据挖掘系统的发展历程。论文提出了基于空间数据挖掘技术的热点挖掘的概念,它从事物、现象和事件的空间位置、空间分布、空间形态和空间关系的模式和规律出发, 通过研究和开发适于“热点地区”或“热点事件”识别和预警的空间数据挖掘的关键技术和原型系统,探索从海量空间数据中进行热点目标的探测、提取和反演的理论与方法,为疾病(传染病)控制、犯罪预防、突发事件预警、灾害防治和发现全球热点区域等领域提供决策辅助的理论依据。Web Services技术是一种先进的软件集成技术,论文提出利用Web Services技术构建挖掘系统的思想,把多种来源的挖掘算法作为服务集成到系统中来,不仅可丰富系统的数据处理能力,也使得系统的灵活性大大增强。论文在深入分析数据挖掘系统和Web Services技术相关理论的基础上,着重研究了建筑在Web Services之上的面向热点识别的数据挖掘系统HsMiner。该系统把面向服务的体系结构和传统的数据挖掘叁层体系结构相结合,在中间挖掘层内插入一个UDDI注册中心作为算法管理模块,用于算法服务的发布,发现与集成。论文以福州地热资源热点挖掘为例演示了热点挖掘的实际应用,也证明了HsMiner系统的有效性。
巫建伟[8]2014年在《空间数据挖掘问题的语义解析与智能化求解方法研究》文中研究表明人类正快速迈进“大数据”时代,随着遥感传感器、位置服务终端的日益普及,空间数据资源呈急剧增长态势,面向服务的空间数据挖掘已成为地学领域数据增值与知识发现、解决大数据科学问题的重要手段。如何合理地运用自然语言实现人-机间的信息交互,为挖掘服务用户屏蔽高深的专业知识、简化复杂的服务流程建模工作,实现复杂、众多的空间数据挖掘服务的遴选与服务流程组合的自动化、智能化,是当前云服务环境下空间数据挖掘与知识发现领域的重要研究内容。本文开展自然语言描述的空间数据挖掘问题的语义解析与智能化求解方法研究,集成空间数据挖掘本体构建、空间数据挖掘问题的语义解析、基于智能规划的空间数据挖掘服务自动组合等技术,致力于形成一套从自然语言描述的空间数据挖掘任务向可执行的挖掘服务流程转化的问题智能求解解决方案与软件原型。主要研究工作和成果总结如下(1)提出了结合核心本体构建与中文概念术语扩展的空间数据挖掘本体构建方法。在提取领域相关概念术语的基础上,着重探索了空间数据描述涉及的空间数据类型、空间数据服务、数据属性特征以及数据集空间关系的组织方法,并提出了以行政区划作为中介的数据集空间关系确定方式。依据本体概念、属性关系进行本体形式化描述工作,形成空间数据挖掘的样例本体;基于ICTCLAS扩展了面向空间离群的本体中文概念术语。实现了空间数据挖掘算法服务、空间数据服务的语义注册,并结合Jena提供的本体操作接口、SPARQL查询语言、以及Jena规则推理引擎,实现了算法服务与空间数据服务的语义推理查询。(2)创新性提出了面向空间数据挖掘问题的语义解析方法。在分析本体在语义解析过程中所起作用的基础上,概括了以挖掘任务与对象数据作为主概念、从属概念与关联关系为扩展概念的问题语义要素,进而提出了能够有效体现要素间语义关系的叁元组语义关系识别方法,并实现了由关键概念提取、语义模式判断、问题形式化等叁个阶段构成的问题语义解析方法。该方法以邻近断句的特征向量逐次向外扩展的方式进行空间数据挖掘问题的语义要素叁元组填充,能够充分考虑断句间的语义相关性,准确地把握挖掘问题的语义内涵。(3)针对空间数据挖掘流程的复杂多阶段特征,提出了面向空间数据挖掘的多阶段智能规划求解方法。从领域模型与问题模型两个方面,对多阶段PDDL规划建模方法进行详细阐述。针对领域模型生成,重点探索了在从本体类&属性向PDDL原语的类型&谓词的转化,提出了算法服务的语义信息向PDDL领域模型原子动作的转化方法;针对问题模型生成,采用数据服务语义信息向PDDL司题模型的转化方式,实现了面向不同任务、不同智能规划求解空间的多阶段PDDL规划建模,并结合FF规划方法,详细描述了多阶段服务自动组合的实现流程。该方法能依据阶段划分有效地限定规划搜索空间,实现挖掘服务流程的自动组合,显着提高了智能规划时间效率。(4)依托地理知识云服务平台GeoKSCloud,开展空间数据挖掘问题智能求解功能模块设计,实现了云服务语义注册与查询、问题语义解析、服务组合智能规划等功能,并以土壤数据异常分析为例开展了示范应用研究。实际应用结果验证了课题提出的问题语义解析与智能化求解方法的可行性与有效性。首先,能够为用户屏蔽所需的大量专业知识,大大降低服务功能的使用门槛。其次,基于语义的服务查询能够更好地满足用户需求,返回更准确、更全面的查询结果;再者,多阶段智能规划方法能有效地提高智能规划的效率,大致能够缩短10-40%不等的规划时间。
孙嘉, 裴韬, 龚玺, 周成虎[9]2011年在《Web时空数据挖掘研究进展》文中指出随着互联网的迅速发展,Web已经渗透到人类社会的各个角落,其中蕴含着大量关系社会、经济和生活的信息。从中挖掘出刻画事件时空范围的时空信息,可以为探索社会、自然事件以及行为主体的时空运动规律和知识提供丰富的素材。系统综述了Web时空数据挖掘的理论、方法和应用,首先介绍了Web时空数据挖掘的概念及分类,详细阐述了Web时空信息的特点和提取方法,其次针对3类Web时空数据挖掘的内容、方法及应用进行了综述,最后探讨了Web时空数据挖掘面临的难题、研究热点和未来领域的发展方向。
李广水[10]2010年在《基于服务的森林资源调查数据挖掘系统的研究》文中研究说明森林资源调查是林业工作的重要方面,而随着数字化林业的发展,林业基础调查数据的积累呈现快速增长的趋势,如何从海量数据中提取有价值的信息正是林业资源调查数据挖掘所应对的主要问题。在Internet的全球发展战略的影响下,基于WEB服务的应用集成已成为当前及未来信息系统的一个主要趋势,本研究探讨了WEB服务下森林资源调查数据挖掘系统的设计及实现。首先对近年来常用的数据挖掘算法在森林资源调查中的应用进行了归纳总结,概括了不同的挖掘算法在相关领域的应用特点及场景要求,随后对相关技术进行了介绍,在分析了基于WEB服务的数据挖掘模式及其特点的基础上,依据.Net平台分别在不同的模式下开发了数据挖掘的WEB服务:实现属性相关分析的本地数据挖掘和改进的Aprior算法对远程数据的频繁项集的查找,着重研究了针对大数据集的访问、网络资源占用、代码的可伸缩性等方面的系统设计。在此基础上,针对九曲水林场实验区构建了基于小班林分因子调查数据的决策树判定系统,并提出了特征数据集的品质这一概念,在属性约简过程中依此进行了约简阈值的设定,并基于.Net和WSBPEL进行了系统设计;针对决策树构建过程中易于出现数据碎片、子树重复等问题,进一步提出了基于分形维构建特征数据集的方法,分析了依据分形维数和信息增益对冗余属性的删除以及特征集的信息损失对决策树构建的影响;本部分的最后,依据实验数据比较分析了两种决策树归纳的特点。作为服务于大面积区域调查的一个重要数据来源,遥感数据在森林资源调查中的应用占据着越来越重要的位置,为此,基于WCS标准,分别研究了面向服务的遥感数据挖掘模式及其基于工作流的分布式系统架构,并采用.Net体系及WSBPEL流程建模语言,具体设计了一个遥感影像纹理关联规则的挖掘系统。基于此,提出了基于频繁项集的遥感图像特征抽取,该方法首先依据项集的频繁度及空间分布筛选候选频繁项集,再定义每一个频繁项集的空间表达能力值构建特征集。仿真在遥感图像上进行测试检验,针对EM算法对初始设置比较敏感的特点,采用了对同一特征集指定不同聚类数目并比较对数似然值确定最终聚类结果的方法。试验结果表明,本文提出的频繁集对研究区的林区具有较好的判别之后,在分析了支持向量算法的特点及协同训练理论的基础上,依据遥感影像的纹理特征,提出了基于纹理特征值及像素灰度值构建的两个训练集上协同训练支持向量机的算法CTSVMTRS,并具体设计了分布式CTSVMTRS系统。论文主要分析了如何针对一般森林资源调查的事务数据和遥感数据构建基于WEB服务上的数据挖掘系统,从对一些经典算法的系统设计过程中探讨了具体实现过程中的关键技术及算法改进策略,并对相关的设计进行了实验分析,仿真主要从两个方面进行:WEB系统的可行性及改进算法的有效性,实验结果证明了相关的观念,也表明了本研究在林业信息化应用集成方面具有一定的参考价值。
参考文献:
[1]. 基于Web的空间数据挖掘研究[D]. 傅明. 中南大学. 2004
[2]. 空间数据挖掘的聚类方法与应用[D]. 欧阳怡彪. 电子科技大学. 2006
[3]. 遥感影像数据挖掘技术研究[D]. 王旭红. 西北大学. 2005
[4]. 空间数据挖掘及其可视化系统若干关键技术研究[D]. 樊明辉. 中国科学院研究生院(遥感应用研究所). 2006
[5]. 基于Internet的陕西国内旅游市场虚拟研究[D]. 李君轶. 陕西师范大学. 2007
[6]. Web时空数据挖掘及其地图信息服务[D]. 徐兴元. 华东师范大学. 2013
[7]. 基于Web Services的热点挖掘系统的研究与实践[D]. 吴小竹. 福州大学. 2004
[8]. 空间数据挖掘问题的语义解析与智能化求解方法研究[D]. 巫建伟. 福州大学. 2014
[9]. Web时空数据挖掘研究进展[J]. 孙嘉, 裴韬, 龚玺, 周成虎. 地球科学进展. 2011
[10]. 基于服务的森林资源调查数据挖掘系统的研究[D]. 李广水. 南京林业大学. 2010
标签:自然地理学和测绘学论文; 数据挖掘论文; 空间数据论文; 大数据论文; 数据挖掘算法论文; 聚类分析论文; 空间分析论文; 文本挖掘论文; 数据集成论文; web技术论文; 语义分析论文; 文本聚类论文; 关系模型论文; 虚拟技术论文; 虚拟旅游论文; 关系挖掘论文; 设计流程论文; 信息集成论文;