熊伟[1]2001年在《不完整关系数据库中关联规则挖掘问题的研究》文中指出数据挖掘是数据库、人工智能、机器学习等领域结合而产生的是一个新兴的、具有广泛应用前景的研究领域,其目标是从海量数据中智能、自动地提取有价值的信息和知识以支持决策。关联规则挖掘是数据挖掘的重要研究内容。对关联规则挖掘问题的研究是由Agrawal等人在1993年提出来,最初的动机是希望通过分析超级市场的商品销售数据来发现有关顾客购买行为的知识以指导商业决策。在超级市场的事务数据库中,保存着顾客每次购物的商品项目信息,发现顾客购物行为中不同商品项目之间的影响和联系对于商业决策意义重大。对关联规则挖掘问题的研究可以帮助我们正确的发现这些联系。 关联规则挖掘问题的提出引起了众多研究人员的重视,他们对该问题展开了深入的研究;同时,关联规则挖掘问题也被进一步扩展和改进,应用到更广泛的领域。目前,关联规则挖掘技术已经被应用到除商业领域外的其它领域,如电讯业、金融业等,均取得了良好的效果。 关联规则挖掘问题最初仅涉及事务数据库,由于事务数据库中不存在属性值丢失的问题,值丢失问题在关联规则挖掘的研究中也一直没被重视。然而,当我们尝试去发现关系数据库中的关联规则时,就可能经常要面对属性值丢失的问题。怎样从不完整的关系数据库中计算关联规则至今仍没有明确的方法。 文中详细介绍并比较了AIS算法、SETM算法、Apriori算法、DIC算法等典型的布尔关联规则挖掘算法,研究了其各自的效率和适用范围;详细介绍了数值关联规则挖掘的一般思路和关键技术,包括连续属性离散化、数值关联规则的兴趣度和挖掘过程中候选项目集支持率的计算方法;基于粗糙集理论中的等价类思想,本文提出了一种在关系数据库中进行关联规则挖掘的新方法,重新定义了关系数据库中的关联规则,及其支持率和置信度等概念,给出了通过搜索项目集的等价类来发现频繁项目集的新思路;深入研究了不完整关系数据库的重要性质,并在此基础上介绍了不完整关系数据库中的关联规则,以及它的支持率和置信Iz辇霎弓爿 茄半壹a井寸Y“-/M托工ER S 工肛SIS 度的评估方法,并定义了它的期望支持率和期望置信度,这些定 义保证了关联规则挖掘的某些必需的性质;研究了以往的丢失值 处理方法并分析了其不足之处,最后结合前面的定义给出了不完 整关系数据库中关联规则挖掘问题的新的定义和解决方法。/
王荧[2]2007年在《并行关联规则算法优化的研究》文中研究指明随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多,如何充分利用这些数据信息并为企业决策者提供决策支持成为一个十分迫切又棘手的问题,数据挖掘就是为了满足这种要求而迅速发展起来的。数据挖掘是帮助人们在海量数据中发现信息和知识的工具,近年来数据挖掘技术成了商业智能的核心技术,被广泛应用到了诸多领域,引起了学术界极大的关注,如何提高数据挖掘的效率成为学术界热门的研究课题,而关联规则的发现是数据挖掘中最成功和最重要的一项任务,也是当今数据挖掘中一个非常活跃的研究领域,其中最着名的挖掘关联规则算法就是Apriori算法。论文对数据挖掘和关联规则的主要概念和发展状况作了综述,给出了挖掘关联规则问题的正式的描述,对典型的串行关联规则算法和并行关联规则算法作了较深入的分析,并且介绍了这些算法的思想及其各自的优缺点;针对CD算法所存在的多次扫描和冗余存储等问题进行改进。CD算法的目标是减少通信量获得较好的任务分布性,使各处理器只对本地数据并行地进行处理,但算法的I/O量较重,数据结构重复,没有有效利用整个内存。因此论文在CD算法的基础上提出了改进的算法NCD:通过对参与候选集的元素计数的方法来减少产生候选集的组合和数据库的扫描次数以达到要求。这种方法是利用多个处理器的并行计算得到候选集S′,由于候选集无法保证是超集,有可能报告失效,这时还须扫描数据一遍或多遍,直到不再报告失效为止。这种算法让各处理器在不知道其他处理器的任何信息的情况下独立地计算局部大项集,直到所有的处理器都计算出了局部大项集后,才开始交换数据,增加或删除项集,得到最终结果,这有利于提高挖掘的速度和减少数据库的I/O操作时间的开销。事实上CD算法使用了一个简单的原则,即允许在其他处理器上进行并行地冗余计算和冗余存储,尽而避免大量通信。论文对所提出的NCD算法与CD算法在实验数据集上进行测试,测试结果说明在数据集相同的情况下NCD算法效率得到了有效的提高。
王晗[3]2016年在《住宅室内环境对儿童哮喘的健康风险评估》文中研究说明近些年来,随着儿童哮喘患病频发,室内环境对儿童健康问题的危害愈发显着。本博士论文围绕住宅室内环境与儿童哮喘,采用问卷调查和动物实验的研究方法,通过传统统计分析和关联规则数据挖掘技术综合分析了住宅室内环境因素单独作用和联合作用下儿童哮喘健康指标的患病风险,定量评估了气态甲醛对哮喘主要病理学指标的影响,建立了科学有效的住宅室内环境健康评估模型。首先,本研究参考国外室内环境与健康领域成熟的研究体系,结合我国的社会经济背景和环境污染特征,设计完成了在国内普遍适用的调查问卷,建立了科学系统的问卷调查研究方法。在问卷调查过程中,本研究以分阶段的概率抽样调查选取研究对象,以试调查验证问卷内容和实施方案,以严格的质量控制措施保证调查数据质量,最终共获得5299份有效问卷,收集了我国住宅室内环境与儿童哮喘的第一手基础资料。本研究选取长期居住在调查住所的2917名儿童作为本博士学位论文的研究对象,采用双变量的卡方检验和多变量的逻辑回归模型,剔除已知非环境类因素的混淆作用,明确了单独作用下显着影响儿童哮喘健康指标(喘息症状、干咳症状和确诊哮喘)的住宅室内环境危险因素。结合文献分析,初步识别了可能影响儿童哮喘健康指标的住宅室内环境客观污染参数。然后,本研究将关联规则数据挖掘技术应用到住宅室内环境多因素联合作用下儿童哮喘健康指标患病风险的评估过程中,以传统的支持度-可信度框架为基础进行住宅室内环境因素与儿童哮喘健康指标的关联规则挖掘,结合研究目的通过对数据挖掘规则进行主观度量实现关联规则的初步筛选,采用作用度、PS值和匹配度叁个客观评估指标实现规则的最终保留,采用卡方检验和兴趣度检验对保留规则进行统计显着性和现实关注度的验证,最终获得显着影响儿童喘息症状、干咳症状和确诊哮喘患病情况的住宅室内环境双因素和叁因素组合,实现了住宅室内环境多危险因素联合作用下儿童哮喘及相关症状的健康风险评估。随后,本研究基于传统统计概率模型和关联规则数据挖掘技术获得了住宅室内环境危险因素或组合,以(作用度-1)作为健康风险水平的衡量指标,建立了住宅室内环境因素-健康风险关系模型。以关系模型为核心,本研究建立了住宅室内环境健康风险评估模型,该评估模型采用评估问卷通过调查对象对室内环境的自我报告和气味刺激的主观感知获得评估数据信息,以住宅室内环境因素-健康风险关系模型为评估准则进行住宅室内环境健康危险因素或组合的识别。同时,本研究通过实际案例的应用效果分析,发现该评估模型可以准确有效的实现特定室内环境条件下的健康危险因素识别,对现阶段住宅室内环境的改善有着积极的指导意义和广泛的现实价值。最后,在识别的住宅室内环境客观污染参数中,本研究选取甲醛作为典型代表,对其在哮喘发作过程中的易化作用进行了定量评估。本研究采用成熟的哮喘动物模型,通过不同气态甲醛暴露剂量下实验小鼠慢性过敏性炎症指标、气道高反应性和肺组织病理学改变特征方面的测定对比,发现气态甲醛暴露浓度为3mg/m3时,暴露时间为60分钟、90分钟和120分钟的甲醛实验组和OVA对照组的慢性过敏性炎症指标存在显着差异,随着暴露剂量的升高差异显着性也会增加,气道高反应性和肺组织染色切片的相关指标充分验证了这一变化,肺组织染色切片嗜酸性粒细胞和杯状细胞的形态学对比也直观的展示了高水平甲醛暴露剂量对哮喘发作的易化程度。随后,本研究参考国外成熟的环境健康风险评价体系,提出了儿童通过呼吸道暴露在中期暴露周期内,OVA过敏原刺激哮喘发生的易化水平和严重程度无显着变化的甲醛最小风险暴露剂量为0.00094mg/m3,即儿童的日暴露剂量为0.00094mg/m3时,在OVA致敏作用下儿童哮喘发作的易化程度和严重水平不会显着变化。本研究在全面总结分析国内室内环境与儿童哮喘领域研究存在问题的基础上,定性识别和定量分析了住宅室内环境对的儿童哮喘的健康风险,建立了适宜于我国相关领域的问卷调查研究体系和切实可行的住宅室内环境健康风险评估模型,基于儿童哮喘提出了甲醛最小风险剂量水平,为国内相关领域的研究提供了可靠的理论指导和技术基础。
廖海波[4]2008年在《关联规则挖掘在病案数据分析中的应用研究》文中研究指明随着数据库技术的迅速发展和医院信息系统在各大中型医院的不断普及,如何对医院信息系统积累的越来越多的医疗数据进行分析挖掘,将隐藏在临床医疗数据之中的大量有用知识提取出来,成为人们所关注的焦点。本文以对医院的实际病案数据如何进行分析挖掘为主线,围绕数据仓库、OLAP和数据挖掘叁个用于病案数据分析的核心组件进行应用研究。在全面阐述病案数据分析相关理论基础后,针对医院病案信息的具体情况,设计并实现了以病人为主题域的病案数据仓库的概念、逻辑和物理模型,并在病案数据仓库的基础之上创建了病案多维数据立方体,利用数据透视表和MDX方式完成了对OLAP的操作和数据展现,接着本文对关联规则挖掘理论进行了详细的阐述,并根据病案数据多维多层次的特点,构建并实现了基于病案数据多维立方体的关联规则挖掘结构,并对病案数据多维立方体进行了关联规则挖掘实验,通过对挖掘得到的关联规则的归纳和分析,找出了隐藏在病案数据之中的各个疾病之间的相互联系,以及病人的职业、性别、年龄等特征对病人疾病的影响,为医生对疾病的诊断治疗提供帮助。
陈虎[5]2012年在《本体辅助的空间关联规则挖掘研究》文中研究指明空间关联规则挖掘是空间数据挖掘和知识发现的重要内容,它主要是从GIS数据库中挖掘反映空间对象结构以及空间和非空间属性之间的关系等隐含规则,是GIS数据库内部不同子集的空间对象之间的关系的主要体现。在先前的空间关联规则研究中,许多研究者都关注于数据和算法本身,而对用户具有的先验知识和领域知识重视不够。于是,有学者提出了基于约束的规则挖掘和融入先验知识的规则挖掘。作为语义网语义分析的基础,基于描述逻辑的本体结构在表达用户和领域知识方面具有明显的优势,被相关学者引入数据挖掘来表达与挖掘相关的知识,其中大多数的研究都集中在数据挖掘本体的构建和过程的控制,而对挖掘的内容没做过多的优化。论文在分析空间关联规则挖掘的方法和优缺点后,提出利用本体表达的先验知识和用户知识来辅助进行空间关联规则挖掘的优化。主要内容如下:首先,分析了空间关联规则挖掘的研究进展,介绍了本体的相关概念和构建原则,在阐述“讨论对象”的四个度量的基础上,讨论了从“讨论对象”到本体语义的转换,探讨了语义收缩的五个步骤并依此来构建地理本体。其次,在分析了空间数据挖掘的数据预处理阶段存在的问题后,着重关注了数据清理和数据归约。针对数据的不完整性,通过计算数据集中属性对应的本体概念间的语义相似度获得相应的数据集,减少预处理的数据空间;针对数据归约,利用本体表达的分类体系来选择合理的区间或层次,以实现有效的离散或归约。再次,分析了空间数据挖掘中存在的空间依赖现象并说明闭频繁项集挖掘不能剔除该依赖。在介绍概念格及其产生子等相关概念后,阐述了产生子与空间依赖之间存在的联系,并详细说明了产生子在空间依赖剔除中的应用。提出基于本体语义的最优频繁地理模式挖掘算法,实现了本体语义的应用,以长沙市地理数据为例,验证了算法的有效性。最后,讨论了本体对用户知识的表达以及本体到数据集的映射,设计规则模式来提取规则并构建相应的提取算子。在定义了规则间的相似度后,提出利用本体语义相似度来计算项相似度以实现规则的提取,实现了本体辅助的规则提取。以河南省统计数据及交通和行政区划数据为例,验证了规则提取方法的效率。
朱飞祥[6]2008年在《远洋船舶调度数据挖掘技术研究与应用》文中研究指明数据挖掘作为知识发现过程中的重要步骤,是从大型数据库及数据仓库中提取未知的、有价值的和可操作性的关系、模式和趋势用于决策支持的过程。随着船岸通信技术及计算机存储设备的快速发展,在航运企业中出现了海量的船舶调度数据,如何充分利用数据挖掘技术来分析隐含在船舶调度数据内部的规律是海上智能运输研究领域中的一个值得关注的问题。本文主要研究数据挖掘技术在远洋船舶调度相关问题中的应用,结合数据挖掘中关联分析、数据约简、决策规则获取等算法特点,着重探讨了在全球港口货物装卸分析、船舶航线货物分析、船舶营运油耗分析中的应用。为了使数据更高效地进行挖掘分析,对船舶调度数据仓库的结构与应用进行探讨与设计,最后与各种数据挖掘应用形成一个船舶调度数据挖掘体系。主要研究内容和取得的研究成果如下:(1)本文通过调研我国船公司的调度业务,建立面向全球港口货物装卸分析、货物流向分析、船舶节能分析等不同主题的船舶调度数据仓库的结构模型,并对其结构、功能及数据存储模型和实现技术进行研究,从而对海量船舶调度数据进行管理与分析,为后续的挖掘算法提供数据支持。随后建立包括数据层、组织层、挖掘层和决策层的船舶调度数据挖掘体系,各层承担着船舶调度数据挖掘不同阶段的任务,从数据预处理、数据挖掘到知识表达,形成了一个完整的体系。(2)针对关联规则挖掘过程中需要多次搜索数据表的问题,分析了粗糙集和关联规则的联系,在单维粗糙集关联算法的启发下,提出了一种基于粗糙集等价类的多维关联算法,将多维频繁项集的求取,转换为多属性的等价类的计算,该算法产生的多维频繁项集只包含用户关心的维度,排除了其他维度的干扰,因而在规则获取方面,更能产生满足用户需求的规则。同时,相比Apriori算法减少了数据库扫描次数,因而提高了算法效率,降低了关联规则的挖掘时间。(3)研究了多维数据关联规则挖掘算法在船舶航线货物分析中的应用问题。远洋船舶货物运输的实质就是货物在时空上的一个转移过程,考虑到船舶在一个港口可能装载多种货物,然后在不同港口分别卸货的实际情况,将货物维数据从事务数据库转换到信息系统,然后运用本文提出的基于粗糙集等价类的多维关联算法分析船舶航线、船型、货物以及时间维之间的关系,得到了航线船型分布、航线货物流向等船公司感兴趣的规则,也验证了本文提出的算法实用性。(4)给出了一种计算正域的改进算法。正域是粗糙集中一个重要的基本概念,依赖度和分类质量的属性约简算法及属性重要度的计算都涉及到正域求解,本文深入分析了正域的定义特点,根据算法中先前的计算结果,及时删除不需要比较的对象,可以大大降低后续计算中物标对的组合数,从而减少计算量,提高计算效率。利用来自UCI(University of California Irvine)的机器学习数据集测试,结果证明该算法相比经典的正域求取算法,效率明显提高,针对大数据集效率提升更为明显。(5)众所周知,求所有最小属性的约简是NP问题,本文提出一种以属性多样性为启发条件的基于分类能力的启发式算法,简化了启发式条件,用分类能力计算替换正域计算,相比基于正域的属性约简算法,提高了算法的效率。利用来自UCI的机器学习数据集测试,结果证明该算法相比经典的正域求取算法,效率有明显提高。(6)船舶营运油耗是一个受多因素影响的综合性过程,需要对船舶营运中油耗因素展开分析。然而在实际调度报文中,船舶营运油耗的某些属性的属性值存在遗失,是不完备的,因此本文首先将营运油耗数据的属性值完备化,然后利用计算正域改进算法确定船舶营运过程中油耗的主要因素,利用粗糙集属性约简算法对油耗属性进行约简,从而获得有意义的决策规则,为船舶营运过程制定合理节能措施提供理论依据。最后,对全文进行了总结,并对有待进一步研究的问题进行了展望。
周如意[7]2017年在《基于BP神经网络和关联规则的智能医疗保险稽核系统研究》文中提出目前医疗保险稽核系统的功能仍以简单的查询、统计分析、多维钻取等为主,系统对医疗保险监管工作的支持非常有限。随着参保人数不断增加、违规行为呈多样化、隐蔽化等趋势,以人工抽查稽核方式为主导的医疗保险监管工作效果不佳,不能及时有效地发现医疗保险中存在的重复用药、重复就诊、超量配药等违规问题。医疗服务行为监管工作直接关系到各参保人的切身利益和医保基金的安全,影响医疗保险制度能否可持续健康发展。有效提升当前医疗保险稽核系统信息化水平,为医疗保险监管工作提供决策支持是解决当前由医疗保险监管方式不当而导致的医保基金流失的重要途径。本文梳理了数据挖掘技术的相关理论、重要算法并分析研究了数据挖掘技术在医疗领域的应用,提出将数据挖掘技术引入到智能医疗保险稽核系统中。利用数据挖掘技术对医保数据进行深入的分析、挖掘与建模,提炼有价值的知识并将其应在医疗保险监管流程中,以实现医疗保险就诊信息的全覆盖、实时、自动稽查,为医疗保险监管工作提供有力的信息化手段。本论文研究的主要内容如下:首先,对数据挖掘技术中的流程、任务、挖掘工具进行梳理,并对其中的BP神经网络算法、关联规则算法、属性约简算法等进行重点研究。在分析数据挖掘技术在医疗保险稽查系统中的适用性的基础上,提出基于BP神经网络和关联规则的智能医疗保险稽核系统体系结构,包括数据获取层、数据预处理层、数据挖掘引擎层、服务与管理层。然后,设计智能医疗保险稽核系统的支撑库:知识库、规则库和模型库。在知识库设计中重点介绍药品相互作用知识和常用药知识的构建过程,其中药品相互作用知识构建过程中包括利用分词系统对药品说明书语料进行术语、成分、作用规则提取等环节,常用药知识构建则是利用了关联规则算法、属性约简算法对参保人的历史就诊处方信息进行分析,以发现不同疾病的常用药模式。规则库涵盖了支付政策性审核规则、诊疗合理性审核规则、临床规范性审核规则、医疗行为异常监控规则等。规则引擎是规则的具体实现,将就诊信息转换成模型可处理的数据结构。在模型设计中,对系统BP神经网络模型的结构包括输入层、隐层、输出层等的节点个数以及模型的构建过程进行详细描述。最后,将数据挖掘工具WEKA集成到Myeclipse10开发环境中,利用研究所得的理论、方法和技术实现了基于BP神经网络和关联规则的智能医疗保险稽核系统的开发,该系统主要功能涵盖知识库管理、模型库管理、监测模型应用等模块,以实例展示智能医疗保险稽核系统在医疗保险监管工作中的应用。
李晨露[8]2017年在《关联规则在医保数据分析中的应用》文中研究说明现代医保数据管理系统已经逐渐成为综合医疗体系系统的重要组成部分,医保数据管理系统已经得到广泛的应用,每天都有包含海量信息的医保数据产生,针对此类数据开展高效的分析活动,进一步获得存在较高价值的决策信息,能够对医师常见病诊疗和医疗合理用药规范的制订起重要作用。但由于其数据存在噪音、不完整、冗余等问题,若不对其有效处理,难以直接用于分析。同时,目前仅用正关联规则对其进行分析的方法也存在一些不足,不能为决策者提供更为全面的信息。因此,本文首先提出了一种改进的基于多支持度的关联规则挖掘算法MMS_FP和一种改进的基于两级多支持度的正负关联规则挖掘算法2LFP_inFS_FS,然后在对某医院的医保数据进行处理的前提下,用改进的2LFP_inFS_FS算法对心脑血管疾病数据、糖尿病数据和类风湿性关节炎数据进行了分析,得到了一些用药之间与疾病之间的正负关联规则并对其进行了分析,结果对医师常见病诊疗和医疗合理用药规范有重要的参考价值。具体如下:1.提出了一种改进的基于多支持度的关联规则挖掘算法——MMS_FP本文提出了一种新的基于多支持度的关联规则挖掘算法MMS_FP,考虑了每个事务发生的概率和频率不同的现实问题,对数据集中的每一项设置不同的支持度,即采用多支持度模型——MMS模型,解决了频繁项集冗余的问题,且使用了FP-Growth算法来实现,所以该改进算法的运行速度比MSapriori快了几十倍,而且可以发现更有价值的频繁项集,为关联规则分析提供更好的支持。2.提出了一种改进的基于两级多支持度的正负关联规则挖掘算法——2LFP_inFS_FS为了挖掘非频繁项集提出了2LS模型,但该模型依然是对整个项集设置两级的单一支持度,忽略了项集中每个事务发生的不同概率和频率问题,而这依然要靠多支持度模型来实现,因此,我们将2LS模型和XMMS模型进行整合,即对项集中的每一项设置两级多支持度,提出了一种新的基于两级多支持度的正负关联规则挖掘算法2LFP_inFS_FS,使用FP-Growth算法实现,同时挖掘频繁和非频繁项集,实验结果表明该算法更高效,然后通过PNARC模型同时得到正负关联规则。3.关联规则在叁种疾病数据分析中的应用针对医保数据有噪音、不完整和冗余等特点,本文做了大量数据预处理工作:对数据中的部分空缺值采取忽略元素、人工填写和删除的方式,对数据中的部分信息进行了语义一致化操作,对数据中的多个离散数据进行了规约处理,最后选取了当今社会比较受重视的叁种疾病:心脑血管疾病、糖尿病和类风湿性关节炎的数据进行了正负关联规则的挖掘和分析,比如心脑血管疾病中:地西伴和硫酸阿托品的搭配,查阅资料得知地西伴溶于硫酸阿托品会出现沉淀现象,所以这种联合用药搭配是不合理的,不符合医学规定;而卡托普利与地高辛,卡托普利会增加洋地黄类的中毒发生率,不能联合用药,符合医学规定和常识。类似的,我们在糖尿病和类风湿性关节炎的用药中也得出了很多具有研究价值的规则,结果对合理诊疗的判断有重要参考价值。
王丽影[9]2008年在《数据挖掘技术在网络教育平台中的应用研究》文中提出数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又潜在有用的信息和知识的过程。近十几年来,数据挖掘技术已经得到了广泛的研究,并在商业、金融、医疗等众多领域得到了成功地应用,但在教育领域中应用的还很少。随着信息技术的发展,信息技术在教学中的应用也越来越广泛,出现了各种各样的教育教学平台,在网络教育平台快速发展的同时,积累了很多数据,如用户的访问日志信息、注册信息、考试成绩信息、交流信息等,人们往往忽视了这些数据的重要性,造成了资源的极大浪费,这些缺点限制了网络教育平台的继续发展。本文针对这一问题提出了将数据挖掘技术运用于网络教育平台的观点,指出了数据挖掘技术能够很好的解决网络教学中的许多问题,数据挖掘在网络教育平台的应用大有前景。本文主要进行了以下几个方面的研究:1.数据挖掘基本知识的深入研究与探讨,为后面各章节的运用奠定基础。2.课程推荐模块中聚类规则的应用研究。首先分析了课程推荐在网络教育平台中的重要性,然后详细阐述了聚类规则挖掘在课程推荐模块的应用过程。3.成绩分析模块中分类规则的应用研究。分析了现有成绩分析的不足,指出考试系统中学习者基本信息与考试成绩间是存在某种联系的,通过决策树分类规则挖掘技术在成绩分析中的应用,实现对学习者成绩的预测。4.数据挖掘技术在辅助教师决策进行学习者信息分析方面的应用研究。
李瑞华[10]2010年在《数据挖掘在煤矿安全监测中的应用》文中指出煤炭企业作为我国工业生产中的基础产业之一,由于其固有的产业特点决定了这一行业一直以来都属于高危产业。其中影响煤矿安全生产的因素非常复杂,主要有瓦斯浓度、顶板压力、CO浓度、甲烷浓度、温度等自然灾害因素。如何有效识别其相互关系,从而提升煤矿安全生产管理水平是我国煤炭行业面临的重大课题,对煤矿安全生产的长治久安具有重要的意义。本文以煤矿安全监测系统中的信息为数据样本,采用数据挖掘中关联规则挖掘算法,挖掘在煤矿生产中自然灾害因素之间的关系,从而为提高煤矿安全监测的效率和监测深度,实现煤矿安全监测自动化和煤矿安全监测专家系统提供有利的手段。本文主要有以下几个方面的工作:1、阐述数据挖掘技术,结合煤矿生产中监测数据的特点,选用关联规则技术对煤矿安全监测数据库中的数据进行分析。2、对煤矿安全监测数据库中的原始数据,完成了从数据选择、清洗集成、离散化和概念分层预处理。3、对Apriori算法进行改进,应用改进的Apriori算法对现有的煤矿信息系统中的数据进行挖掘。实验结果表明改进的Apriori算法具有较高的时效性,基于关联规则挖掘出来的结果对于提升煤矿安全监测与预警有较好的效果。
参考文献:
[1]. 不完整关系数据库中关联规则挖掘问题的研究[D]. 熊伟. 华中师范大学. 2001
[2]. 并行关联规则算法优化的研究[D]. 王荧. 山东科技大学. 2007
[3]. 住宅室内环境对儿童哮喘的健康风险评估[D]. 王晗. 重庆大学. 2016
[4]. 关联规则挖掘在病案数据分析中的应用研究[D]. 廖海波. 合肥工业大学. 2008
[5]. 本体辅助的空间关联规则挖掘研究[D]. 陈虎. 解放军信息工程大学. 2012
[6]. 远洋船舶调度数据挖掘技术研究与应用[D]. 朱飞祥. 大连海事大学. 2008
[7]. 基于BP神经网络和关联规则的智能医疗保险稽核系统研究[D]. 周如意. 浙江理工大学. 2017
[8]. 关联规则在医保数据分析中的应用[D]. 李晨露. 齐鲁工业大学. 2017
[9]. 数据挖掘技术在网络教育平台中的应用研究[D]. 王丽影. 天津师范大学. 2008
[10]. 数据挖掘在煤矿安全监测中的应用[D]. 李瑞华. 西安电子科技大学. 2010
标签:计算机软件及计算机应用论文; 关联规则论文; 数据挖掘论文; 大数据论文; 数据挖掘算法论文; 空间数据论文; 空间分析论文;