基于概念格模型的知识发现研究

基于概念格模型的知识发现研究

赵文兵[1]2002年在《基于概念格及其扩展模型的数据挖掘研究》文中提出形式概念分析是对哲学的概念进行形式化描述的一种数学工具,己在软件工程、信息检索、数据挖掘等各个领域得到广泛应用,备受国内外研究者的重视。 本文主要关注基于概念格及其扩展模型的数据挖掘研究,其中内容涉及形式概念分析两个主要方面:概念格的构造和概念格的应用。 在概念格的构造方面,本文总结已有的构造算法,提出一种基于最佳不完全覆盖的概念格构造算法,算法至上而下,以图的广度优先搜索方式生成概念节点和概念的图表结构。此外,本文还提出并实现了一种相对约简格的构造算法。 在概念格的应用方面,将概念格模型应用于数据挖掘中。从概念外延的角度,提出最小可信度格和最小支持度格的构造方法,并示例说明最小支持度格在概念聚类和蕴含规则挖掘上的应用。从概念内涵的角度,度量概念节点之间的距离,以此为依据提出并实现一种基于最小支持度格的概念聚类算法。同时本文着重研究了利用量化的相对约简格来发现分类规则的问题,所提算法的生成结果剔除了冗余的分类规则,算法在时间性能、空间性能等方面较前人的算法有较大的改进。 另外,本文在相关章节对形式概念分析和聚类分析进行比较以及分析总结了基于概念格的分类和决策树分类法的异同。

陈慧[2]2006年在《基于概念格的多数据源中分类规则挖掘研究》文中研究表明并行/分布式数据挖掘是针对当前信息量日益增大以及数据所呈现的高维、异构和分布式存储等特性而出现的新的研究课题,分类规则挖掘是数据挖掘领域的重要分支。本文着重对多数据源中的分类规则挖掘问题进行研究。由于概念格具有完备的结构和坚实的理论基础,是知识提取的有效工具,因此采用概念格作为分类问题求解模型。 本文的主要工作如下: 1.研究基于概念格的多数据源中分类规则挖掘方法。考虑到挖掘结果的可理解性并结合具体的实现方案,本文分析了模型表示和规则表示两种知识表示方式,并选择以直观的规则表示方式来描述分类结果。在此基础上引入知识合并思想,提出分类规则的直接融合和同步融合思想以及相关算法,并对这两种思想进行分析比较。最后,选择规则的同步融合策略实现多数据源中的分类规则挖掘。 2.在对大规模数据的分类规则挖掘所涉及的过拟合问题的现象及其产生原因展开分析的基础上,引入剪枝策略,分析预剪枝和后剪枝两种剪枝方法,对概念格模型进行后剪枝,并以实验对剪枝的效果进行了比较和分析,表明了方法的有效性。 3.在上述研究的基础上,提出基于概念格的多数据源中分类规则挖掘实验系统DDM CLASS。

徐勇[3]2006年在《基于概念格模型的分布式关联规则挖掘研究》文中研究表明分布式关联规则挖掘研究是为解决分布式环境下的关联规则挖掘问题而出现的新课题,具有重要的理论和实际意义。概念格通过概念的内涵和外延之间的关系以及泛化和例化之间的关系来表示数据和知识,因而适用于关联规则发现的问题研究。然而,由于格结构的完备性致使格的规模随数据库规模的增长而快速增长,一定程度上影响了概念格模型在知识发现研究领域中的应用。本文在对概念格及其扩展模型进行研究的基础上,着重研究了基于剪枝概念格模型的分布式挖掘关联规则问题。 论文主要工作如下: (1)在深入研究概念格上数据和知识表示的基础上,着重讨论了概念格剪枝模型的相关理论,并给出了相应的剪枝格构造算法。 (2)比较研究了基于剪枝概念格上频繁项集表示与基于Apriori性质的频繁项集表示方法,发现前者能够更加简洁地表示频繁项集、更加精确地反映原始数据库中的关联信息。 (3)研究了利用剪枝格模型从多数据源上提取关联规则问题;给出相应的算法UMPL,并用实验证明了算法的有效性和正确性。 (4)实现了基于概念格的关联规则挖掘原型系统。

蔡勇[4]2017年在《基于形式概念分析理论的并行知识发现算法研究》文中指出形式概念分析是知识表示和数据挖掘的有效方法之一。概念格是形式概念分析的核心数据结构,其很容易建立信息之间的因果关系,能够简明、清晰地描述形式背景的蕴含知识。属性约简和关联规则提取是形式概念分析理论研究的两个重要问题,通过属性约简可以化简形式背景和概念格结构,有利于重要知识的发现;基于概念格模型很容易发现事务属性之间的关联模式,便于挖掘用户感兴趣的规则。在大数据环境下,发现重要知识以指导实际生产和具体应用,并行知识发现算法的作用更加凸显。本文面向大数据,将形式概念分析理论与并行计算框架结合,开展了大数据形式背景下并行属性约简、概念格构造和关联规则提取算法的研究。主要研究工作概述为以下四个部分:1.给出了形式概念并行生成算法。在生成形式概念的基础上,设计了并行属性约简算法,该算法采用矩阵分块思想,将辨识属性矩阵划分为多个子矩阵,分别计算子矩阵下的辨识函数并化简得到属性约简。实验结果表明算法具有良好的大数据处理能力。2.提出了基于概念分区的概念格并行构造算法。分析了外延基数分区、内涵基数分区、外延基数和内涵基数分区3种概念分区方法,有效地约束了建立概念间父子关系的搜索范围。实验表明,同时按照外延和内涵基数进行分区能够有效提高建格效率,基于概念分区的概念格并行构造算法具有良好的并行性能。3.设计了基于形式概念分析理论的并行关联规则提取算法。给出了规则概念格的定义,该规则概念格以概念和子概念的外延基数以及内涵为结点进行构建,在规则概念格上可进行多次关联规则提取操作。实验结果表明,并行关联规则提取算法具有优秀的加速性能。4.构建了基于形式概念分析理论的知识发现系统,该系统集成了本文所提出的属性约简、概念格构造和关联规则挖掘算法。同时为了方便对小数据集进行处理和比较串行与并行算法的执行结果,系统集成了传统的串行属性约简、概念格构造和关联规则挖掘算法。该系统能够直观的展示属性约简结果、Hasse图和关联规则,具有良好的交互性和实用价值。

胡谢斐[5]2006年在《基于多重关系领域知识的分类问题研究》文中研究说明数据库规模的急剧增长要求数据挖掘能更有效地搜索与发现问题相关的数据,使发现的模式更有意义。现在的知识发现算法大多是“从零开始”的无需领域知识的独立发现,而在实际应用中,存储于用户大脑中或现有数据库中的领域知识在数据预处理、引导发现过程以提取更有意义的规则、解释发现结果等阶段都发挥着重要的作用。因此,在知识发现过程中融入领域知识已引起国内外学者的普遍关注,基于领域知识的知识发现已成为当前数据库中知识发现的一个重要的研究方向。 概念格是一种完备的知识表示模型,是数据分析和规则提取的有效工具。本文在对概念格及其扩展模型进行研究的基础上,提出基于概念格及其扩展模型表示领域知识,从多个概念层次上进行知识发现。本文的主要研究内容如下: 1.详细地讨论了领域知识的各种不同的知识表示模型,探讨了由不同知识表示模型表示的领域知识在知识发现过程各个阶段中的重要作用,展现了基于领域知识的知识发现的应用前景及所面临的挑战。 2.知识发现的实质是发现数据之间的潜在规律性,而这种潜在的规律往往是在不同的抽象层次上进行描述的,反映了不同粒度上的共性知识。然而,在知识发现中,数据库中存储的实际数据往往都只停留在某一粒度层次,有的数据所处的层次较低,难以从宏观的角度反映数据的规律;有的数据所处的层次较高,隐藏了一些细节上的共性知识。为此,本文提出对目标数据集引入多重关系领域知识,通过对细粒度信息进行泛化、对粗粒度信息进行展开发现数据之间紧凑的描述信息。 3.基于概念格这种完备的概念层次模型表示多重关系领域知识,将多重关系领域知识用于知识发现中分类问题的求解,设计了一种基于多重关系领域知识的分类算法CS_MRDK,通过实验验证了该算法能发现隐藏在数据内部的共性信息,有效地提高发现知识的质量。 4.在上述研究工作的基础上,实现了基于多重关系领域知识的分类知识发现原型系统。

唐志军[6]2005年在《基于分布式概念格的知识发现研究》文中研究说明知识发现和数据挖掘是人工智能、机器学习、数据库和统计理论等相交叉形成的新学科,目的是从数据库中提取有用的模式,因而具有广阔的应用价值。然而,随着信息技术日新月异的发展,人类生产生活的各个领域都积累了规模庞大的数据,从大规模的数据中高效地提取有用的模式已经成为了一种挑战。为此,并行和分布式的方法成为解决这一问题的一个有效途径受到重视。然而,组织数据的方式和并行处理的方法无论在理论上还是在技术上都有许多问题需要研究。概念格模型具有坚实的理论基础、完备的结构以及并行性的特征,因而成为解决上述问题的一个重要工具。本文针对分布式概念格的模型以及在此基础上的数据挖掘开展研究。 论文的主要工作和贡献如下: 1.概述了知识发现和数据挖掘研究和应用。 2.阐述了概念格的数学基础、传统的概念格研究及概念格的扩展模型和概念格构造,分析了批处理算法和渐进式算法的优缺点。 3.给出了一种新的分布式概念格的模型,提出了与传统分布式数据库中的横向、纵向、混合型分片方式不同的数据有机分割方式,在此基础上给出了便于并行实现的概念格构造算法SEA。该算法结合了批处理算法的并行性和渐进式算法的高效性,使得在进行平行处理的同时又保持了算法的性能。实验表明该算法在时间性能上要明显优于基于原始形式背景的算法(Godin)。 4.在分布式概念格模型的基础上,提出了基于类特征的分类算法。该算法利用基于子全概念的概念格构造算法SEA对每一个类生成子格,通过在各个子格上提取的特征相互之间的协作来实现对新对象的分类。

滕广青[7]2012年在《基于概念格的数字图书馆知识组织研究》文中指出20世纪90年代以来,随着计算机和网络技术的发展,图书馆的概念逐渐超越了人们传统意识当中那幢钢筋水泥的建筑物。以数字化存储与呈现、网络化检索与获取为特征的数字图书馆,成为网络数字时代集知识存储、获取、传播、交流等多功能为一体的知识集散中心。数字图书馆的相关研究日渐成为现代图书情报学的重要分支,并在多学科理论与技术的支撑下获得了相对独立的发展空间与地位。这一期间,学术界对数字图书馆的理论探索和实践开展掀起了研究的热潮,特别是在针对数字化馆藏资源的建设方面取得了不菲的成绩。然而,随着近年来Web2.0的兴起及语义网络的发展,开放式语义网络环境下的数字图书馆知识管理面临着许多新的问题与挑战,其中数字图书馆的知识组织是这些问题当中最为基础而且突出的核心焦点。如何把握数字图书馆知识组织的基本脉络和发展方向,融合多学科的理论与技术,通过准确分析和深入研究探寻语义网络环境下的数字图书馆知识组织的内在机理与演变规律,构建开放式语义网络环境下数字图书馆知识组织的理论框架与发展蓝图,促进中国数字化知识产业的快速成长与发展,已成为一项亟待解决的重大课题。有鉴于此,论文以国际数据分析领域中在概念化知识处理方面最新的研究成果——形式概念分析(FCA)与概念格(CL)理论为基础,从知识的概念化、语义化、形式化的视角,对数字图书馆知识组织展开研究。致力于基于形式概念分析的概念格理论与技术构建数字图书馆知识组织的模型框架,创新数字图书馆知识组织的技术策略,推进数字图书馆在开放式语义网络环境下的实践进程。具体研究包括:(1)从国内外形式概念分析与概念格理论在概念化知识处理领域的应用和数字图书馆知识组织相关理论研究进展的文献调研入手,基于调研资料进行细致的梳理和分析。重点探讨了基于形式概念分析的概念格理论与技术在数字图书馆各类知识组织与服务中的应用,总结出适合本项目的核心理论、必备方法和关键技术。并通过对知识组织体系演进路径的分析,探讨了当前数字图书馆知识组织的困境与发展趋势,明确界定了论文的研究思路与逻辑起点。(2)通过对基于概念格的数字图书馆用户知识组织的研究,从数字图书馆用户内隐知识挖掘与萃取的层面,探讨了将形式概念分析与概念格理论应用于数字图书馆知识组织中用户知识需求识别、概念认知分析、行为偏好挖掘等方面的功能与优势。并进一步将这种优势延伸到数字图书馆新兴的社群分类法(Folksonomy)和开放存取(Open Access)领域,阐述了形式概念分析与概念格相关理论与技术对开放式、分布式语义网络环境下的数字图书馆知识组织活动的理论支撑与技术保障,论证了基于形式概念分析的概念格理论与技术应用于数字图书馆知识组织的科学性和有效性。(3)构建了相关领域知识的概念格。针对数字图书馆特定领域内的相关知识(包括内隐知识与外显知识),进行知识的语义化、概念化研究。依据知识概念的对象与属性创建形式背景,采用形式概念分析的技术构建领域知识概念格,实现领域知识的概念化、形式化描述。并基于领域知识概念格对特定领域的相关知识结构进行分析和呈现,揭示了知识之间的层级结构与关联关系,挖掘发现潜在的隐含规则与模式。(4)提出了“本体与概念格互补融合”的数字图书馆知识组织的技术策略。从哲学到图书情报学、从认识论到本体论、从内隐知识到外显知识,结合开放式语义网络发展的实际,对数字图书馆知识组织的理论与基于形式概念分析的概念格理论进行了全面、系统、深入的分析与研究。并基于以上研究提出了“本体概念格”互补融合的数字图书馆知识组织的技术策略。(5)基于概念格实现了领域知识本体的构建。针对数字图书馆中主题词表与文本两大主要类型的知识资源进行分析,借助概念格的并迭置运算构建数字图书馆异构资源概念格。通过领域知识概念格与领域本体之间的映射规则,在领域知识概念格的基础上构建领域本体。基于概念格的本体构建,提高了本体构建的形式化、自动化程度,大大降低了人为的干扰因素,实现了“概念格本体”的正向促进。(6)建立了基于概念格的跨本体映射。对相关领域本体进行基于概念格的逆向解析,将标准词典中的相关同义词、上位词等关系嵌入本体中的知识概念及层级结构,将不同的异构本体转换为相应的概念格,并提取有效的知识概念。进而基于概念的属性与对象,创造性地提出了基于概念格的“对象-属性相似度(OAS)”法。利用该方法对通过逆向解析获得的概念进行相似度计算,并根据设定的阈值提取满足阈值要求的异构本体间的相似“概念对”,基于相似“概念对”建立了跨异构本体的映射关系,完成了“本体概念格”的逆向解析。(7)构建了基于概念格的多本体协同知识地图。从哲学与情报学角度对人类知识的应然状态与实然表现进行系统的分析与总结,对当前知识的本体化进程与作为知识组织终极表现的知识地图进行系统的分析与论述,为构建基于概念格的多本体协同系统奠定理论基础。选取现实中特定领域范围内典型的、具有代表性的成熟领域本体,基于概念格建立跨本体映射,并据此构建多本体协同知识地图,以“拼图”形式实现了更大范围的知识组织。论文基于形式概念分析与概念格相关理论与技术,以解决开放式、分布式语义网络环境下数字图书馆知识组织相关问题为逻辑起点,在梳理、总结形式概念分析与概念格在相关领域中的应用的基础上,对知识组织及其体系结构的演进进行了分析与归纳,综合运用知识组织理论、本体理论、概念格理论、语义学理论,全面、深入、系统地研究探索数字图书馆知识组织的技术策略和框架模型。构建了相关领域知识概念格,提出了本体与概念格互补融合的数字图书馆知识组织技术策略,并据此实现了数字图书馆异构资源领域本体构建和跨本体映射,并在此基础上构建了多本体协同知识地图。论文的理论价值在于,丰富和完善了数字图书馆知识组织的理论体系与方法体系,促进现代语义网络环境中数字图书馆知识组织理论与方法的变革。对用户内隐知识的挖掘与发现是数字图书馆知识组织理论新的生长点,本体与概念格互补融合为知识描述、知识组织、知识导航、知识构建提供了新的理论支撑和解决方案。论文的现实意义在于,柔性化的数字图书馆知识组织体系是当前语义网络环境下数字图书馆实践的现实需求,基于概念格的数字图书馆知识组织,通过构建多本体知识地图,概念化、语义化、形式化地呈现和揭示知识结构与关联,提高数字图书馆用户知识获取与利用的效率,更好地释放和发挥数字图书馆在现代语义网络环境中的潜能和价值。

周红鹃[8]2005年在《基于概念格的序列模式挖掘研究》文中认为序列模式发现是当前数据挖掘领域中有着广泛应用的重要研究课题。概念格是一种擅长描述层次关系的有效工具。以概念格为工具来实现序列模式发现,是当前数据挖掘领域的一个新的研究热点。本文对基于概念格的序列模式发现的方法和关键算法作了研究,并将研究结果应用于高等院校大学生成绩数据的挖掘。论文的主要工作和创新点如下: 1.综述了序列模式发现和概念格的基本理论,论述了以概念格模型为核心来组织数据结构和算法以实现序列模式的挖掘的基本方法和策略。 2.研究了现有的概念格渐进式与批处理式构造算法,提出并实现了一个新的并行概念格构造算法PIFGCL。该方法利用渐进式概念格构造方法的重要性质,划分并行子任务,实现了概念格构造的并行化。 3.提出了两种新的概念格模型,以交易数据库中的频繁项集为结点构成的项格和以序列模式为结点构造的序格,并将其应用于序列模式发现。提出了基于项格的序列模式发现策略,并将序列模式发现的过程转化成了序格的构造过程。 4.提出了与课程无关的学生学业程度评价系统,给出了符合该评价系统标准的多种成绩制。引入成绩熵来衡量课程成绩的信息含量,以评估单个课程成绩在教育数据挖掘中的作用。 5.实现了针对大学生成绩数据的领域数据挖掘系统GMiner。

宫玲[9]2007年在《概念格建格算法的研究》文中研究指明当今,社会已经进入了网络信息时代,计算机与网络信息技术的飞速发展使得各个领域的数据和信息急剧增加(信息爆炸),同时人类的参与使数据与信息系统中的不确定性更加显着。如何有效地实现对数据的分析和处理,如何快速地从数据中提取出隐含的知识,长期以来一直是人工智能领域的研究热点。在此背景下诞生的知识发现KDD(Knowledge Discovery in Databases)和数据挖掘DM(Data Mining)给人们提供了一种新的认识数据和理解数据的智能手段。在DM和KDD诸多方法中,粗糙集理论(Rough set)的明显优势在于不需要任何预备的或额外的有关数据信息。而概念格(Concept Lattice),以其完备的结构和坚实的理论基础成为数据挖掘过程中的主要模型之一。由于概念格的完备性原因,使得寻找一种时间复杂度比现有算法优秀很多的概念格构造算法变得几乎不可能,因此如何比较快速地从海量的形式背景中构造概念格仍然是目前形式概念分析领域研究的一个重点和难点。本文首先从方法及应用等方面论述了知识发现和数据挖掘的发展状况,重点介绍了粗糙集理论和形式概念分析理论在KDD中的应用。在粗糙集理论及形式概念分析理论的基础上,阐述二者之间的联系。接着重点讨论了概念格的建格算法。这一章节分为两个部分,前半部分分析了串行建格算法的原理以及一些经典的概念格构造算法,并提出了一种新的基于边缘概念的建格算法。这种算法与其它传统串行算法相比,最大特点在于边缘概念的提出。求出边缘概念以后,将不再依赖形式背景便可以分层构建概念格,并且同时生成概念格所对应的Hasse图。这一章的后半部分主要论述了适合并行计算的并行算法。随着高性能并行计算技术的发展和成熟,利用并行计算存储能力改善算法在时间和空间上的性能为解决概念格构造问题提供了一条新的途径。本文分析经典的ParallelNextClosure算法,并改进了多概念格合并算法。改进的概念格横向合并算法对于除了同类概念以外的其它特殊概念也有相应的处理方法,从而提高了概念格横向合并的效率。文章的最后对并行构造概念格的模型进行了分析和尝试,通过对其性能的分析证明本文所改进的并行概念格横向合并算法是正确而有效的。同时也对未来的工作提出了新的挑战。

田素方[10]2008年在《基于概念格与粗糙集的Web文本聚类研究》文中进行了进一步梳理形式概念分析自1982年由德国的Wille教授提出以后,近年来被广泛用于软件工程、知识发现、信息检索等领域。形式概念分析中的核心数据结构概念格通过Hasse图来表现出概念之间的层次关系。粗糙集理论是由Pawlak Z于1982年提出的,它是一种处理不确定、不精确和模糊知识的数学工具,建立在数据库的基础上,由等价类确定的可定义子集及其它子集合的上下近似,提供了知识发现的一种数学方法,已被广泛应用于知识获取、机器学习等领域。形式概念分析和粗糙集理论之间具有相似之处,都是基于某种数据表,有着密切的联系。粗糙集利用等价关系对数据表进行分类,而概念格是基于这一数据表,结合序理论,尤其是完备格理论,进行概念分层分析。本文主要是基于概念格和粗糙集的知识来解决文本聚类问题。主要研究工作包括:(1)提出了一种基于概念格的文本聚类方法,采用概念格模型来表示Web文档,利用概念格的知识从文档形式背景中获得所有的概念,且定义了概念之间相似度函数。用概念来表示文本,从而降低了特征词的维数,提高其聚类的性能。(2)提出了一种基于粗糙集模型的文本聚类方法,采用粗糙集模型来表示Web文本,把在一定范围内的特征词权重转化为特定的属性值,从而把文档数据库转化为文档决策表。利用粗糙集的上近似集来衡量属性之间的最大粗糙度,根据划分的思想对文本进行聚类。(3)通过概念格和粗糙集的相似研究,把粗糙思想和形式概念分析相结合,提出了一种可变精度的粗糙概念格模型来处理一些粗糙和不精确的信息,定义了粗糙概念中对象集和属性集的近似映射,引入了分别体现了概念外延之间和概念内涵之间的粗糙程度的参数β_1和β_2。根据用户输入的不同的参数值β_1和β_2,可以得到不同粗糙程度的粗糙概念格,介绍了可变精度的粗糙概念格模型在文本聚类中的应用。

参考文献:

[1]. 基于概念格及其扩展模型的数据挖掘研究[D]. 赵文兵. 合肥工业大学. 2002

[2]. 基于概念格的多数据源中分类规则挖掘研究[D]. 陈慧. 合肥工业大学. 2006

[3]. 基于概念格模型的分布式关联规则挖掘研究[D]. 徐勇. 合肥工业大学. 2006

[4]. 基于形式概念分析理论的并行知识发现算法研究[D]. 蔡勇. 西南交通大学. 2017

[5]. 基于多重关系领域知识的分类问题研究[D]. 胡谢斐. 合肥工业大学. 2006

[6]. 基于分布式概念格的知识发现研究[D]. 唐志军. 合肥工业大学. 2005

[7]. 基于概念格的数字图书馆知识组织研究[D]. 滕广青. 吉林大学. 2012

[8]. 基于概念格的序列模式挖掘研究[D]. 周红鹃. 合肥工业大学. 2005

[9]. 概念格建格算法的研究[D]. 宫玲. 辽宁师范大学. 2007

[10]. 基于概念格与粗糙集的Web文本聚类研究[D]. 田素方. 扬州大学. 2008

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于概念格模型的知识发现研究
下载Doc文档

猜你喜欢