基于本体的语义Web知识发现及其应用的研究

基于本体的语义Web知识发现及其应用的研究

邹文科[1]2008年在《基于本体技术的语义检索及其语义相似度研究》文中研究说明随着网络技术的发展和Internet上信息量的激增,信息检索系统作为网络信息平台的一个重要组成部分,在用户获取准确的网络信息过程之中发挥着重要的作用。传统的信息检索仅仅是基于语法层面上的简单匹配,缺乏对知识的表示、处理和理解能力,其实质在于信息资源缺少统一的语义描述,用户难以查询到与需求相关的信息,难以实现相关信息的语义融合,问题的关键在于将信息检索从传统的基于语法的简单匹配提升到基于语义知识层面。语义Web(Semantic Web)是WWW的发明人Tim Berners-Lee倡导的下一代万维网,致力于以计算机可处理形式表示信息。语义Web的目的是让计算机能够“理解”Web上的信息,并在“理解”的前提下更好地处理和利用这些信息,为人类提供更好的服务。本体具有良好的概念层次结构和对逻辑推理的支持,能够通过概念之间的关系来表达概念语义的能力,实现语义上的信息表示,可以很好地应用于信息检索。基于本体的信息检索不同于传统的关键词检索,利用本体知识库强化了概念之间的内在联系,通过逻辑推理可以发掘概念之间隐含的和不明确的信息,实现语义智能信息检索。首先对传统信息检索技术进行了分析研究,导致其检索质量低下的根本原因在于传统信息检索采用基于语法的匹配方式,缺乏检索信息的语义理解,探讨了将本体技术应用于信息检索,实现语义智能信息检索。其次分析研究了语义Web和本体技术,包括它的来源定义、框架结构、研究现状和应用等。语义Web是对现有万维网的扩展和进化,基于元数据和本体的语义和知识的表达,提供充分的丰富的语义信息使得机器可以理解,达到机器可以自动处理信息的能力。另外详细分析了本体技术在电信领域的应用情况,包括基于本体的网络系统管理集成信息模型、语义Web技术应用于上下文感知的智能移动Web服务和电信领域本体的构建等。接着重点研究分析了基于本体的语义智能信息检索的关键技术,包括本体技术、智能信息检索方法、领域本体构建和系统流程等。基于对传统信息检索技术的不足和本体技术,设计了基于领域本体的语义智能检索系统。分析了当前互联网上的手机商品在线网站的检索系统,提出了基于本体的语义智能检索系统框架模型,构建了实验系统的手机商品本体,并进行了智能信息检索系统的语义推理分析。在前面技术理论和系统技术设计的基础上,实现了基于本体的手机商品语义检索系统(MPPSRS)。该实验系统以手机商品领域为智能检索对象,通过本体的语义推理处理,可以充分发掘检索信息之间隐含的关联信息,为用户提供了良好的语义检索服务,从而在根本上解决传统信息检索中资源对象语义信息缺乏的问题,更加准确和全面地查询到用户需要的手机商品信息,实现语义智能信息检索。然后分析了当前概念相似度研究现状,结合本体技术,在构建的领域本体的基础上,提出了一种改进的基于领域本体的语义相似度的计算模型,该模型结合基于距离的语义相似度和基于属性的语义相似度,其中基于距离的语义相似度综合考虑并利用了本体类的层次关系中的多种影响因素,如语义重合度、语义层次深度、语义距离、语义密度以及相应的调节因子等,来计算领域本体内部概念之间的语义相似度。最后结合上一章具体探讨的改进的基于领域本体的语义相似度计算模型,设计并实现了基于本体的电子镇流器/荧光灯管产品检索推荐系统(BLPRRS)。分析了某公司的实际需求,基于本体技术,结合该公司产品特点,在抽取公司研发和销售的电子镇流器和荧光灯管产品,构建了电子镇流器和荧光灯管的本体库的基础上,实现了实验系统。通过调整实验系统中相应的各个调节因子,并将实验数据与专家主观判断进行比较,分析并验证了改进的语义相似度计算方法的效果,表明基于本体的语义相似度计算模型可以帮助扩展检索概念,提供有效的产品检索结果。

黄新平[2]2017年在《政府网站信息资源多维语义知识融合研究》文中提出近年来,我国政府信息公开工作进展迅速,越来越多的政务信息资源通过政府门户网站发布,这些信息涉及到各个领域,关系到国计民生和群众的切身利益,群众对其有着广泛的需求。然而由于政府机构的层次性,且行政机关的隶属不同、分工不同,造成政府网站发布的公开信息具有层次性、地域性、分散性等特点,这些海量的、孤立的、分散状态存在的碎片信息往往使人们束手无策,给公众获取有效信息造成障碍,影响政府公开信息的有效利用。政府网站信息资源数量的急剧增长在为人们获取所需的信息和知识带来更多机遇的同时也带来了更大的挑战。因此面对“信息海洋”与“知识匮乏”的对峙局面,迫切需要采取一定的方式和手段对多来源、多类型的政府网站信息资源进行类聚、重组和融合,构建一个有序高效的政府信息知识体系,为用户提供知识的有效获取与利用。知识融合能够针对多源分布信息的碎片化、冗余性、不完整性等问题,从众多数据源中抽取相关知识,经过知识转换、集成与合并等处理,产生新的集成化知识对象,从而为领域决策问题求解构造有效的知识资源。它为解决政府网站信息资源领域的知识服务问题提供了新思路、新方法和新途径。本文以实现政府网站信息资源的深层次开发和利用为立足点,以满足公众的高效率知识服务为目标,综合运用信息管理学、计算机科学、知识科学、系统科学等多学科的理论方法,拟从知识组织的角度架构政府网站信息资源知识融合框架模型,试图改变知识获取的固有流程,形成新的知识获取过程模型,提出对多源的、分散重复、被淹没的政府网站信息资源进行知识融合的理论框架与解决方案。在此基础上,以语义网、知识本体、知识发现等语义信息组织技术为支撑,尝试在语义环境下分别从内容维度、结构维度、应用维度叁个不同维度探索政府网站信息资源知识融合的实现方法。具体研究内容包括:(1)通过对政府网站信息资源和知识融合等相关概念的阐述,进一步明晰了本文研究对象与研究内容的范畴。同时对本研究具有重要指导意义和参考价值的知识空间理论、知识组织理论、本体理论、知识发现理论进行了理论溯源。其中,知识空间多维度的知识分类与知识管理为本文政府网站信息资源多维度知识融合框架的构建提供了重要的理论支撑。知识组织理论对确定不同维度层级政府网站信息资源知识融合所需要实现的知识表示、知识重组、知识关联、知识聚类等过程具有重要的理论指导作用。本体是实现政府网站信息资源知识融合的有力工具,而知识发现理论则提供了解决政府网站信息资源知识融合问题的技术方案。(2)确定了政府网站信息资源知识融合的目标和原则,从用户信息需求和知识融合功能需求两个方面分析了知识融合需求,明确了知识融合的流程与体系结构等框架构建依据。然后对语义环境下政府网站信息资源知识融合过程中涉及的构成要素、功能要素及要素之间的关系进行了分析,并依此提出了基于语义的政府网站信息资源知识融合逻辑框架,从概念与逻辑层面回答了政府网站信息资源知识融合“做什么”的问题。在提出的基于语义的政府网站信息资源知识融合逻辑框架的基础上,以知识空间理论多维度的知识分类与知识管理,知识融合研究领域对知识类型的划分,以及信息融合研究领域中多源信息融合系统的结构与功能框架为依据,提炼出了由数据级融合、概念级融合、决策级融合构成的知识融合功能结构,并依此分别从内容维度、结构维度、应用维度叁个维度构建了政府网站信息资源多维度知识融合框架,从结构与功能层面回答了政府网站信息资源知识融合“怎么做”的问题。(3)内容维度上数据级融合要解决的关键问题是如何对描述统一的政府网站信息资源内容进行有效的数据关联,通过数据关联,形成知识网络。为此,本文通过对特定主题政府网站信息资源进行细粒度信息抽取、预处理,采用本体驱动的元数据模型对其进行统一的语义描述,构建了政府网站信息资源领域知识本体,并以语义网络表示法为参考,实现了政府网站信息资源的知识表示。在此基础上,引入知识元、知识元—本体映射的概念,利用基于知识元语义链接的数据关联方法实现知识元的统一对象化表示、知识元对象的抽取、知识元对象的属性获取、知识元语义关联度计算等,并依此构造生成对特定主题资源内容进行宏观描述的知识网络。(4)结构维度上概念级融合要解决的关键问题是如何从数据级融合生成的政府网站信息资源知识网络中获取领域概念,并识别领域本体概念关系,通过本体合并,形成能够便于发现彼此间关联规则和模式的分类知识组织体系。针对该问题,本文提出了采用RDF链接定性推理与Voronoi图定量推理相结合的本体形式化表示方法来获取政府网站信息资源领域概念。通过识别领域本体概念关系,构建领域本体概念关系的层次结构,依此获得领域本体概念分类体系。在此基础上,设计基于概念分类的领域本体映射模型,并采用本体概念间语义相似度的计算方法,实现基于概念分类的政府网站信息资源领域知识本体合并,消除政府网络信息资源知识网络中的冗余知识,达到对其进行有效分类组织的目的。(5)应用维度上决策级融合要解决的关键问题是如何对政府网站信息资源知识网络和分类知识组织体系结构中具有关联关系和相似关系的领域知识进行关联聚类,经过知识关联聚类,生成面向决策应用的完整领域知识。基于此问题,本文通过对已有领域知识关联聚类方法进行比较分析,提出基于关联挖掘和语义聚类的领域知识融合方法,该方法涵盖时序关联融合、因果关联融合、凝聚层次聚类融合3种核心领域知识融合算法,进而通过因果关联、时序关联、知识聚类等方法生成能够辅助用户决策的完整领域知识。(6)前文按照政府网站信息资源多维度知识融合框架的结构与功能划分,提出了不同维度层级知识融合实现所需要的方法,这些方法的效果如何,还需要通过实验进行验证。为此,本文搭建了实验所需的软硬件环境,介绍了实验需要应用到的相关工具。对实验数据来源及其主题分布情况进行了描述,明确了不同维度层级知识融合的实验内容。在具体的实验验证上,以政府网站发布的“雾霾防治”主题相关的领域信息资源为例,构建了政府网站“雾霾防治”领域知识本体实例。并以构建的“雾霾防治”领域知识本体为依据,分别对数据级融合提出的基于知识元语义链接的知识网络实现方法、概念级融合提出的基于概念分类的领域知识本体合并方法以及决策级融合提出的基于关联挖掘和语义聚类的领域知识融合方法进行了实验验证,并通过设计定性与定量相结合的评价指标对案例实验结果进行了分析与评价。

甘健侯[3]2004年在《基于本体的语义Web知识发现及其应用的研究》文中研究指明语义Web是由WWW的创始人Berners-Lee在2001年正式提出的。语义Web研究的主要目的就是扩展当前的WWW,使得网络中信息都是具有语义的,是计算机能够理解和处理的,便于人和计算机之间的交互与合作。因而其研究的侧重点就是如何把信息表示为计算机能够理解和处理的形式,即带有语义。语义Web主要基于XML和RDF/RDFS,并在此基础上构建本体和逻辑推理规则,以完成基于语义的知识表示和推理,从而能够为计算机所理解和处理。在语义Web的研究中,知识表示、本体论、智能主体等都是其重要的研究内容,它们都是不可分割的。 本文首先对语义Web的体系结构、数据模型、OWL的知识表示等和本体(Ontology)作为在知识层提供知识表示、知识推理的方法及其应用进行了研究;另外,以RDF(Resource Description Framework)和RDFS(RDF Schema)为元数据的描述方法,OWL作为本体描述语言,将元数据表示为叁元组,并扩展RDF和RDFS的关系类型,在关系上加上语义信息,建立元数据之间的概念层次树和概念语义网络图,研究其中的包含、对称、传递、逆等关系的知识推理和知识获取算法,并扩展了OWL本体描述语言,增强其在规则表示等方面的能力;其次考虑语义网络是人工智能领域中表达能力强且灵活的知识表示方法,在知识推理方面也逐渐成熟;本文对RDF到语义网络语言SNetL的转换进行了研究;并且了研究描述逻辑(Description Logic)的理论及在语义Web中知识表示及推理的应用;在以上研究基础上,结合常用软件知识领域,建立常用软件信息模型,构建了该领域的本体框架,研制出常用软件信息领域智能知识发现实验系统。最后提出了今后的研究方向。

何超[4]2014年在《基于数据挖掘的企业竞争情报智能分析研究》文中认为随着知识经济时代的来临和经济全球化、信息化、网络化的快速深入,市场竞争日益激烈,企业间的对抗不断升级,影响企业经营活动的内外部因素更加难以预测。因此,企业要在如此残酷的竞争环境中求生存、谋发展,除了增大资金、技术、人才的投入以外,更重要的是面对激变的环境能够及时有效地做出正确的竞争策略。竞争情报作为知识经济时代企业保持竞争优势的战略资源和分析与预测行业发展态势、制定科学战略决策的依据,是被公认的除资本、技术、人才之外的企业“第四核心竞争力”。它是关于竞争对手、竞争环境以及由此引出的相应竞争策略的决策性知识,有助于帮助和支持企业组织成员评估关键发展趋势、跟踪正在出现的不连续性变化、把握行业结构的进化以及分析现有和潜在竞争对手的能力及动向,为企业保持和发展相对竞争优势提供强有力的智力支持和情报保障。基于数据挖掘的企业竞争情报智能分析吸收了情报学、商务智能、知识管理、现代竞争理论等学科的研究成果,并以众多高新信息处理技术为支撑,如本体工程、数据仓库、可视化技术等,为企业竞争情报的智能挖掘、分析、获取、创新及企业决策提供智力支持。本文的研究工作主要包括八章:第1章,本章主要介绍了企业竞争情报的基本概念、特征和功能,分析了当前知识经济环境下企业竞争情报分析的主要内容与分析方法,探讨了企业竞争情报的分析策略与价值增值过程,并给出了基于数据挖掘的企业竞争情报智能分析的优势。第2章,本章主要将数据挖掘技术融入企业竞争情报智能分析之中,构建了基于数据挖掘的企业竞争情报智能分析的体系框架,并从支撑理论与技术、智能分析策略与方法、智能分析结果可视化叁个层面对该体系框架进行了详细的阐述。第3章,本章主要是通过构建领域本体实现企业竞争情报源数据的语义组织,研究了企业领域本体的构建方法与实现,即综合应用知识工程与叙词表方法指导领域本体开发;复用Enterprise本体与TOVE本体的领域知识和概念模型构建领域本体框架,利用本体开发工具Protege对软件企业领域本体进行形式化编码,以便为后续的基于语义的数据挖掘与智能分析提供语义知识。第4章,本章主要从聚类挖掘的角度研究了企业竞争情报聚类分析的方法与算法,即针对传统的聚类挖掘方法与算法由于缺乏语义而导致聚类结果不理想等问题,通过利用领域本体提供语义知识进行语义层面的聚类挖掘,实现企业竞争情报语义聚类挖掘与分析;并以k-means算法为基础,设计了基于领域本体的k-means语义聚类挖掘算法Onto-kmeans,通过在WEKA上进行对比实验验证了该算法比传统的k-means算法有较大的优化。第5章,本章主要从分类挖掘的角度研究了企业竞争情报分类分析的方法与算法,即针对传统的分类挖掘方法与算法存在缺乏语义和需要大量人工标注等问题,通过利用通用本体与领域本体提供语义知识进行语义层面的分类挖掘,实现企业竞争情报语义分类挖掘与分析;设计了基于领域本体的语义分类挖掘算法Onto-TC,通过在WEKA上进行对比实验验证了该算法的有效性。第6章,本章主要从关联挖掘的角度研究了企业竞争情报关联分析的方法与算法,即针对传统的关联挖掘方法与算法由于缺乏语义而导致的I/O负载重、算法开销大、获取的规则概括性不强等问题,通过利用领域本体提供语义知识进行语义层面的关联挖掘,实现企业竞争情报语义关联挖掘与分析,并以Apriori算法为基础,设计了基于领域本体的语义关联挖掘算法Onto-Apriori,通过在WEKA上的对比实验验证了该算法比传统的Apriori算法有较大的优化。第7章,本章选择软件企业为实验对象,通过采集网络信息源作为实验数据,从中挖掘和分析影响软件企业竞争力的影响因素等情报内容。首先,通过语义聚类分析获取影响软件企业竞争力的八个主要因素;然后,以这些因素作为分类标准,利用语义分类分析进行两次分类分析,获取每个主要因素的具体影响要素;最后,通过语义关联分析获取这些主要要素和具体影响要素之间的语义关联,这些要素及其关联信息有助于软件企业核心竞争力的培育和市场风险的预测。第8章,本章对全文的主要内容进行了系统总结归纳以及对未来研究进行了展望。首先,从研究意义、研究内容上对全文进行总结,然后展望基于数据挖掘的企业竞争情报智能分析今后的研究方向,包括复杂数据类型的情报挖掘与分析、可视化情报挖掘与分析、动态情报挖掘与分析、以知识为中心的大数据挖掘与分析等。本文系2012年度教育部博士研究生学术新人奖项目“基于数据挖掘的商务情报分析方法研究”(项目批准号:5052012104001)、国家自然科学基金项目“企业竞争情报分析模型与方法研究”(项目批准号:71073121)和教育部人文社科重点研究基地重大项目“基于智能信息处理的知识挖掘技术及应用研究”(项目批准号:08JJD870225)资助的研究成果之一。

徐雷[5]2014年在《本体网络结构及其演化研究》文中研究指明本体具有共享与重用的优良特性,做为语义Web的核心和知识组织的手段,近年来,其在科学研究与实际应用中被越来越广泛的采纳和使用。然而,伴随着互联网和语义Web的研究与发展,本体等语义数据的数目越来越多。一方面,由于存在本体构建泛滥的状况,各个本体构建机构声称权威,导致本体质量参差不齐。另一方面,由于领域的差异与发展,导致目前的本体规模也越来越大,给本体的理解、重用等带来了新的挑战。同时,领域知识和需求的变化,使得本体处在不断的演变过程中,导致对本体的认识需要用动态的视角来审视,也给本体的演化管理活动带来了困难。在这样的环境下,本文使用复杂网络分析技术从叁个角度来研究本体网络拓扑结构的复杂性及其演化规律,即本体网络拓扑结构描述、本体网络模块化和本体网络演化代价叁个层面,来进一步加深对本体结构的理解,同时为本体重用提供模块化方法与技术,对本体的演化代价及管理活动进行指导。本文通过分析探索本体网络研究与传统复杂网络研究领域的异同,指出本体网络拓扑结构复杂性的独特性。通过设计新的本体形式化方法,将本体表示为具有精确语义的概念网络,指出本体是一个具有语义内涵的含有多重边和环的具有k种关系的n型层次复杂网络。并从本体词汇分布、本体网络度分布、本体网络集聚系数、本体网络最短路径长度、本体网络的层次体系等角度来度量本体网络的结构复杂性。实证研究发现OWL本体的词汇分布呈指数分布,并验证了大规模本体网络服从幂律分布,具有无标度特性,且幂律曲线可能伴随震荡现象,集聚系数很小,不具有小世界特性;同时指出大规模本体网络的层次体系是一个扁平球形的形状,而不是金字塔结构体系,叶节点概念占很大的比例,继承关系占主要地位,大部分节点只有出度而没有入度;分析结果说明了节点的度并不是衡量节点领域重要性的绝对指标,节点度高的值集中在本体层次体系的中上层,本体网络的聚-度分布具有无标度特性,验证了本体网络的层次性;本体网络的最短路径分布先递增后递减;另外本文设计了计算本体概念节点比例深度的方法,发现绝大部分非继承关系位于本体比例深度的底层、层次体系的中间层,且随着本体层级的升高,同一节点度的节点数先增加后减少,不同节点度的层次分布曲线相似;本体模块相对于本体概念节点的研究视角更大,在本体模块化的研究中本文指出传统本体模块化方法以及网络社区检测方法在本体模块化操作中的不足,其模块划分结果不具有可比性且这些方法在实际的模块化过程中很少考虑本体网络的语义特性。因此,本文设计了融合本体拓扑结构及语义内涵的本体模块化方法,该方法可适用于本体重用、本体推理、本体可视化等多个场景,且具有很强的灵活性,可以根据实际的应用场景来获取不同规模的本体模块。并以基因本体为模块化对象,从模块的规模、模块数、内聚度和耦合度等指标分析了本体模块的可视化效果,验证了本体模块化的作用与意义,并发现本体模块之间具有自相似性,且本体模块规模越小越趋近于星型结构。通过本体的模块化操作使得对大规模本体的分割、重用以及可视化等成为可能;本体网络演化的研究视角更为宏观,在本体网络演化的研究中本文分析了本体演化的动机及影响,以及本体演化研究的作用与意义,指出本体演化有一个复杂的生命周期过程,并且和传统的复杂网络演化模型具有很大的差异,不存在统一的本体网络演化随机生成模型;本文总结了本体演化的操作策略及子策略,并对其进行了形式化表达,同时和本体网络的中节点和弧的操作进行了映射。分析了GO中演化操作的策略类型,进一步发现本体演化操作的复杂性。本体中不同的演化操作会造成不同的扩散效应,且不同的演化需求会产生差异很大的子演化操作策略,本体演化过程不存在统一的子演化操作执行路径。本体演化对具体应用的影响是十分巨大的,如本体的演化会导致基于本体的语义标注结果需要重新修订,本体知识库需要进行修改。例如,本体概念被删除,那么该概念中的所有实例需要被删除或重新进行分配,给本体知识库的检索及应用造成了巨大影响。本文构建了本体演化的代价模型,从结构代价和应用代价两个角度来衡量本体演化操作的代价,设计了最小演化代价算法,可以根据演化需求计算出本体演化最小执行代价的演化路径。并通过GO本体进行了模型的科学性验证,说明了本文模型的有效性和优势,对本体演化操作与管理具有指导意义。

王亚彬[6]2008年在《基于蚁群算法的P2P网络知识路由算法研究》文中研究说明语义Web的发展为实现对Web异构信息的智能访问和处理提供了一个平台。对于传统Web,通过利用可视化的标记语言(如HTML)对资源进行标识,提供了用户可以理解但机器不可理解的知识信息。因此,相对于机器,传统Web缺乏丰富的语义知识信息。语义Web通过本体技术为Web资源提供了丰富的可供机器处理的语义信息,使得机器可以利用这些语义元数据进行自动化的信息访问,从而提供一种高质量的服务,弥补了传统Web缺乏语义的不足。同时,在语义Web上分布着海量的知识,因此,如何在这些海量服务和知识中按照用户的需求快速准确的定位目标知识,使服务可以灵活地满足用户的需求,实现“按需服务”,也成为迫切需要解决的问题。本文正是针对上述问题,结合国家自然科学基金《知晓内容和环境的本体知识路由研究》,利用语义Web、P2P网络相关技术、蚁群算法等知识,提出了一种在P2P网络环境下基于蚁群系统的知识路由算法。语义Web的目标是使得Web上的信息具有计算机可以理解的语义,满足智能软件代理(Agent)对Web上异构和分布信息的有效访问和检索。P2P网络是一种分布式和开放性的网络环境,而蚁群算法的最大特点就是具有很强的适应性和鲁棒性,适合于P2P环境。文章从系统学的角度详细分析了基本蚁群算法在分布式计算、自组织、正反馈等方面的系统学特征,并从TSP的角度对基本蚁群算法的数学模型进行了深入分析。基于蚁群的知识路由算法就是在基本蚁群算法的基础上,结合P2P网络环境的要求对算法进行了改进,并结合语义Web本体技术,使算法能够在P2P结构的虚拟语义社区中实现知识路由。文章在对基本蚁群算法详细分析的基础上,给出了基于蚁群系统的知识路由算法的详细执行过程,并对算法执行中出现的一些问题进行了分析,针对每个缺陷提出了相应改进方法,通过模拟实验证明改进是有效的。最后,文章论述了e-Learning教学平台中作业子系统的设计和实现,以及基于蚁群的知识路由算法在该系统中实现的功能。

鲍玉来[7]2018年在《基于领域本体的蒙医药学知识库构建与知识发现研究》文中认为我们已经从信息时代走进了“数据驱动”的“智慧时代”,数据的资源化已成为知识服务重要发展方向。对信息资源语义化和深度挖掘的需求,将提供焦点问题发现、为信息找用户相交的发现性服务也将是知识服务的又一趋向,基于用户的特定需求,对信息资源中的隐含信息进行智能提取,将转换的可理解、可利用的信息提供给用户,协助用户进行问题分析与处理。随着语义网概念的提出,具有语义描述能力的本体技术获得了广泛关注。本体技术是一种常用的语义网络知识表示方法,其设计理念是将领域知识表示为带标签的图,其中节点表示领域概念,边表示概念之间的语义关系。语义网络因其简单、灵活、丰富、易读等优点,在计算语言学、生物学、医学等诸多领域得到广泛应用。WordNet、UMLS、SNOMED CT等大型术语系统都体现了语义网的基本思想。应用本体技术描述和揭示蒙医药学基础理论、疾病、症状、症候、方剂、药材、药性、药味、诊疗方法等资源之间的语义关系,构建知识库,是实现蒙医药学资源语义检索、语义推理和知识发现的有效途径。本文选择重要的蒙医药学文献,其中包括权威工具书、蒙汉文古籍、现代图书、期刊论文、学位论文等数据源,建立蒙医药学基础数字文本集。根据蒙医药学的特点,参照国际标准中医药学语言系统语义网络框架(ISO/TS17938:Semantic Network Framework of Traditional Chinese Medicine Language System,下简写为TCMLS-SN),探索建立蒙汉双语的蒙医药学概念语义分类层次模型和语义关系模型。根据语义模型提出了一种词向量包(Word Embedding)的语义标注算法进行基础数字文本集蒙医药概念的分类标注,建立蒙医药学基础概念库,并在此基础上构建蒙医药学领域本体,开发蒙医药知识库原型系统。主要研究包括:(1)蒙医药文献预处理根据领域专家的推荐选择蒙医药学重要的古籍、现代论着、权威工具书、期刊论文、学位论文为数据源。利用内蒙古大学图书馆建立的蒙古文古籍数据库、蒙古文现代图书数据库和中国基本古籍库等全文数据库收集数据源的数字文本。对无法获取数字文本的印本文献进行扫描OCR识别、校对,建立基础数字文本集。(2)蒙医药领域概念体系模型蒙医药学有着自己独特的理论体系。蒙医药学以阴阳五行、五元学说理论为指导,贯穿了人与自然的整体观。蒙医学把“五行”(或五元)凝练为“叁因学说”,即赫依、希拉和巴达根。“叁因学说”是蒙医学的理论基础,用来阐释一切生命活动、病理过程,指导着诊断与治疗的实践。结合蒙医药理论和实践特点,参照TCMLS-SN,从语义层面上对蒙医药领域概念进行分类,定义蒙医药领域概念语义类型(Semantic Type)和语义关系(Semantic Relation)。定义蒙医药语义类型,其来源包括:(1)蒙医药领域的特色概念,如“叁根”、“七素”、“六基症”“黑脉”、“白脉”“放血疗法”等;(2)与中医药领域的概念等同概念,如“脏腑”“腧穴”等;(3)通用概念,如“症状”、“症候”、“病因”、“病机”、“药用物质”等。在最顶层分为“实体(Entity)”和“事件(Events)”两大类,并由此展开其层次结构,形成蒙医药领域概念语义模型。(3)蒙医药学文本挖掘应用中科院信息研究所的NLPIR汉语分词系统和内蒙古大学模式识别与人工智能实验室的蒙古文分词系统对数字文本进行分词处理,分割出基础词汇,建立基础词库,在基础词库基础上,本文提出了一种基于词向量包的方法进行词汇的分类和语义标注,生成蒙医药基础概念集。(1)词向量生成。根据上节定义的蒙医药学语义类型及语义关系集,将分词得到的基础词库中词汇识别分类为上述语义类别和语义关系集中的一种或多种,即把文本中的所有词汇标注一种或多种语义类型或语义关系标签。采用词向量技术来表示文本中的名词语义概念,并通过机器学习算法训练生成文本标注(分类)识别模型。(2)蒙医药学概念语义标注模型。词向量生成后,采用机器学习的经典分类模型k近邻(KNN)来实现概念的分类任务,即把每个语义名词分类为蒙医药学语义类型和语义关系集中的一种或多种标签。(3)蒙医药学领域概念集基础词库在经过分类和语义标注形成了蒙汉文双语的蒙医药基础语义概念集。课题将通过领域专家咨询法和《蒙古语语义信息词典》等工具对其进行优化,形成蒙医药学蒙、汉对照的语义概念词库。(4)基于概念格的蒙医药学领域本体构建在获得了蒙医药学基础语义概念词库后,构建蒙医药学领域本体的思路为:在语义概念词库的基础上依据骨架法的流程,明确本体构建的目的和范围;针对蒙医药域特点采用自顶向下的方法分析领域本体,然后参照蒙医药理论体系,通过领域专家的参与,建立起概念间的属性关系和实例添加;最后选择适当的形式化语言表示本体。(5)蒙医药领域概念语义检索与推理本体构建为语义推理建立了基础。课题将以蒙医药本体提供推理事实为的基础,利用SWRL(SemanticWebRuleLanguage)规则语言和Jess推理引擎来实现诊断推理和方剂推荐。例如:在蒙医药诊疗实践中,医生通过对病人观察、病人口述病情结合现在医学的一些检查化验结果来得知病人病情。病人的病情状态总结为蒙医的症状、脉象和舌象等。通过这几个概念来确定患者证候,针对证候开具药方。在蒙医领域本体中则涉及3个重要概念的类及其下位概念:症状(包括主要症状、次要症状、脉象、舌相);证候和方剂。(6)蒙医药学知识库构建将面向蒙医药临床诊疗、教育教学和科学研究等实际需求,进行蒙医药领域知识库的开发。在上述研究基础上,通过系统开发,将各类算法集成,实现基于领域专家干预的本体的演进和迭代。并在HP实验室Jena本体工具集基础上进行研究和开发,使其适合蒙医药领域本体的存储、查询与推理。知识库将涵盖所有蒙医药领域的语义类型,具有语义检索与推理、知识可视化呈现、诊断辅助、误诊提示等功能实现领域文献到领域知识的转化。主要创新点如下:本论文创新点主要有以下叁个方面:(1)基于文献数据挖掘定义蒙医药学领域语义概念集,采用形式背景分析的理念构建蒙医药学领域本体语义系统本文根据蒙医药理论体系特点,在语义层面上对蒙医药领域概念进行语义类型和语义关系集的定义。并通过文献数据挖掘,将领域概念进行分类标注,构建蒙医药领域语义概念集。在此基础上,采用形式背景分析的理念构建蒙医药学领域领域本体语义系统,该语义系统既可充分揭示蒙医药学领域概念间的语义关系,同时在一定程度上消除不同文献典籍中概念不规范、不统一而产生的概念歧义。(2)基于等同语义的蒙汉双语本体构建实现蒙汉概念的语义互联本文根据OWL的语义定义规则,提出等同语义的双语构建模型。模型定义包括等同类、等同对象属性、等同数据属性、等同个体4个等同语义形式。通过对本文第叁章所获得的蒙医药领域概念的层次结构建立相应的类Class、子类subClass和个体Individuals。通过对类和子类的Equivalent class的属性和个体的Same Equivalent class As的属性控制,实现蒙汉概念的语义互联。(3)设计和开发蒙医药学知识库的原型系统,实现蒙医药学知识库的语义检索与知识发现面向蒙医药学领域临床诊疗、教育教学和科学研究等实际需求,设计和开发蒙医药学领域知识库原型系统,利用Jena推理引擎实现诊断推理和方剂推荐。

刘健[8]2017年在《数字图书馆资源聚合与服务推荐研究》文中指出大数据环境下,以数字化存储与呈现、网络化检索与获取为特征的数字图书馆,成为集用户获取知识、传播知识、交流等多功能为一体的知识集散中心。各种数字对象(知识作为一种对象,可以表现为各种文献、事实/科研数据、数据库、知识库和知识体系)构成了可充分集成关联的数字图书馆领域的大数据环境,数字图书馆资源规模化增长是不可逆转的客观事实。随着数字图书馆资源的迅猛增加,以及智能技术的普及,推荐服务的智能化和个性化已经成为服务推荐发展的趋势。然而传统的个性化服务已经无法满足用户需求以及数字图书馆的发展。一方面,用户需求越来越复杂,如何准确描述和充分挖掘用户的个性化复杂需求,根据用户需求向其进行资源服务推荐成为难题;另一方面,数字图书馆资源数量巨大,如何有效对海量资源聚合并支持高效检索和推荐,充分挖掘数字图书馆资源内在的语义联系成为关注重点。数字图书馆资源"聚合"旨在发现资源之间及其内在的语义关联,通过系统汇聚、挖掘利用、有效整合多源异构的数字图书馆资源,构建一个内容相互关联、多维度、多层次的资源体系,形成集概念主题、学科内容和科研对象为一体的立体化知识网络;服务推荐作为一种有效的智能化信息过滤技术,能够结合数字图书馆资源的内容特征,通过对用户的兴趣偏好和资源访问行为进行自动分析与挖掘,主动向用户推荐满足其需求的数字图书馆资源。可见,基于数字图书馆资源聚合实现服务推荐已成为满足用户精准化需求的重要途径。本文以领域本体、数据挖掘、复杂网络理论及分析方法等技术和方法为基础,借鉴相应聚合及个性化推荐的成果,提出了面向用户复杂需求的资源聚合方法与服务推荐技术,为数字图书馆资源服务推荐提供相应参考。主要研究内容如下:(1)界定了数字图书馆资源聚合及服务推荐概念,分析了数字图书馆资源聚合同服务推荐之间的关系。数字图书馆资源聚合是服务推荐的基础,服务推荐是数字图书馆资源聚合的目标。服务推荐又从用户需求方面引导聚合的质量,更进一步揭示了学科领域的知识结构与发展规律,从而能够在提高数字图书馆资源聚合能力和效率基础上满足用户个性化需求、提升服务推荐效果。(2)阐述了数字图书馆资源语义化概念,分析了数字图书馆资源语义化、语义关系以及数字图书馆资源的文本语义距离。语义概念和语义关系构成了数字图书馆资源聚合的基础,将领域本体看做由节点(语义概念)和弧线链(语义关系)组成的带有标记的有向网络。基于复杂网络理论对其进行分析,深度揭示概念之间的网络关系,进而挖掘、建立、利用资源之间的联系,将繁杂、无序的内容通过聚合以呈现关联性。(3)对数字图书馆资源聚合的特征、维度等问题进行系统研究,综合运用复杂网络理论及其指标、语义相似度计算等理论方法和工具,构建了数字图书馆资源聚合模型。总结了数字图书馆资源聚合的特征:数字图书馆资源聚合对象的多元化、数字图书馆资源聚合方法的多样化、数字图书馆资源聚合维度的立体化以及数字图书馆资源聚合过程的动态化。在此基础上,提出了数字图书馆资源聚合模型。该模型框架包括数据资源层、资源语义化层、资源聚合层、应用层四个层次,即从数字图书馆资源甄选及资源语义化(微观)到资源的系统汇聚(中观)再到资源的深度挖掘与利用(宏观)。(4)分析了基于维基百科构建的领域本体的网络结构,结合复杂网络指标中的度、集聚系数等指标测度提出了重要节点识别方法,以此作为聚合的基础。依据D-S证据理论,在识别框架(high,low)下构建基本概率分配函数,表示节点重要性程度,通过D-S证据理论合成公式进行合并,以概率的形式对节点重要性进行量化,并得到节点重要性的评价指标。对构建的领域本体进行分析,发掘网络的重要节点,能够为充分挖掘本体的语义信息、发现本体中的隐含知识、对特定领域的相关知识结构进行分析和呈现、解决领域知识共享等问题提供方法和参考。(5)通过改进基于本体的语义相似度计算方法以及基于《同义词词林扩展版》的语义相似度计算方法,提出了改进的谱聚类算法。在资源聚合中应用文本聚类分析的方法,从资源内部以及外部特征出发,利用资源聚合原理使资源呈现出集簇状,进而根据资源呈现出的层次簇状结构为之选择一种或多种合适的表示结构,从而深入地挖掘出隐含在资源之间的语义关系。(6)提出了 3种服务推荐方法:基于本体规则推理和语义相似度计算的服务推荐方法、基于关联语义链的服务推荐方法、基于谱聚类的服务推荐方法。通过对数字图书馆资源有效聚合,将资源语义化并进行语义关联,在此基础上,挖掘用户需求信息,根据用户偏好对其进行推荐。实验结果表明:在对数字图书馆资源聚合的基础上利用服务推荐方法对用户进行推荐,可以提高推荐准确性,使得推荐结果更加符合用户对于数字图书馆资源的偏好。利用本体、数据挖掘以及服务推荐等方法,对数字图书馆资源聚合以及服务推荐进行研究,为资源聚合与服务推荐的深入研究搭建了一个新的框架,从而为优化其资源再组织结构和提升知识服务能力提供有价值的参考与指导。(7)将知网文献资源作为数据源,验证了本文第4章和第5章所提出的聚合和推荐方法,从技术实现的角度采用JAVA语言和MYSQL数据库开发设计了数字图书馆资源服务推荐应用平台。该系统采用C/S系统架构,集成了本文所提出的聚合方法和推荐方法,实现了数字图书馆资源聚合及服务推荐功能。以聚合为基础为用户进行服务推荐的方法解决了传统推荐方法对用户需求挖掘不充分、冷启动以及数据稀疏等问题,实现了推荐结果与用户个性化需求的高度匹配,并提高了推荐精度,进一步扩展了数字图书馆未来开展知识服务的新视野。

沈国海[9]2004年在《基于语义网络的Web挖掘研究》文中研究表明语义Web研究的主要目的就是扩展当前的Web,使得Web中所有信息都是具有语义的,是计算机能够理解和处理的。Web挖掘使用数据挖掘技术从Web文档和服务中自动地发现和提取信息。基于语义网络的Web挖掘旨在利用Web上新的语义结构来改进WEB挖掘,反之也可以利用Web挖掘来帮助构建语义Web。 本文对基于语义网络的Web挖掘研究的一些相关技术进行了研究,内容主要涉及以下几个方面: 对于语义Web和Web挖掘的相关理论进行了总结和分析,并介绍了如何将这两种技术结合起来。 对于RDF资源描述进行语义层次分析,提出了基于语义距离的RDFMS数据层次聚类方法,并给出了具体的算法描述和实例。 对于语义Web挖掘中适合的数据挖掘技术进行了探讨,提出了可采用归纳逻辑程序设计作为适合语义化Web的数据挖掘技术,给出了如何应用这种技术的算法描述,并通过具体实例验证了这种方法对于语义化Web环境下进行数据挖掘是可行性。 最后在以上工作的基础上,结合Agent技术提出了一种语义Web知识发现模型框架,并给出了各子系统的功能描述。

姜永常[10]2007年在《基于知识构建的数字图书馆知识服务研究》文中进行了进一步梳理随着知识经济的来临,走向知识服务已成为的时代必然需求。在知识服务转型中,需要在管理机制、技术应用、资源构建和服务主体上分别向知识管理、知识技术、知识构建和数字图书馆的范式演进,而这些演进最终体现在数字图书馆知识构建的实现上。面向知识服务,我们对信息构建已有了比较系统的研究,但对知识构建的研究却刚刚开始。所以对数字图书馆知识构建和知识服务的深入研究,需要借助信息构建的理论并通过比较研究,来探讨知识构建的基本原则和机理及知识技术的应用。为此,本文从Brookes信息科学基本方程对知识构建中的信息与知识转换理论进行了解读,并对基于知识元的知识构建机理进行了理论探源,从中明确了知识元在知识构建中的核心作用和构建原则,为数字图书馆知识构建的的实施奠定了理论基础。在数字图书馆知识构建的过程中,需要知识建筑师在计算机技术和和认知理论的支持下,从文本知识结构分析中发现知识元,并结合知识构建的基本原则进行数字图书馆知识元的抽取与实体描述;按照人类知识体系结构并结合语义Web技术来进行知识元的分类标引和本体建构、表示;从而使数字图书馆的知识元库和知识仓库得以构建,并应用本体技术进行语义标注,使数字图书馆的知识组织系统得以语义互联和互操作,为数字图书馆建立了基于本体的知识推理检索机制;由于不同服务主体在知识组织上的异构性、在存储上的分布性,要求数字图书馆应建立多空间的知识网格体系结构和语义网格,来优化数字图书馆知识服务体系的知识空间、语义空间和用户空间,达到彼此互融互通,以此实现数字图书馆分布异构知识的动态智能聚合,从而实现数字图书馆知识构建的复杂任务,完成用户需求与知识库的相互理解和语义匹配。针对基于知识元的数字图书馆知识构建所具有的本体推理检索机制,文中给出了知识元本体推理检索模型,并解释了这种检索机制基于语义网实现的语义推理结构;基此,即可建立基于本体的知识检索框架,并通过数据模型检索、语义检索和基于规则的推理检索这叁种检索模型来实现一个多层次的知识检索目标。最后,经分析得出基于知识构建的数字图书馆具有知识发现、知识创新、知识导航、知识挖掘和知识评价等服务功能;并以实际应用中的CNKI网格资源共享平台为实例,在了解该平台结构的基础上,祥细地剖析了其知识构建程度,指出了基于CNKI平台的数字图书馆知识服务功能的优势与不足,以及改进的设想。通过本文的研究,也将为CNKI平台的知识构建及其数字图书馆知识服务功能最终实现带来了光明的前景。

参考文献:

[1]. 基于本体技术的语义检索及其语义相似度研究[D]. 邹文科. 北京邮电大学. 2008

[2]. 政府网站信息资源多维语义知识融合研究[D]. 黄新平. 吉林大学. 2017

[3]. 基于本体的语义Web知识发现及其应用的研究[D]. 甘健侯. 云南师范大学. 2004

[4]. 基于数据挖掘的企业竞争情报智能分析研究[D]. 何超. 武汉大学. 2014

[5]. 本体网络结构及其演化研究[D]. 徐雷. 武汉大学. 2014

[6]. 基于蚁群算法的P2P网络知识路由算法研究[D]. 王亚彬. 太原理工大学. 2008

[7]. 基于领域本体的蒙医药学知识库构建与知识发现研究[D]. 鲍玉来. 吉林大学. 2018

[8]. 数字图书馆资源聚合与服务推荐研究[D]. 刘健. 吉林大学. 2017

[9]. 基于语义网络的Web挖掘研究[D]. 沈国海. 合肥工业大学. 2004

[10]. 基于知识构建的数字图书馆知识服务研究[D]. 姜永常. 黑龙江大学. 2007

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

基于本体的语义Web知识发现及其应用的研究
下载Doc文档

猜你喜欢