融合本体和上下文知识的企业竞争情报分析算法研究,本文主要内容关键词为:上下文论文,本体论文,算法论文,知识论文,企业竞争情报论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
竞争情报是知识经济时代企业保持竞争优势的战略资源和分析与预测行业发展态势、制定科学战略决策的依据。目前,已被公认为除资本、技术、人才之外的企业“第四核心竞争力”[1]。随着Web2.0和语义Web的快速发展和普及,网络信息资源日益丰富并逐渐成为企业竞争情报分析和获取的最重要的信息来源,Google、微软、百度等企业纷纷提出“Internet is database”的观点,即未来企业所需的信息、知识和情报都可以通过网络获取,企业竞争优势的保持和核心竞争力的培育很大程度上取决于网络信息资源分析与获取的能力[2]。然而,由于网络信息资源通常具有高维、海量、异质异构和动态等特征,传统的竞争情报分析和获取方法,如SWOT分析法、定标比超分析法、关键成功因素分析法等定性和定量分析法,虽然可以对结构化数据信息实现自动排序、筛选和去重,但对于海量的半结构化与非结构化、异构分布式数据还不能进行有效的加工处理。此外,当前的情报分析与获取主要依靠人工方法,速度慢、效率低,无法适应网络信息资源的快速增长和动态变化,而且人工定性分析和经验判断存在较多的不确定性,导致分析结果随机性较大。主流的竞争情报系统,如TRS竞争情报系统、天下互联竞争情报系统以及赛迪数据竞争情报系统等[3],虽然借助智能代理、数据挖掘、知识管理等智能信息处理技术进行竞争情报挖掘和自动分析,但由于这些系统采用类似搜索引擎的网页搜索与分析技术,其自动分析与挖掘功能局限在信息采集和有限的数据挖掘上,仅仅实现了浅层信息的统计分析,无法获取深层情报内容和挖掘情报的潜在价值,严重影响了竞争情报的质量和情报获取的效率,并且最终分析结果是以网页或文本块的粒度来描述竞争情报信息,而企业竞争情报需要的是关于竞争对手、竞争环境和竞争策略的完整描述,两者之间存在认知上的极大不匹配[4],从而制约了竞争情报的实用性和应用效果。面对网络环境下持续增长的海量信息以及知识经济时代企业竞争压力的不断增大,传统的竞争情报分析与获取方法逐渐难以适应复杂竞争环境的动态变化和企业对大规模、高质量、深层次的情报知识需求。面对纷繁芜杂、结构类型多样的海量网络动态信息,如何利用多学科领域的先进理论与最新成果,实现竞争情报集成化、自动化、智能化以及高效化地分析挖掘,获取高质量、深层次的竞争情报,已成为当前学术界和企业界亟待解决的难题。
本文在分析、比较和综合国内外竞争情报分析与获取方法的基础上,利用本体和上下文知识从情报语义和应用环境两个方面进行语义层面的深层竞争情报挖掘和情报分析,研究了本体与上下文知识的融合实现,设计了一种基于语义决策树的竞争情报归纳学习算法进行竞争情报语义挖掘和情报知识发现。实验结果表明,该算法显著提高了情报挖掘的智能性和情报分析的准确性,在一定程度上实现了竞争情报语义挖掘和情报知识自动分析与获取。
2 本体和上下文知识的融合实现
本体对共享概念形式化的明确表示,通过提供对数据信息的一致性理解使得计算机能够正确分析和处理信息的语义,解决相同信息不同含义和不同信息相同含义之间存在的差异[5]。上下文知识是在对数据信息一致性理解的基础上解决由于应用环境和对象的不同所导致的对数据信息及其分析挖掘结果上的理解差异,提供针对具体应用环境和特定对象的特例化知识。融合本体和上下文知识进行情报分析可以实现面向特定应用环境的、更准确的深层次分析,如在情报分析的过程中可以使用本体知识来精确情报语义,使用上下文知识来约束情报分析的应用环境空间,实现面向具体应用环境的高效分析。
融合本体和上下文知识进行情报分析的首要问题在于如何实现本体和上下文知识的有效融合。通过分析相关研究成果发现:在情报分析中,本体提供的主要是领域内通用的知识,而上下文提供的是关于特定环境的特例化知识,可以认为上下文知识是本体知识在特定环境下的扩展。目前,关于本体知识的表示方法与技术,如:RDF(Resource Description Framework)、DAML(DARPA Agent Mark-up Language)、DAML-S(DAML-Service)、DAML+OIL(DAML+Ontology Inference Layer)、OWL(Web Ontology Language)等非常成熟,通过在本体知识表示方法的基础上扩充上下文知识是进行本体与上下文知识融合的有效途径。
根据文献[6]的方法,本文采用一个三元组来表示本体与上下文知识的融合模型:
M={O,C,R}
在该融合模型中,通过在本体知识表示的基础上增加一个上下文标识来表征一个由附加的多个上下文知识构成的具体应用环境,如图1所示。在情报分析过程中,通过上下文标识来识别和调用相应的上下文知识进行面向具体应用环境的情报分析,提高情报分析的针对性和分析结果的实用性。
3 基于本体和上下文知识相融合的竞争情报分析算法
决策树归纳学习是数据挖掘中常用的一种数据驱动的、无优先级别的归纳学习算法,采用自顶向下的递归方式,挖掘出以决策树为表示形式的隐含规则指导情报分析,具备很高的运算速率和准确率。其中最具影响的决策树归纳学习算法是R.Quilan设计的ID3算法及其改进版C4.5算法,具有简单易懂、易于实现等优点。常见的决策树归纳学习算法还有CHAID 算法、CART算法以及为了适应处理大规模数据集的要求和提高海量信息中知识获取的效率而设计的SLIQ算法和SPRINT算法。这些算法在进行情报分析的过程中主要通过计算特征的信息熵来选择特征,信息熵大的特征被优先选取构造决策树。但是,在计算信息熵时仅仅考虑语法层面关键词的简单匹配,没有涉及数据的语义信息和上下文环境对数据的影响,缺乏对其所包含的语义信息和具体环境的理解,导致算法缺乏一定的智能性和语义处理能力,使得情报挖掘和分析结果的实用性和针对性不强[7]。针对传统决策树归纳学习算法的不足,借鉴当前本体和上下文知识研究领域的科研成果[8-11],设计了一种融合本体和上下文知识的归纳学习算法(Inductive Learning Algorithm based on Semantic Decision Tree,ILASDT)进行语义层面的情报挖掘和知识发现。利用企业竞争情报本体提供背景知识,上下文知识提供约束机制进行自顶向下多层的知识引导和搜索过程,实现智能化、自动化、高效的语义知识挖掘。具体来说,该算法主要由四部分组成:
(1)构建语义概念树。利用本体知识对语义元数据库进行概念规范化和泛化处理,借助本体丰富的层次结构和抽取的概念及其关系或实体及其关系进行语义概念树的构建。
(2)获取基于本体的决策规则。利用构建的语义概念树,对语义元数据库中的概念或实体结点进行初步划分,并利用本体知识进行语义推理,得到基于本体的决策规则。
(3)获取基于上下文知识的决策规则。在上述获取的决策规则中,利用上下文知识进行特化,以本体知识结点为根结点,上下文知识为子结点,进行概念或实体结点的二次划分,得到基于上下文知识的决策规则。
(4)语义决策树的构建与优化。将上述两步获取的决策规则进行语义整合,选择其中没有语义重复的结点及其关系和获取的语义规则进行语义决策树的构建,并利用本体和上下文知识提供的层次结构和背景知识进行决策树的优化和完善。
算法的详细描述如下:
Algorithm 1 :
ILASDT(SDM,P,T,SDT.root)//Inductive Learning Algorithm Based on Semantic Decision Tree,基于语义决策树的归纳学习算法
Input:
SMD//语义元数据库
O(C,R)//本体库(OC表示本体中的概念集合,OR表示本体中的关系集合)
CK(CKC,CKR)//上下文知识(CKC表示上下文集合,CKR表示上下文间的关系集合)
P//用于遍历语义元数据库的指针向量
T//语义概念树
Output:
SDT//语义决策树
For each concept c and relation r in SMD
c=normalize-generalize(O,c,r);//利用本体对语义元数据库进行概念规范化和泛化处理
//构建语义概念树
If T=null,then T=initialize(root,T=φ);
T=semantic-concept-tree(c,r);
End if
End for
L=Location-best-concept(P,SMD,T);//调用Algorithm 2确定语义概念树T中最佳概念的位置
Add TL.root.children to SDT.root.children;
Classify smd by TL.root.children into groups stored in G;//smd为语义元数据库中的样本集合,G为类别集合
For each group
//如果该组中的L位置的概念为空,则说明对应的决策树不能对其进行分类,所以可以将其有关的信息移除,再用其他位置的信息进行分类
融合本体和上下文知识的语义决策树归纳学习算法,充分利用本体提供的普遍知识和上下文提供的特定知识进行语义层面决策规则的搜索和选取,决策树的构建和优化完全由本体和上下文知识决定。
4 实验结果及分析
本文采用实验分析法来验证算法的优越性。
(1)实验数据。选自UCI[12]网站提供的Monk、Balance Scale和Breast Cancer三种数据集作为实验分析的原始数据。
(2)实验环境。处理器为Inter(R)Core(TM)2CPU 4400 2.0GHz,内存2G,硬盘120G,操作系统为Windows XP,编程语言为Java(JDK 1.6.2)。
(3)实验过程与结果。在上述相同的实验数据和实验环境中利用数据挖掘与知识发现领域两种经典的决策树归纳学习算法C4.5和SPRINT作为参考算法进行对比实验。选择决策树归纳学习算法评估中常用的四个重要标准——复杂度、可理解性、效率和准确率来检验本文模型和算法的性能。其中,复杂度利用算法生成的节点数来衡量,可理解性利用算法生成的规则数来衡量,效率利用算法的执行时间来衡量,准确率利用算法的分类精度来衡量。
①不同算法在相同数据集上生成的节点数比较,实验结果如表1所示。
②不同算法在相同数据集上生成的规则数比较,实验结果如表2所示。
③不同算法在相同数据集上执行时间对比,实验结果如表3所示。
④不同算法在相同数据集上分类精度对比,实验结果如表4所示。
(4)实验结果分析。从表1~表4可以看出,本文设计的算法在复杂度、可理解性、效率和准确率等方法均优于现有的算法。主要因为融合本体和上下文知识的语义分析算法利用本体提供的普遍知识和上下文提供的特定知识来选择分析的特征及特征间关系,约束分析算法的执行层次和遍历空间,所生成的决策树由本体和上下文知识共同决定,整个过程只产生企业所需要的、针对性强的、具有综合性的深层关联规则,消除决策树中语义重复节点和“空枝”现象,提高了算法的准确率和可理解性,同时也降低了算法的执行时间和复杂度。
5 结语
融合本体和上下文知识进行语义层面的企业竞争情报分析是提高情报挖掘与获取效率和准确率以及面向具体应用环境和对象的有效方法。本文研究并设计的分析算法能够有效地结合本体和上下文知识进行语义层面的情报挖掘和知识发现,促使更具潜在价值和实用性的深层情报内容的产生。