基于语义相关性的企业竞争力影响因素分析与研究_企业竞争力论文

融合语义关联的企业竞争力影响因素分析研究,本文主要内容关键词为:语义论文,分析研究论文,企业竞争力论文,因素论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

关联分析是数据挖掘领域中用来探索和挖掘特征之间或数据之间相互依赖关系的一种常用方法,旨在发现隐藏在大量数据信息间的关联关系[1]。随着互联网络的不断发展和海量数据信息的持续增长,利用关联分析进行自动化地深层情报挖掘和知识发现引起数据库、人工智能、统计学、信息检索、可视化及信息科学等诸多领域的专家学者和研究机构的高度重视,挖掘和发现的关联关系以其简洁的形式、易于解释和理解的方式捕捉大量数据信息间的重要关系,能够有效地辅助商业决策的制定和实施[2]。本文将关联分析融入软件企业竞争力影响因素的分析之中,依据本课题组构建的软件企业领域本体[3]提供语义知识,对前期聚类分析[4]和分类分析[5]所发现的软件企业竞争力影响因素进行语义关联分析,探索和挖掘这些影响因素之间的相互作用机制和影响模式。其主要工作体现在:一是针对传统关联分析方法Apriori存在缺乏语义的问题,研究了如何利用领域本体提供语义知识进行解决,并设计了一种基于领域本体的语义关联分析方法Onto-Apriori进行语义层面的关联分析,获取深层次的语义关系;二是利用设计的关联分析方法进行深层次的软件企业竞争力影响因素相互作用机制与影响模式的探索和发现,为软件企业核心竞争力的培育和市场风险的防范提供情报支持。

1 软件企业竞争力影响因素语义关联分析

传统的关联分析方法不能充分利用文本数据的语义信息而只是把文本数据看作是关键词的集合,忽略了语义的重要作用[6-7]。融合领域本体的关联分析方法充分利用领域本体提供领域知识或背景知识,可在较深层次进行数据挖掘分析,获取深层次或多层次的语义关联关系,实现文本数据语义关联分析。其优势主要体现在[8]:首先,深层次分析能够提供文本数据“更清晰”的概括。传统的关联分析算法仅仅以浅层次的统计分析和归纳产生文本数据库的特征概要,无法提供信息元素内部特征间的精确抽象,深层次分析可认为是对所有浅层次分析的综合,能够深入语义层面进行信息内容的抽象概括,实现精确化、语义化的分析与整合。其次,深层次分析的结果远小于浅层次分析结果。浅层概念整合抽象为深层概念,能够有效地精简内容特征间的关联知识集,分析结果表现为少量语义层面的强关联关系,内容和形式相似的浅层次关系将被综合性的深层次关系所代替,有助于获取概括性更强的情报知识内容。最后,利用本体关系及其逻辑推理功能对这些发现在不同概念层次上进行泛化和细化以及对某些特征项的规范化、多层次泛化和规范化的语义关联分析可以获取更有意义的结果,揭示更一般的规律,使得分析结果更具适用性和潜在应用价值。基于此,本文以经典的分层搜索算法Apriori为基础,利用课题组前期构建的软件企业领域本体提供语义先验知识和层次结构关系,设计了一种基于领域本体的语义关联分析方法Onto-Apriori进行语义层面的软件企业竞争力影响因素关联分析,探索和挖掘这些影响因素之间的相互作用机制和影响模式。

1.1 候选项集的相关性确定

Apriori算法在执行过程中需要通过逐层计算候选项集的支持度来获取频繁项集,由于候选项集的规模巨大导致算法开销较大[9]。常用的处理方法是先计算候选项集的相关性,根据该相关性进行候选项集归并,而传统的相关性计算方法,如Jaccard系数、Cosine系数、Dice系数等,由于无法利用候选项集所蕴含的语义知识进行深层次处理,导致归并结果中出现大量语义重复、浅层次的候选项集,无法为后续的频繁项集挖掘提供良好的数据基础。本文利用构建的软件企业领域本体提供领域语义知识来解决该问题,即将领域语义知识融入传统的相关性函数之中,解决相关性判定过程中语义缺乏问题,具体思想如下:

(2)根据正、负相关矩阵和支持度计算公式确定候选项集的相关性函数:

利用该相关性函数进行候选项集的相关性判定,既能够充分利用领域本体提供的语义先验知识和层次结构关系进行深层次的候选项集归并处理,又能够避免传统的相关性判定过多依赖特定训练数据集的弊端;同时将支持度计算方法融入该相关性函数之中,重用候选项集的支持度计算结果来降低相关性计算的时间开销,增强算法的执行效率。

1.2 数据库约简划分

Apriori算法每产生一个候选项集就需要扫描一次数据库以确定其支持度。由于数据库中包括大量的候选项集,在执行过程中多次不断地访问数据库,需要大量的I/O开销,尤其是随着数据库规模的变大和数据容量的递增,扫描一次数据库所需的时间也随之增加,致使Apriori算法在大型数据库中的应用受到局限[11]。为解决该问题,当前的研究主要集中在三个方面:一是利用数据划分方法,如Savasere提出的基于Partition的划分方法,其基本思想是整个数据库上的频繁项集至少在数据库中的一个分段上是频繁的,通过将数据库划分为若干小段获取频繁子项集,然后再将所有的频繁子项集进行合并得到所有的频繁项集;二是利用散列方法,如Park提出的DHP算法使用散列技术来提高Apriori算法的运行效率,其基本思想是通过压缩候选k项集的集合大小,利用散列函数和散列表进行候选项集的筛选和优化,减少算法扫描数据库的次数;三是利用采样方法,如Mannila和Toivonen等提出的基于采样的优化方法通过选取数据库中的随机样本进行挖掘,而不是在整个数据库中搜索频繁项集,即牺牲精度换取有效性。这三种方法在一定程度上都能够减少算法扫描数据库的次数,提高Apriori算法的执行效率,但散列方法需要事先构建合理有效的散列函数,采样方法在执行过程中常常会丢失一些全局频繁项集,适合于挖掘效率要求较高但准确性不太高的场所,所以这两种方法在实际运用过程中很难取得理想的效果。基于划分的方法只需扫描两次数据库,执行过程易于控制,所以本文选择基于划分的方法进行数据库约简。与传统的划分方法不同的是,本文对数据库进行约简划分不是以记录项为原则进行划分,而是利用候选项集之间的相关性进行划分,即首先将候选项映射到领域本体中,采取自顶向下或自底向上的遍历策略,根据相关性函数的计算结果和领域本体的层次结构关系进行逐层候选项的层次聚类,根据各层聚类结果对该层对应的数据库进行约简划分,从而将原始数据库划分为若干个相对规模较小的子数据库。

1.3 频繁项集挖掘

Apriori算法在频繁项集挖掘的过程中,主要根据频繁k-1项集产生候选k项集,通过扫描数据库获取每个候选项集的支持频度,利用subset函数获取数据库中所有子集,结合Apriori性质删除具有非频繁子集的候选项集,得到满足最小支持度的候选项集形成频繁项集,然后通过最小置信度对频繁项集进行过滤,获取强关联规则。这种处理方法的不足之处主要体现在:利用subset函数进行子集挖掘的过程中仅仅局限在语法层面的模式匹配,得到的结果常常是大量的、语义简单重复的浅层次关联,利用Apriori性质进行剪枝的过程中由于无法深入理解信息元素之间的潜在关联而可能将重要的强关联删除,得到的只是表层的、高度显性化的关联知识。出现上述情况的主要原因在于Apriori算法运行过程中的连接和剪枝过程缺乏领域语义知识的指导和约束,无法深入到语义层面进行信息内容的抽象概括,难以实现精确化、语义化的关联分析、连接和剪枝。本文借助构建的领域本体提供领域语义知识和层次结构关系,将每层经过约简划分后的多个子数据库分别扫描映射为树形结构进行存储,树形结构布局按照领域本体的层次结构关系进行排列,然后通过扫描该树形结构来实现频繁项集挖掘。具体思想如下:

(1)初始化树形结构的树根。假设该树根为整个树形结构的顶层,其值为空,且最小支持度为1。

(2)构建树形结构的首层节点,即频繁1关系。从领域本体的根节点进行自顶向下遍历,获取各个子数据库所对应的层次关系,并将处于顶层的候选项挑选出来赋予首层节点,排列过程中依据每个候选项的支持度从左向右进行降序排列;然后利用领域知识对首层节点进行剪枝,即利用本体关系及其推理功能判断各节点之间是否存在关联,如存在,按照其存在的关系进行修剪,如不存在,进行下层节点的排列。

(3)构建树形结构的下一层节点。选取子数据库所对应的领域本体中层次较高的候选项加入树形结构中,通过相邻节点的合并进行新节点的加入和层次扩充。在处理过程中,如果新节点与其父节点具有相同的支持度,则需要根据领域知识进行节点合并,然后再调整各层节点之间的关系布局,通过这种处理实现上层节点和本层节点的连接和剪枝。

(4)强关联频繁关系产生。递归上述过程,最终得到的树形结构中任意子节点与子节点之间构成的强关联频繁关系,且节点与节点之间的距离体现其语义强度。限于篇幅,该思想的具体描述参见本课题组前期发表的论文[12]。

2 实验设计与结果

本文的实验目的主要体现在两个方面:一是验证本文设计的基于领域本体的语义关联分析算法Onto-Apriori相对于传统的Apriori算法的有效性;二是利用Onto-Apriori算法探索和挖掘软件企业竞争力影响因素之间相互作用机制和影响模式。

2.1 Onto-Apriori算法的有效性检验

(1)实验数据。挖掘和分析软件企业竞争力影响因素的原始数据主要来源于软件企业自身的门户网站和主流媒体网站的行业频道两个方面,其主要原因在于:一是软件企业自身的门户网站通常会大量展示该企业希望客户了解的重要信息,如最新的软件产品与服务或成功实施案例以及企业经常性的合作伙伴,这些信息内容蕴含着丰富的有关企业竞争力因素的商业情报,是企业竞争力挖掘与分析的主要来源;二是主流媒体网站的行业频道所报道的内容常常涉及各个企业最新的活动信息,这些信息或是反映企业动态,或是从相关利益角度看待企业行为,或是从中立的第三方角度评论企业活动,因此,这些信息也可作为反映企业竞争力因素的重要来源。根据上述分析结果,本文利用网络爬虫抓取2005—2010年国内软件100强企业的官方网站和主流媒体网站——新浪、搜狐、雅虎等行业频道对这100强软件企业的相关报道及其评论信息,将抓取的网页经数据清洗和选择后存入文本文档中,然后以公司名为组织单位建立各个公司的文本集合,共获取有效文本25 717个,即平均每个公司抽取约260个文本,总体数据规模约为0.6G。

(2)实验环境及测评指标。实验环境选择WEKA平台下进行Onto-Apriori算法的设计与实现,同时调用其自带的Apriori算法作为基准算法进行对比实验分析。WEKA是一款免费的、非商业化的基于JAVA开发的开源机器学习与数据挖掘软件,提供的机器学习和数据挖掘算法的源代码可以通过网站http://www.cs.waikato.ac.nz/ml/weka免费获取。实验测评指标利用算法设计与分析领域常用的测评指标——复杂性、可理解性、执行效率来评价算法的性能。其中,复杂性利用算法产生的节点数来表示,可理解性利用算法产生的关联规则数来表示,执行效率利用算法的运行时间来表示。

(3)实验过程与结果。在上述相同的实验数据和实验环境下进行Onto-Apriori算法和Apriori算法的对比实验,实验过程主要包括两部分内容:

①数据集规模的变化对算法性能的影响程度。随机从数据集中抽取4种不同的记录集(25M,50M,75M,100M)在最小支持度minsup=10%下进行测试,实验结果如表1所示。

②最小支持度的变化对算法性能的影响程度。随机从数据集中抽取25M记录,在4种不同的最小支持度minsup(1%,5%,10%,15%)下进行测试,实验结果如表2所示。

(4)实验结果分析。本文主要根据Onto-Apriori算法和Apriori算法在相同实验数据和实验环境下所产生的节点数量、关联规则和执行时间的对比来评估所设计算法的有效性。

①复杂性分析。从表1和表2可以看出,Onto-Apriori算法和Apriori算法的复杂性均随数据集规模的增加而增大,随minsup的增大而降低,但总体而言,Onto-Apriori算法的复杂性远小于Apriori算法。这是因为两种算法在运行过程中,Onto-Apriori算法利用领域本体提供语义知识以及本体层次结构关系与推理功能进行语义重复节点和冗余节点的自动集成与剪枝,整个过程只产生和保留高度抽象化、概念化的深层次节点,使其复杂性随数据集规模或minsup的变化所产生的影响较弱;Apriori算法采用模式匹配的方式进行连接和剪枝,处理层次局限在语法层面,无法处理语义重复节点和整合浅层次节点,剪枝结果只是删除了运行过程中产生的具有非频繁子集的候选项集,故产生大量的冗余节点,导致其复杂性随数据集规模或minsup的变化所产生的影响较强。

②可理解性分析。从表1和表2可以看出,Onto-Apriori算法和Apriori算法的可理解性均随数据集规模的增加而增大,随minsup的增大而降低,但总体而言,Onto-Apriori算法的可理解性明显优于Apriori算法。这是因为Onto-Apriori算法在运行过程中只产生语义层面的具有强关联的频繁关系组,Apriori算法产生所有的频繁项集;随着数据集规模的增加,Onto-Apriori算法利用领域知识的本体推理功能对获取的关联规则进行语义层面的剪枝,使其产生的关联规则总数随数据集规模或minsup的变化所产生的影响不大,而Apriori算法只是利用统计方法进行大量语义重复的频繁项集进行简单剪枝,导致其产生的关联规则总数随数据集规模或minsup的变化所产生的影响较明显。

③执行效率分析。从表1和表2可以看出,Onto-Apriori算法和Apriori算法的执行效率均随数据集规模的增加而降低,随minsup的增大而增大,但总体而言,Onto-Apriori算法的执行效率明显高于Apriori算法。这是因为Onto-Apriori算法在运行过程中利用候选项集的相关性进行数据库划分,整个过程只需扫描两次数据库,频繁关系挖掘过程中,通过构建树结构将频繁关系的挖掘问题转换为挖掘树问题,且在构建树的过程中自动修剪和集成语义重复节点和浅层次节点,故执行时间较少;Apriori算法运行过程中产生所有的频繁关系组,挖掘频繁关系组需要多次扫描数据库,导致其所需时间较长。

通过上述分析可知,本文设计的基于领域本体的关联分析方法Onto-Apriori在性能上比传统的Apriori算法有较大的优化。

2.2 软件企业竞争力影响因素之间的相互作用和影响模式挖掘

利用Onto-Apriori算法对整个数据集进行语义关联分析,获取这些影响因素之间的相互依赖关系,分析结果如图1所示。

通过图1可以看出,软件企业竞争力影响因素之间的相互作用和影响模式主要表现在三个方面:

(1)内部因素之间的相互作用与影响模式。软件企业竞争力影响因素的内部因素主要包括软件产品与服务、成功案例及支持服务竞争力、企业财务实力及业务管理能力、市场竞争力、技术竞争力和人力资源管理六个方面。其中,软件企业能够提供的软件产品与相关的软件服务对成功案例及支持服务竞争力、企业财务实力及业务管理能力的影响较大,即软件企业成功案例及支持服务竞争力和企业财务实力及业务管理能力越强,能够提供的软件产品与服务越多,在市场竞争力中的竞争优势越明显。其原因主要在于用户在选择软件产品的过程中,主要依赖软件企业过去的成功案例及其财务与业务管理能力,成功案例说明软件企业提供的软件产品能够满足用户的个性化需求和时间要求,雄厚的财务实力和业务管理能力能够为后期的软件维护和技术支持提供保障,所以这三个影响因素之间呈现出很强的正相关关系。市场竞争力与软件企业成功案例及支持服务竞争力的相互关系也比较明显,其主要原因在于成功案例能够为企业树立良好的行业口碑和品牌形象,有助于市场竞争力的培育与发展。人力资源管理和企业财务实力及业务管理能力制约着技术竞争力的发展,主要因为软件行业是一种高投资、高风险的智力密集型行业,不仅需要大量的前期资金投入,而且面临众多的不确定性因素,需要拥有大量高素质和创新能力的研发人员进行开发,因此,高效的人力资源管理方法和手段、雄厚的资金支持、完善的业务管理策略成为提高软件产品技术竞争力的重要保障。

(2)外部因素之间的相互作用与影响模式。软件企业竞争力影响因素的外部因素主要包括行业/企业信息化、产业扶持两个方面。产业扶持与行业/企业信息化也表现出很强的正相关,其主要原因在于政府根据国家发展需要选择某些行业进行产业扶持时,一般会在政策环境、投资导向、基础设施建设等方面提供优惠政策和充足的资金保障,而软件行业的发展需要大量的基础设施和人才资源,通过政府机构的宏观调控,能够将有限的资源和人才集中到软件领域,推动软件行业/企业信息化的发展与普及;同样,行业/企业信息化达到一定程度时,会在多个领域和行业刺激国家经济发展和社会财富的增加,必然会引发政府的重新关注和重视,政府会继续实施相关的产业扶持政策,推动该行业健康快速发展。

(3)内部与外部因素之间的交叉作用与影响模式。内部与外部影响因素之间的相互作用与影响模式主要体现在:一是行业/企业信息化与技术竞争力、软件产品与服务、成功案例及支持服务竞争力之间的相互作用,行业/企业信息化的水平和程度不仅能够为软件产品的开发和技术研发提供可靠的基础设施保障和大量的综合性IT人才,提高软件产品的技术含量和竞争力,还能够使用户可以更好地理解和掌握软件产品的特性和使用技巧,便于软件企业与用户之间的沟通和理解。二是产业扶持与企业财务实力及业务管理能力、成功案例及支持服务竞争力的相互关系也很突出,政府的产业扶持政策能够为软件企业发展提供良好的政策环境,有利于软件企业利用有限的资源进行相关软件产品的研发;同时,政府财政及税收扶持也能够降低软件开发过程中的财务风险和成本,有利于高质量软件产品的产生及成功开发的概率。

通过上述对软件企业竞争力影响因素之间的相互作用和影响模式的分析可知,由于软件产业发展涉及国家未来的综合竞争力,不仅需要软件企业通过加强自身的技术创新能力、业务管理能力、人力资源开发能力、市场营销能力来提高软件产品的生产和研发,提高成功案例开发的概率,从整体上提高软件企业的内部竞争力;还需要政府提供优惠政策、引导软件人才的成长和发展以及建立软件产业园等有利于软件产业发展的外部环境,为软件产业的健康快速发展提供保障。

3 结语

本文针对传统的关联分析方法存在的问题和不足,依据构建的软件企业领域本体,设计了一种基于语义的关联分析方法Onto-Apriori。该方法利用领域本体指导候选项集的相关性函数的建立,利用候选项集之间的相关性进行数据库划分,利用领域本体的层次结构关系构建频繁项集的树结构,将频繁项集的挖掘问题转换为挖掘树问题。同时,应用该关联分析方法从海量开源信息中分析和挖掘软件企业竞争力影响因素之间的相互作用机制与影响模式。实验结果表明,Onto-Apriori方法比Apriori方法具有更有效的关联分析效果,软件企业竞争力影响因素之间的相互作用与影响模式不仅表现在内部因素之间、外部因素之间的相互影响,还表现在内部与外部因素之间的交叉影响。这些因素之间的相互作用与影响模式不仅能够为软件企业发展和企业竞争力的培育提供情报支持,还能够为政府机构制定扶持软件行业发展政策时提供参考。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于语义相关性的企业竞争力影响因素分析与研究_企业竞争力论文
下载Doc文档

猜你喜欢