基于数据挖掘的企业竞争情报智能采集模型研究_数据挖掘论文

基于数据挖掘的企业竞争情报智能采集模型研究,本文主要内容关键词为:模型论文,数据挖掘论文,智能论文,企业竞争情报论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号:G350文献标识码:A文章编号:1007-7634(2007)10-1575-04

随着信息技术的发展,企业竞争情报工作者面对的现实是信息源纷繁芜杂,数据结构多种多样,数据量海量增长。

如何对这些数据和信息进行深层次的分析,并高效快捷地提供给用户有价值的情报呢?数据挖掘是一种从海量数据中提取有用信息和知识的新兴技术。所以,可行有效的方法是利用数据挖掘等先进的技术对这些海量数据和信息进行智能地采集、分析和处理。

本文融合数据挖掘的各种新技术来探索竞争情报的智能采集原理、方法与技术,构建了一个基于数据挖掘的企业竞争情报智能采集模型。

1 企业竞争情报采集系统分析

1.1 企业竞争情报采集系统的比较

竞争情报系统(Competitive Intelligence System,CIS)是以人的智能为主导、信息网络为手段、增强企业竞争力为目标的竞争战略决策支持和咨询系统。它应为企业赢得竞争优势提供强有力的智力支持和情报保障[1]。

竞争情报软件在情报的采集方面,提供了各种强有力的工具来自动或者辅助竞争情报人员收集相关信息,并对收集到的信息进行简单地分析处理。但这些软件尚不能满足企业的战略管理和市场竞争决策的需求,完善和创新新型的竞争情报采集理论和软件是十分迫切和重要的。为此,对国内外著名竞争情报软件进行综合比较分析,如表1所示[2]。

1.2 企业竞争情报采集系统的弊端

从以上的比较分析可以看出,各个软件在情报采集上各有优势,比如在信息收集阶段使用自动搜索技术,在情报分析阶段使用文本挖掘技术和自动摘要技术,在情报服务阶段使用自动推送技术等。但总体来看,单个软件的功能还远未达到真正的竞争情报采集的智能化。所以,由这些软件构成的竞争情报采集系统都存在这样或那样的不足,总结分析如下。

(1)没有全面地整合各种信息源。对于竞争情报采集系统来说,信息源是多种多样的,如何最大限度地整合各种信息源、提高信息的查全率,对获取全面的情报至关重要。而流行的各种竞争情报软件所支持的信息源良莠不齐,且信息源的整合力度还不够。

(2)信息收集结果质量差。这一点主要表现在信息收集的重复性、非相关性和表层化上。目前竞争情报采集系统大多是借助搜索引擎等检索工具对Internet上的信息进行自动收集和简单分析,其检索结果数量大且多为重复的、非相关的、浅层的,甚至是虚假的信息。

(3)情报采集过程缺乏协作性。情报采集过程缺乏协作性突出表现为信息收集与信息分析工作的分离,尤其缺乏自动化的分析功能。目前,借助搜索引擎自动收集的信息数量多且质量差,给信息的分析带来了极大的困难,信息的收集和分析由此而断裂。

(4)信息处理缺乏智能性。在信息处理方面,有的系统是把收集到的信息简单整理后,交给竞争情报人员进行人工定性分析和经验判断,存在较多不确定因素,结果的随机性较大。有的系统虽然采用一些简单的统计分析方法,但都是较浅层次地处理,没有将信息转化为准确的情报,更无法获取潜在的情报。大多数系统虽然可以对结构化数据实现自动筛选和去重,但对半结构化、非结构化、异构分布式数据还不能进行有效地加工。

目前竞争情报采集工作中缺乏实用高效的智能采集机制、策略及方法。利用数据挖掘等新技术探索竞争情报智能采集模型与方法就是本文的宗旨。

2 基于数据挖掘的企业竞争情报智能采集模型

2.1 数据挖掘

数据挖掘(Data Mining,DM)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含的、事先未知的有用信息和知识的过程。它融合了信息管理、人工智能、机器学习、统计学等多个领域的理论和技术。

数据挖掘过程一般需要经历以下五个阶段:问题定义、数据提取、数据预处理、数据挖掘、知识评估[3]。目前,数据挖掘主要在数据库、数据仓库、Internet、文本等信息源中进行。

将数据挖掘应用于竞争情报的采集中,能自动分析数据库、数据仓库及互联网上的数据和信息,从中挖掘出潜在的情报知识,可以实现情报采集与知识发现的自动化和智能化。

2.2 智能采集框架

针对现在竞争情报系统普遍存在的突出问题,根据数据挖掘在信息分析和知识发现中的优势,本文综合应用数据库与数据仓库挖掘、Web挖掘、联机分析处理(OLAP)及语义分析技术,构建了基于数据挖掘的竞争情报智能采集模型,如图1所示。

图1 基于数据挖掘的企业竞争情报智能采集模型

模型集成和整合了情报采集全过程的重要功能,实现信息收集、信息预处理、情报采集与知识获取的自动化和智能化。对于来自于企业内部的各种数据库、数据仓库的数据,利用数据库挖掘、数据仓库挖掘和OLAP技术进行深加工;对于来自于企业外部的主要是Internet上的信息,利用Web挖掘和语义分析技术从中挖掘竞争环境、竞争对手和客户的信息。各种方法挖掘出来的情报知识,如模式、规则、报告、方案等,一方面以可视化的方式呈现给用户,另一方面存入情报知识库供以后使用。

智能采集模型的主要部件介绍如下。

(1)信息源。信息源主要有两部分,企业内部信息资源和企业外部信息资源。内部信息资源主要从各种信息系统数据库、数据仓库和内部文本中获得,主要用于分析企业自身的竞争战略资源,如人力资源、财务状况、库存与物流情况等。外部信息资源则主要来源于行业组织网站、竞争对手网站、Internet网页、网络数据库、E-mail等,主要是了解、掌握、分析企业的竞争环境、竞争对手和客户的信息,并对企业可能面临的风险进行预警,如行业的宏观政策信息、竞争对手产量和市场占有率、客户需求与喜好等。

(2)信息收集。信息收集主要有三种方式:数据库检索、网络检索、文本检索。对于数据库和数据仓库,利用查询语言SQL、DMOL构造出的程序自动收集数据。对于Internet以上的网页信息,则由网络搜索引擎进行检索。对于文本信息,利用文本检索工具进行主题检索或内容检索。

(3)信息预处理。从各种数据库和数据仓库获取的数据中有“脏数据”——即数据有空缺、有噪声,不一致等。对于检索到的各种外部网页资源和文本资源,也存在冗余、过期、主题内容不相关等缺陷。都要进行预处理,使之满足数据挖掘的条件。预处理的方式主要有数据清理、数据集成、数据规约、信息摘要、信息分类等。

(4)智能采集。智能采集是将数据抽象成情报知识的重要步骤,对于支持多数据源多知识模式的情报智能采集模型,需要设计不同的数据挖掘引擎。本模型主要利用数据库挖掘引擎、数据仓库挖掘引擎、Web挖掘引擎、OLAP(Online Analytical Processing,联机分析处理)引擎、语义分析引擎来实现深层次的情报采集。

数据库是数据挖掘最丰富的数据源,数据库挖掘主要处理结构化的数据。

数据仓库是一个面向主题的、完整的、非易失的、时变的,用于支持决策管理的数据集合[4]。通常,数据仓库采用多维数据模型建模,因此,通过它来挖掘信息之间的联系是非常有效的。数据仓库挖掘主要是处理多维数据。

Web挖掘主要处理Internet以上的结构化和非结构化信息。它可以从Web页面的文本内容中挖掘深层次的情报知识,通过Web资源之间的超链接结构发现对象之间的关联模式,从Web日志等文件中挖掘用户的行为模式。

OLAP从数据仓库的综合式数据出发,提供面向分析的多维模型,并使用多维分析方法,从多个角度、多个侧面及多个层次对多维数据进行筛选、分析、汇总。OLAP技术是对数据仓库挖掘的有效支持。

语义分析是利用计算机对信息源的语义内容进行自动分析,进而实现信息的自动摘要、自动分类。其主要用于信息抽取、文本分类等。语义分析是语义知识挖掘的新技术,支持所有资源的内容挖掘。

2.3 主要的智能采集方法

(1)数据库和数据仓库挖掘。数据库和数据仓库挖掘的主要方法有概念描述、关联分析、分类和预测、聚类分析等,下面讨论概念描述和关联分析方法。

概念描述是指对数据集的概貌的描述,包括特征描述和比较描述两种。特征描述是从数据集中提取有关这些数据的总体特征,即一般性特征。而比较描述则是描述两个或更多的数据集之间的差异性,即特殊性[5]。具体步骤如下:①数据收集:通过查询,收集目标类和对比类数据;②属性和维的相关分析:识别属性和维的集合,若有多个维,则解析比较之并对其执行相关性度量;③删除属性:使用选定的相关分析度量删除不相关和弱相关的属性;④特征描述:用一组指定的属性概括阀值进行概括,产生特征描述;⑤比较描述:通过目标集和对比集的度量结果,产生比较描述。

关联分析是分析隐含在数据之间的相互依赖关系,描述事物之间相互关联规律的过程。若两个或多个数据项的取值重复出现且概率很高,则它们就存在某种关联,可以建立起这些数据项的关联规则。

关联规则有多种分类方法,根据规则中所处理的值类型可以分为布尔关联规则和量化关联规则;根据规则中涉及的数据维可以分为单维关联规则和多维关联规则;根据规则集所涉及的抽象层可以分为单层关联规则和多层关联规则。利用Apriori算法可以挖掘出单维单层的布尔关联规则。MAQA(Mining Associations among Quantitative Attributes)算法是一种量化关联规则挖掘算法,它将量化关联规则问题转化为布尔关联规则问题,然后利用已有的布尔关联规则算法得到有价值的规则。除此之外,其他的关联分析算法还有频繁模式树算法等[6]。

(2)OLAP。OLAP的目标是满足在多维数据环境下特定的查询和报表需求,它的技术核心是“维”这个概念。维是人们观察数据的特定角度。例如,一个企业在考虑产品的销售情况时,通常从时间、地区和产品等不同角度来深入观察。这里的时间、地区和产品就是维,而这些维和所考察的度量指标构成的多维数组就是OLAP分析的基础,可形式化表示为(维1、维2……维n、度量指标),如(地区、时间、产品、销售额)。

多维分析是指对以多维形式组织起来的数据采取钻取、切片(Slice)、切块(Dice)、旋转(Pivot)等各种动作,以求剖析数据,使用户能多角度、多侧面地观察,从而深入理解包含在数据中的信息。钻取是改变维的层次,变换分析粒度,包括向上钻取(Roll-up)和向下钻取(Drill-down)。Roll-up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而Drill-down则相反,它从汇总数据深入到细节数据进行观察或增加新维。切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个,则是切块。旋转是变换维的方向,即在表格中重新安排维的放置[7]。

OLAP有多种实现方法,根据存储数据的方式不同可以分为ROLAP(Relational OLAP)、MOLAP(Multidimensional OLAP)和HOLAP(Hybrid OLAP)。ROLAP基于关系数据库,以关系型结构进行多维数据的表示、存储与分析。MOLAP以多维数据组织方式为核心,使用多维数组存储数据。多维数据在存储中将形成“立方体(Cube)”的结构,对“立方体”的旋转、切块、切片是MOLAP的主要技术。HOLAP表示基于混合数据组织的OLAP实现,如低层是关系型的,高层是多维矩阵型的。

(3)Web挖掘。Web挖掘的主要对象是Internet上的信息,根据功能不同可以为三类:Web内容挖掘、Web结构挖掘和Web使用挖掘。

Web内容挖掘主要根据网页本身的内容资源,尤其是文本资源来挖掘,其中主要应用的是文本挖掘技术。Web结构挖掘是指对页面之间的超链接结构、页面内部结构和URL中的目录路径结构进行挖掘,揭示蕴含在文档结构信息中的有用模式,例如,识别中心和权威网页。Web使用挖掘是对Web日志文件进行挖掘,发现用户的访问模式、相似的或潜在的用户群体、频繁路径等知识。

3 结语

实践证明,数据挖掘是一种自动化的信息分析与知识发现的方法和技术。本文通过比较分析国内外竞争情报软件的特点与弊端,构建了一个竞争情报智能采集模型。该模型将数据挖掘的各种新技术应用于竞争情报采集的全过程,充分发挥了数据挖掘技术在处理海量数据上的优势,实现信息收集、信息预处理、情报采集与知识获取的一体化、自动化和智能化。这种新理念、新方法与新技术的应用,将是提高竞争情报采集系统的智能性的有效途径,也必将成为竞争情报系统未来的发展方向。

标签:;  ;  ;  ;  ;  ;  ;  ;  

基于数据挖掘的企业竞争情报智能采集模型研究_数据挖掘论文
下载Doc文档

猜你喜欢