基于数据挖掘的企业竞争情报智能采集策略研究(Ⅱ)——采集信息源的分析、选择与集成策略,本文主要内容关键词为:策略论文,信息源论文,数据挖掘论文,智能论文,企业竞争情报论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 采集信息源的分析与选择策略
在竞争情报采集工作中,情报源的合理选择与配置直接关系到情报采集的质量。如果缺乏准确、完整、及时的信息来源,即使采用数据挖掘进行深度处理与分析,也难以保证获取到高质量的情报。因此,企业在开展竞争情报采集工作之前,需要结合竞争情报源的特点,按照一定的评价与选择标准,科学选择采集信息源。
1.1 采集信息源的特点
竞争情报的本质属性是为企业竞争决策需求提供支持。面对高度竞争、动态变化的环境,企业竞争决策的制定需要综合考虑竞争对手、供应商、协作企业、环境资源以及企业内部组织等多方面的因素,因而要求竞争情报采集能针对信息源的特点实现全面的、不同层次的处理与利用。下面从信息源范围、信息源结构类型、信息存在状态和信息交流渠道等角度分析采集信息源的特点。
(1)信息源范围
1)企业内部信息源。企业内部信息源是指企业在运行过程中所积累的实时业务数据和企业历史数据等。采集企业内部信息资源的目的主要是通过采集企业自身的竞争战略资源,如研发、人力、财务、库存与物流等信息,全面了解企业自身的竞争优势和劣势。
2)企业外部信息源。企业外部信息源是指其他企业、组织和客户所产生的信息,如行业的宏观政策、竞争对手产量和市场占有率、客户需求与喜好等。采集企业外部信息资源的目的主要是了解、掌握、分析企业的竞争环境、竞争对手和客户状况,并对企业可能面临的风险进行预警。
(2)信息源结构类型
信息结构反映信息内容的相互关联和质量,结构分析便于对不同的信息结构采用不同的处理方法。一般而言,信息主要可以分为结构化信息与非结构化信息两类。
1)结构化信息源。主要包括企业内部结构化信息源和企业外部结构化信息源。企业内部结构化信息源是指企业信息化建设过程中所建立的客户关系管理系统、企业资源规划系统、企业供应链管理系统等各种信息系统所产生的数据。这些企业内部结构化数据不仅易于收集,而且易于利用数据挖掘技术进行深层次的分析,是竞争情报采集中最可靠的来源。企业外部结构化信息源主要是指网络数据库资源,它们是经过初加工的结构化信息,如上市公司证券与财务数据库、专利数据库、标准数据库等,这些专题数据库具有高度的商业价值。
2)非结构化信息源。主要包括企业内部非结构化信息源和企业外部非结构化信息源。企业内部非结构化信息源是指在企业生产经营管理过程中所产生和使用的大量非结构化信息,如各类合同、项目计划书、产品说明书、调查报告等,它们也是竞争情报采集中不可忽视的重要信息来源。企业外部非结构化信息源主要指行业组织、竞争对手、社会环境等所产生的文本信息、消息以及Web网页信息等。
(3)信息存在状态
1)静态信息资源。静态信息资源是指文档、信件、多媒体资料、静态网页和历史数据库等构成的资源集合。静态信息资源所表现出来的特征是在一定时期内其数量和内容都不会发生变化,易于被自动化搜索引擎工具所采集。
2)动态信息资源。动态信息资源的特征主要表现在资源集合中信息的数量和内容随着时间而改变。动态信息资源包含如下种类的信息:①动态页面,指Web数据库服务器动态生成的网页内容,由于页面是动态生成的,难以被传统的搜索引擎工具所采集;②实时数据,包括企业内部所产生的实时业务数据以及其他组织所提供的动态更新数据,如商务部网站实时提供有关国内外市场商品价格行情与国内外市场商品报价信息[1];③交互式信息,指利用Wiki、Blog等社会性软件平台所传递的动态信息,侧重于展现人的思想、经验和成果,具有快速反馈、及时互动、知识量大等特性。随着动态信息发布技术的发展,动态信息资源大规模增长,构成了一个具有连贯性和实时性的大型知识库,企业的竞争情报工作应重视采集这些具有潜在价值的动态信息资源。
(4)信息交流渠道
电子信息网络和人际情报网络是当今社会信息交流的两类基本渠道,所形成的信息源都是重要的竞争情报源。
1)基于电子信息网络的信息源。它泛指数字化信息资源。
2)基于人际情报网络的信息源。人际情报网络是为了更好地进行信息交流和资源利用所形成的社会关系网。它本身虽然是一种隐性网络,但可以通过特定的分析工具与平台进行显性化表示与组织,是企业的重要战略资源[2]。沈固朝教授等认为,这种显性化的人际关系信息源具有不可估量的商业潜能,从中可以挖掘出隐性连接关系,找到企业信息通畅的关键——“桥”这种信息管道,从而扩充并丰富企业的人际关系网络[3]。
1.2 采集信息源的评估与选择策略
竞争情报对企业战略决策的作用表明,情报来源必须具有绝对的可靠性与真实性。网络作为一个信息自由发布的舞台,信息类型复杂、内容繁杂、来源混杂,其可靠性与真实性已是人们关注的焦点。如果缺乏对信息源的分析、评价和选择,就会降低采集结果的可信度,影响其使用效果。面对复杂的网络环境,对于盈利性企业而言,必须引入定性与定量的方法对采集信息源进行自动高效的评估和选择,这要求能综合应用数据挖掘、网络计量、内容分析等先进理论与技术,从海量的、不确定的、动态的网络信息源中,发现可靠的、核心的、有价值的数据源。总的来说,可从如下三个角度入手:
(1)采用数据挖掘技术对网络信息源的结构进行挖掘。在信息源的评估与选择中,结构挖掘主要有两层作用:①挖掘网络信息源结构的稳定性信息。网络数据源结构的稳定性对于智能化Web内容采集具有极其重要的作用,将在很大程度上降低采集的复杂性。而一般来说,重要企业网站的设计都比较严谨,页面上的每一个内容板块甚至每一个超链接的设置都有其功能和目的,并且结构稳定,在一定程度上和企业的核心业务、经营思路等紧密相关,不轻易变化。通过结构稳定性信息的挖掘,便于找到易于执行自动采集的重要网络信息源。②挖掘网络信息源结构的“资源中心(Hub)”特性信息。根据Hub特性,可以找出网络中的权威信息源,发现与采集主题相关的价值最高的页面和关联众多权威页面的中心页面。
(2)采用数据挖掘技术对网络信息源的内容进行挖掘。在信息源的评估与选择中,对于大型信息源进行初步内容分析挖掘,可以发现有价值的信息源,利用对比分析和孤立点检测等技术对内容进行挖掘,还可确定信息源的可靠性。
(3)采用数据挖掘技术对网络信息源的访问流量进行挖掘,可以发现最受大众欢迎的核心信息源。
2 采集信息源的集成策略
从对采集信息源的分析中可知,采集信息源主要呈现出如下特点:①量大,包括企业内外部多数据源的海量信息;②分布,由于这些原始信息隶属于企业内外不同的应用系统,从而致使与某一竞争主题相关的信息呈现分布状态;③异构,不同的应用系统在数据组织、存储格式等方面存在着巨大差异。为了高效地综合利用这些分布、异构的信息源,且有利于多层次、多角度的挖掘分析,需要对采集信息源进行科学的集成。
2.1
集成的角度
集成不是对数据的简单汇集,而是在一定的指导思想下,将异构、异质、异类的信息从内容、逻辑或物理的角度进行有机的集成,构建一个全新的信息空间,便于实现多维挖掘。
(1)不同位置、不同渠道信息的集成。在竞争情报采集中,原始信息可能来自于数据库、网页、Email、电视等电子信息网络渠道;也可能来自于企业的人际情报网络。这些不同位置、不同渠道信息的有机集成往往能带来意想不到的结果,比如将来自于专利数据库中与企业未来发展有关的核心技术信息(包含专利权人姓名)和企业员工的人际网络关系信息集成,通过挖掘分析,有可能发现企业员工与专利权人之间存在关联的情报。
(2)异构信息的集成。由于采集信息源的分布性,与同一主题相关的信息通常来自于不同的应用系统,需要有机集成。比如,为提高供应链竞争优势,海尔集团曾专门采集与供应商有关的信息,包括供应商概况、供应商供货历史情况、供应商生产设备照片、供应商质量重点控制工序等众多类别的信息[4]。这些信息散布在企业内外部信息系统中,如供应商网站、企业供应链管理系统、供应商产品生产管理系统等,有的是非结构化的网页文本信息和图像信息,有的是结构化的数据库信息,需要利用信息抽取等技术,将不同结构的信息集成到统一的数据平台中。
(3)不同属性信息的集成。在静态信息与动态信息之间建立起具有一定历史继承关系的关联集成,能够连贯反映客观事物性质和运动状态,有利于挖掘事物发展的规律并预测其趋势[5]。
2.2 集成的层次
随着自然语言处理、数据挖掘、人工智能等技术的广泛应用,信息资源的集成处理也逐渐从信息层次深入到知识层次。
(1)基于信息层次的集成。该层次属于浅层次的集成,主要是从数据和信息的角度来进行集成,其目的就是为了解决分布于不同系统中的信息在结构上的不一致性。它虽然可以将异构信息源中的信息实体合并在一起,形成一个整体,解决信息源之间语法上的异构性,但是无法反映信息实体内部所客观存在着的概念和语义上的联系。
(2)基于知识层次的集成。该层次属于深层次的集成,主要是从语义的角度揭示客观存在于不同信息源中信息实体之间的关系。它以知识组织方法为指导,以信息整合为基础,以知识组织体系为支撑,通过采用本体、主题图等知识组织技术,揭示异构信息源中信息实体之间的逻辑关联,以知识网络概念体系进行集成[6]。基于知识层次的集成解决了信息源语法和语义上的异构性,集成后的信息源更有利于进一步的数据挖掘。
图1 物理集成模式
图2 逻辑集成模式
2.3 集成模式与集成方案
从整体上看,信息源的集成主要有两类实现模式:物理集成模式和逻辑集成模式。这两类模式又拥有各自不同的集成实现方案。
(1)物理集成模式
所谓物理集成模式,是指将符合竞争情报需求主题的各信息源中的信息抽取出来并按照统一的数据格式存储在同一个数据平台里,如图1所示。
物理集成模式可采用如下集成方案[7]:
1)数据仓库方案。这种方案主要将与情报主题有关的企业内部事务性数据库中的海量信息经初步的数据清理操作后,以统一的数据模式进行统一存储。虽然数据仓库方式主要立足于关系型数据库的集成,但已逐步强化对非结构化数据的管理。一般而言,在面向数据挖掘的竞争情报信息源的集成中,数据仓库集成方案的优势主要体现在对大数据量处理的稳定性、高效性以及对于企业内部全局业务数据集成的强力度性。但是,它主要是从历史的角度存储有关事务汇总信息,并且不易及时更新,难以快速集成动态信息。通过建立数据仓库来析取竞争情报在全球有众多的用户,也有不少的经验值得吸取,因此通常是大企业开展竞争情报工作的主要选择。但对于普通的企业用户而言,数据仓库的高成本投入,使其应用范围受到一定程度的限制。
2)数据迁移方案。这种方案是数据仓库的一种替代性方案,它将分布在各种数据源中的数据的精华部分萃取出来,并将其迁移到统一的数据平台中。数据迁移方案注重集成的效率,在集成前,要将那些关系太复杂、质量太差的信息剔除,只将应用率较高的数据进行统一存储。
(2)逻辑集成模式
不可否认,像数据仓库这样将所有的数据完全归集到同一个数据平台中,形成一个可以直接用于分析、决策的数据集合,更符合人们对数据集成的理解,但当这种物理集成模式受到限制时,逻辑集成就是一种更好的选择。其实,数据挖掘所关心的只是被挖掘对象在逻辑上的整体性和相关性,而并不关心数据所处的物理位置。因此可以通过一个逻辑处理层,将用于提炼竞争情报的所有原始信息按逻辑关联集中在一起。这种逻辑集成可以直接支持数据挖掘,当需要数据时,可通过逻辑处理层从不同的信息源中获取数据,形成临时的数据集合,专门用于支持特定的挖掘模型。逻辑集成模式如图2所示。
逻辑集成模式主要依靠逻辑处理层为信息源提供全局的统一数据视图,使挖掘引擎可以不受数据格式、数据位置和访问接口差异的限制,在实现过程中有多种集成方案可供选择。
1)基于链接索引的简易集成方案。这种处理思想以链接索引方式来组织相关主题的信息:通过在逻辑处理层中设置搜索机制,以数据挖掘引擎的需求为主题,对企业内外部信息源进行搜集,并将搜索结果以链接形式集中呈现。这种集成只是把具有同一主题的网页或文档数据的链接简单地放在一个集合里,集成度比较低。为了提高搜索结果的主题相关性,在检索过程中可以加强对Web信息源中Web页面链接的分析。由于Web页面链接表现出很强的主题特征,通过挖掘这些链接信息,可以获得权威网页之间的关联,获取有关竞争对手、竞争环境等的最相关的链接。
2)数据联邦方案[8]。数据联邦方案中,其逻辑处理层是一个提供了访问、分析各种分布、异构数据功能的平台,这个平台通过整合的SQL界面作为统一访问口径,并在平台的底层设置高速缓存完成相应的映射和转换工作,从而将数据格式、位置、接入协议及功能之间存在差异的各种数据库信息源以隐性的方式集成在一起,通过整合的SQL界面对查询需求进行分解,让它们分别作用于不同来源的数据。
3)基于本体的语义集成方案[9]。这种集成方案通过向非结构和结构化信息源添加机器能自动理解的结构和语义标记信息来表达对象的内部逻辑结构和含义,并在此基础上建立统一语义视图,从而将多个异构信息源中的数据整合到一个语义统一的体系中。在实现过程中,逻辑处理层通过采用本体、外覆包(Wrapper)、调节器(Mediator)等技术,先分别将各个信息源中的数据转换为通用的数据模型,如通过使用HTML Wrapper、关系数据库Wrapper将HTML文档和关系数据库文档转换为基于RDF的模型格式,然后建立各个数据模型和参考本体之间的映射关系。这种集成方式实质上是根据RDF声明,在参考本体中注册相关内容的来源,使参考本体成为一个知识内容的集成文件,并且可以通过采用基于本体的元数据发现和漫游技术,探测相关的RDF声明,自动地添加新的信息资源。
上述各种集成方案的处理能力存在强弱之分,并且直接影响着挖掘引擎的功能:从挖掘深度与质量来看,基于知识层次的集成模式要优于信息层次的集成模式;从挖掘效率来看,物理集成模式下的挖掘效率要高于逻辑集成模式。表1结合竞争情报特性和数据挖掘功能,主要从集成对象、集成模式、集成层次、集成能力、对挖掘引擎效率和性能的影响这几个角度比较各种集成方案的应用特性,在开展竞争情报采集的过程中,要结合企业实际情况,选择合适的集成方案。
3 结论
面对海量、复杂、无序的信息源,信息集成已成为竞争情报采集中必不可少的重要方法与技术。它能跨平台、跨网络、跨时空整合信息资源,能发现被人们遗忘的“信息孤岛”或宝藏,能辅助数据挖掘技术实现竞争情报的智能采集与利用。
标签:数据挖掘论文; 数据集成论文; 逻辑结构论文; 信息集成论文; 结构化方法论文; 异构网络论文; 组织策略论文; 文本挖掘论文; 关系逻辑论文; 情报搜集论文; 企业内部环境论文; 统一企业论文;