网络竞争情报可信度评价:问题分析与研究框架_可信网站认证论文

Web竞争情报可信性评价:问题分析与研究框架,本文主要内容关键词为:可信性论文,框架论文,评价论文,竞争情报论文,Web论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

孙子兵法曰“知彼知己,百战不殆”。在知识经济和信息化时代,竞争情报(Competitive Intelligence,CI)是实现“知彼”目标的主要手段,因此竞争情报已被公认为资本、技术、人才之外的企业“第四核心竞争力”[1]。中国科技情报学会竞争情报分会2009年进行的一项调查显示,国内80%的企业都建立了竞争情报部门[2],这充分表明了企业对于竞争情报的迫切需求和重视。目前,海量的互联网网页给企业搜集和分析竞争情报提供了有利的条件(在过去十年间,整个Web的数据量已经超过了200 000TB,并仍在快速地增长),使得互联网成为用户获取竞争情报的重要来源[3]。调查表明,企业竞争情报所需的90%信息都可以从Web上找到[4]。因此,近年来研究和开发面向互联网的企业竞争情报系统成为学术界和企业界共同关注的一个热点问题。

然而,与企业迫切的竞争情报需求相比,目前国内外在基于Web的竞争情报搜集和分析方面进展甚微。尽管国内外企业推出了多款基于Web的竞争情报软件,包括TRS竞争情报系统、百度eCIS、易地平方竞争情报系统、天下互联竞争情报系统以及赛迪数据竞争情报系统等[5],但其实用性却并不被企业所认可。大多数竞争情报系统依托搜索引擎技术,通过网页搜集方式为用户提供一个网页列表作为竞争情报。这种方式只能从网页或者文本块的粒度来描述信息,而企业竞争情报分析需要的是关于竞争对手、竞争环境乃至竞争策略的完整描述,两者之间存在着认知上的不匹配,而目前尚未提出很好的解决方法,因此影响了企业竞争情报的获取效率和效果。针对已有竞争情报系统存在的问题,国内外学者提出了诸多解决思路。主要的思路是建立自动化的面向互联网的竞争情报采集系统,例如基于数据挖掘的企业竞争情报智能采集系统[6,7]、基于关系抽取的Web竞争情报获取系统[8]等。

然而,已有的工作忽略了竞争情报的一个重要问题——即可信性(credibility)问题。虚假的竞争情报将对企业管理工作和效益造成非常大的影响。举个例子,2008年10月3日上午9点,英国CNN下属的新闻网站iReport发布了一条新闻,声称苹果公司的CEO史蒂夫·乔布斯因心脏病突发去世。尽管1小时后iReport否认了这一消息并从网站上删除了此新闻,但这一虚假新闻已导致苹果公司股票大跌,短短1小时内股票价值缩水近90亿美元[9]。传统的信息提供者通常要求有一定的权威性(authority),而在互联网环境下,任何人都可以是信息的提供者,权威性不再是必须的前提。此外,大多数Web网站并不对发布的信息进行严谨的编辑审校工作,如Blog、BBS等(这与传统的新闻媒介显著不同),并且也无法显式表明发布者的权威性。同时,互联网信息的发布没有统一标准,存在大量的伪造、错误、篡改等问题。这些问题都使得用户对于互联网信息的可信性产生极大的怀疑,迫切需要可信性评价的有力工具和手段。因此,深入分析互联网环境下企业竞争情报的可信性特征并研究可信性评价方法,对于阐明互联网条件下竞争情报的理论与应用方向,提高Web竞争情报的实用性具有十分重要的意义。

本论文针对目前Web竞争情报研究中存在的问题,综述了目前Web竞争情报可信性评价的研究进展和存在的主要问题,在此基础上结合我们以往在Web竞争情报获取方面的研究经验,提出了Web竞争情报可信性评价的具体技术流程和方法,并对未来发展方向进行了展望。

论文的后续内容是这样安排的:第2节综述国内外研究现状和存在的问题,第3节讨论Web竞争情报的语义和表示,第4节论述Web竞争情报可信性评价的技术流程和方法,第5节给出Web竞争情报可信性评价未来研究方向的一些展望,最后是论文的总结。

2 国内外研究现状与问题分析

目前,国内外关于竞争情报可信性(competitive intelligence credibility)的直接研究工作还未见报道,绝大部分的相关工作都集中在信息可信性的研究上。从概念上分析,情报是信息的再生产结果,但情报的可信性与信息的可信性并不能直接等同(犹如我们不能简单地根据各个零部件的质量高低就直接判断一辆汽车的质量高低一样)。两者之间存在着某种我们尚未揭示的关联关系。目前,如何阐明竞争情报可信性和信息可信性之间的关联关系仍是一个未解决的问题。

信息可信性(information credibility)是指信息及其来源的可相信程度(the believability of some information and/or its source)[10]。信息可信性是接受者驱动的评价结果,它不仅包括了对信息质量和精确度的客观评价,也包括对信息源的可信任程度、专业程度以及吸引力的主观感知。近年来,在Web信息可信性方面的研究已日益引起人们关注。早期的工作可追溯到1999年,文献[11]率先提出了一种将名声、信誉、口碑等信任管理的社会机制引入计算机网络中以辨别信息可信度的方法。但Web信息可信性的绝大多数研究工作集中在2005年以后。

从系统层面看,目前比较著名的Web信息可信性评价系统有WISDOM[12]和Honto? Search[13]。WISDOM抽取网页信息,并按信息发送者、主要观点、对立观点等进行聚类组织,从而为用户判断某个查询主题的可信性提供参考。Honto? Search是一个Web问答系统,它允许用户输入一个事实查询语句,并给出不确定部分,然后系统将给出该事实以及类似事实在Web上的流行度(即网页聚类分析结果),为用户判断事实的可信性提供参考。这些系统的目的都是辅助用户进行Web信息可信性的判读,采用的基本方法都是为用户提供不同角度的网页聚类结果。此外,HONcode[14]和MedPICS[15]是两个应用于医疗领域的系统,其中也涉及了Web信息可信性的评价。HONcode是由非政府组织网络健康基金会(NGO Health on the Net Foundation)开发的一个系统,它可以帮助用户找到医疗领域中可信的网站(即被第三方权威信任的网站)。这种基于第三方认证的方法在医疗、电子商务等特定应用领域的网站可信性评价中已经被证明是一种有效的方法。MedPICS系统允许网站所有者对其内容进行可信度标注,然后用户可以根据这些标签来过滤他们想收到的内容,例如只接受标注值高于某个可信度的网页。

从内容层面看,研究者们通常比较关注网络新闻的可信度[16-18]、搜索引擎结果的可信度[19]以及有用户评论的网站信息的可信度[20,21]。这些工作一般都是以网页为基本单元,通过各种方法将该网页上信息的可信度计算出来。例如,Google News[16]提供了对新闻可靠性的评价,主要考虑了新闻发布者的可靠性。国内的网易等新闻网站则采用了一种投票表决的方法来让用户自己投票决定一条网络新闻的真实性。这些实际新闻网站采用的方法往往具有很强的针对性,不能作为普适的Web信息可信性评价方法。目前也有少部分工作关注Web信息质量[22]和Web信息源(而非信息内容本身)可信性评价[23]。此外,关于Web信息可信性的用户调查也是研究者关心的内容之一[24-27]。例如,2004年的一项电子商务调查表明,26%左右的美国成年人都评价或推荐过商品或者服务[24],因此在电子商务环境中,用户评论对于商品的可信度有着重要的影响。国内的一项调查也得出了类似的结论[27]。在文献[25]中,作者采用问卷调查方式对武汉市435名网民对网络信息可信度的评价及其相关因素进行了调查。结论显示,网络可信度显著低于电视和报纸(只有约25%的被调查者认为网络信息有些可信或者完全可信)。与新闻和娱乐信息相比,网民认为商业信息最不可信(超过80%的被调查者认为网络上的商业信息不可信或者说不清)。这些工作为后续开展Web信息可信性研究提供了很好的数据依据。仅从研究内容上看,国外比较关注Web信息可信性评价的方法、算法以及系统,而国内的已有工作大都集中于对Web信息可信性的定性分析[28-32],鲜有实验或者系统方面的研究报道。文献[33]和[34]中给出了采用基于模糊综合评价方法和DEA方法来评价Web信息可信性的方法,但这类传统的评价方法在Web信息可信性评价上的适用性没有相应的实验结果支撑。

从方法层面看,研究者提出的Web信息可信性评估方法主要有四类:对照表(checklist)方法、认知权威性(cognitive authority)方法、迭代模型(iterative model)方法以及可信性认证计划(credibility seal programs)。对照表方法[35]主要通过设计一个对照表并进行用户调研来确定信息的可信度。对照表方法在实践中不太可行,例如有的表格要求用户回答112个问题,耗费用户过多的时间和精力[9]。认知权威性方法[36]结合了Web信息的可信性和质量,着重于评价信息的作者声望和组织权威性、Web文档的客观准确性等要素。该模型与对照表方法类似,主要区别在于它更强调为用户提供技术工具来完成评价,而不是仅仅填写调查表格。例如,该模型建议使用Whois(可以查询域名的IP以及所有者等信息)、Traceroute(一种电脑网络工具,它可显示互联网上节点之间的路由信息)等工具来评价作者和站点所在组织的权威性。迭代模型方法[37]通过三个步骤完成评价。首先,用户根据网站的外观对总体可信性做个评价;其次,对网页内容的专业化程度、可信任度、新鲜度、准确度、相关度等方面进行评价;最后,用户对评价结果进行一个权重打分。该模型与对照表的相似之处在于它也为用户提供一系列的评价标准,其主要不同之处在于它特别强调了信息接受者在可信性评价中的重要性,并且认为可信性评价是有条件的,是依赖于个体因素的。可信性认证计划与前面这些要求用户参与到可信性评价过程的方法不同,它为用户提供某种可信性认证计划,如果某个网站通过了可信性认证计划则认为是可信网站。例如,非政府组织网络健康基金会开发的HONcode系统可以帮助用户找到医疗领域中通过可信性认证计划的网站[14]。一些组织还建立可信性分类系统来对Web网站进行评价。但由于Web信息量的剧增,目前这类系统通常限制在某些特定的领域,例如医疗领域、电子商务领域等。

总结一下,已有研究的总体现状和存在的问题为:

(1)Web竞争情报研究工作集中于获取、分析等环节,对于竞争情报的可信性问题尚缺乏深入研究。竞争情报的可信性问题是目前一个亟待解决的问题,因为它直接影响着竞争情报的应用效能。

(2)在可信性研究方面,已有工作对Web信息可信性研究较多,对Web竞争情报可信性研究甚少,尚未揭示Web竞争情报可信性与Web信息可信性之间的语义关联。

(3)对Web网站内部信息的评价较多,例如网站布局、作者、更新时间等,对网站外部信息的评价较少。绝大多数网站都处于特定的社会网络之中,因此近年来基于社会网络分析的竞争情报研究引起了许多学者的注意[38-42]。包括武汉大学的马费成教授、南开大学的王知津教授在内的众多研究者都指出,社会网络对于获取和分析竞争情报有着极大的作用。但现有的工作着重于研究社会网络的特征[40]以及进一步的人际竞争情报网络建模[41,42],如果将社会网络分析中的某些方法引入到Web信息可信性评价中,则有望提高Web信息可信性评价的效果。例如,在MySpace和Facebook等社交网络中,社团内部的评论通常比外部的评论更能反映信息本身的可信度(如个人信息等);在淘宝、亚马逊等C2C电子商务网站中,如果把购买过同一商品的用户看成一个群体,则该群体对此商品的评价通常也比其他用户更有价值。目前国内外期刊普遍采用的同行评审制度(peer review)实际上也说明了同行内部的评议应该比外行评审更能反映论文的质量和可信性。

(4)Web信息可信性评价缺乏对用户动机和用户认知能力的考虑。实际工作中,不同认知能力和动机的用户对于信息可信性评价的要求存在不同。例如,一个新闻工作者会从新闻的书写要素、行文风格等方面来评价一条新闻的可信性,而一个普通读者则可能会根据新闻网页的美观程度、有无广告链接等来进行可信性评价。再如,一个患者对于医疗信息可信性的评价要求会远远高于健康用户的需求。

3 Web竞争情报语义与表示

Web已经成为获取企业竞争情报的主要来源之一。但是,Web中究竟隐含着什么样的企业竞争情报?与传统的竞争情报源相比,Web拥有更大的数据量,同时由于Web网页更新频繁,因此Web中通常包含着最新的信息。但是,Web数据源也对企业竞争情报获取和应用提出了新的挑战。首先,Web数据的海量特性要求我们研究高效的Web数据处理方法。其次,由于安全性方面的考虑,一些企业内部资料通常不在Web上发布,比如企业内部规章制度、发展规划等信息。第三,Web数据的可信性参差不齐,容易出现不可信的数据。

根据传统的竞争情报理论,企业竞争情报通常包含竞争对手、竞争环境以及竞争战略三方面的内容。但由于在Web环境中,企业竞争战略因为安全性方面的原因通常很难在Web上找到,因此,对于Web竞争情报获取和应用而言,比较可行的策略是集中研究Web上竞争对手和竞争环境情报的获取技术。

在本论文中,我们提出了一种基于实体表示的方法来表达Web环境中企业竞争情报的语义。每一类型的企业竞争情报都表达为一个实体集合。一个实体是要素的集合。与传统的基于Web网页的表示方法相比,我们提出的方法更符合实际应用的需求,因为网页集合对于应用而言并不代表企业竞争情报,而实体表示方法则提供了结构化的更清晰的竞争情报表达。

图1给出了Web环境下企业竞争情报的实体表示框架。我们把企业竞争情报分解为一个竞争对手实体集和一个竞争环境实体。竞争对手实体集包含一个概要(profile)实体、一个事件(event)实体集和一个关系(relation)实体集合,竞争环境实体包含一个宏观环境(macro environment)实体和一个商业环境(business environment)实体。我们可以继续划分图1中的底层实体,直到每个实体可以通过一个要素集合来表示。

3.1 Web竞争对手情报的语义

竞争对手情报是企业最关注的竞争情报类型,因为竞争对手与企业在商业领域中存在着直接的竞争关系,从而会影响到企业的效益和未来发展态势。Web环境中的企业竞争对手情报包括三方面的语义(图1):概要(profile)、事件(events)以及关系(relations)。表1给出了这些要素的定义和例子。

图1 Web环境下企业竞争情报的实体表示框架

3.2 Web竞争环境情报的语义

竞争环境涉及与企业发展相关的多类信息,如国家政策、当地消费者习惯等。在本论文中,我们将竞争环境划分为宏观环境和商业环境两类实体。其中宏观环境实体包含政治、经济、社会、文化、法律、科技、自然七种子类实体;商业环境指某一特定区域中的某个特定商业领域的整体环境,它包含了以下几种子类实体:企业、用户、供应商、产品、替代产品、可能进入的新企业。图2和图3分别给出了宏观环境和商业环境的实体表示。

图2 宏观环境实体的子类实体

图3 商业环境实体的子类实体

根据基于实体的Web竞争情报表示框架,Web上的竞争对手情报和竞争环境情报表示为层次化的实体集合,而最底层的实体则表示为一个要素的集合。例如,图4给出了从Wikipedia中获取的Oracle公司的概要实体的要素。

图4 实体和要素关系的一个例子

4

Web竞争情报可信性评价

根据基于实体的Web竞争情报表示框架,我们可以采用自底向上的方法从Web中获取企业竞争情报并进行可信性评价。以竞争对手情报获取为例,首先我们构建Profile实体、Event实体集合和Relation实体集合,然后再组合这些实体来表示某个特定竞争对手的情报。因此,竞争对手情报的可信性是由所包含的Profile、Event和Relation实体的可信性来综合决定的。

对于最底层的竞争情报实体,我们将其表示为一个要素的集合。例如与某个企业C相关的事件实体可以逻辑表示为:Events(C)∷={Topic,Location,Time},其中Topic是事件的主题,Location是事件发生的位置,Time是事件相关的时间信息。竞争对手的概要则可以逻辑表示为:Profile(C)∷={Name,Addr,Tel,Fax,Email,Products,Area}。其余的实体也可以采取类似的方法构建逻辑表示结构。在Web竞争情报获取的过程中,我们应根据这一实体和要素结构,着重于抽取实体的要素信息并形成统一的实体结构,最终组合成Web竞争情报。

根据实体和要素的这种组合表示结构,我们可以通过一定的方法来评价要素的可信性,然后再通过某种机制(如后文将要讨论的SFC可信性网络模型)来评价Web竞争情报实体的可信性。这一方法可以大致归纳为如下几个步骤。

4.1 事实抽取

首先我们从Web网页中抽取某个事实(Fact),如“Oracle位于500 Oracle Parkway Redwood Shores California 94065 USA”。一个事实反映了要素和实体之间的关联关系,因此每一个事实可表示为一个关系。例如,。事实的抽取通常可以借助一些样本训练和模式匹配的方法来实现。例如,假设我们通过样本训练得到了如下模式:

[Acompany] is located in [some address]

则我们可以利用此模式对Web网页进行分析,并依据此模式抽取出网页中所有具有类似地址信息的事实。

另一种可行的方法是将Web网页表示为DOM树结构,然后通过实体识别和距离测量的方法来抽取事实,即首先构造网页的DOM树结构,然后识别DOM树叶节点中的命名实体,最后利用各个识别结果在DOM树中的邻近关系来抽取事实[8]。例如,在图5的例子中,我们首先利用一定的规则抽取出两个实体“安徽商之都有限责任公司”和“华电超市股份有限公司”,以及两个地址“安徽省合肥市宿州路8号”和“合肥市青年路19号”,接着利用它们在DOM树中的邻近关系构建出相应的事实“<安徽商之都有限责任公司,Located_In,安徽省合肥市宿州路8号>”和“<华电超市股份有限公司,Located_In,合肥市青年路19号>”。这里,公司名称和地址信息的识别可以借助现实世界中的规则来实现,比如公司实体通常最后的字符是以“公司”、“集团”等结尾,而地址则通常出现在网页的脚注中,而且通常具有很强的模式特征,如“××市××路××号”。

图5 基于距离测量的网页实体关系抽取示意图

4.2 事实可信性评价

事实可信性评价与传统的Web信息可信性评价有类似之处,因此也可以采用传统Web信息可信性评价中的一些方法,如基于Web网站的权威性、发布时间等。本文提出了一种新的基于时空演化的事实可信性评价方法。这一方法与传统方法的不同之处在于,它不是根据单个Web网站的内部特征(例如发布者的权威性、发布时间等)来评价事实可信性,而是将事实与其所出现的网页的时间信息和位置信息进行关联,并通过该事实在整个网页集合上的时间演化特征和空间演化特征来评价事实的可信性。例如,对于“李开复,leaves,谷歌中国,in,2009-01”(即“2009年1月时李开复离开了谷歌中国”)这一事实,我们利用相似性匹配的方法处理所搜集的网页集合,并构建与此事实相关的网页数量的时间演化图和空间演化图。图6的时间演化图显示了不同时间里的相关网页数量的变化。2009年9月开始,与给定事实相关的网页数目快速增加,而之前几乎没有,因此可以推断“李开复离开谷歌中国”这一事件应该是发生在2009年9月左右,在2009年1月时此事实不成立。而图7的空间演化图则显示了2009年9月时网页IP位置的分布情况,它显示37.5%的相关网页来自于中国,由于事件本身的位置信息就是中国,一般来说发生地的人们关心事件的可能性更大,因此我们也可以得出2009年9月时给定事实成立的基本结论,而在2009年1月时该事实成立的可信性较低。

图6 2009年不同月份的相关网页数目

图7 2009年9月的网页IP位置统计

4.3 基于SFC可信性网络的Web竞争情报可信性评价

在Web竞争情报实体表示模型和事实抽取的基础上,我们可以进一步构建竞争情报实体和Web信息之间的可信性语义网络模型,并进而进行Web竞争情报可信性评价。通常我们可以发现,Web竞争情报实体(如竞争对手的事件信息)是由一系列的Web信息集成而来的。Web信息的可信性通常具有如下特征:

(1)可信度越高的网站,其发布的信息的可信性也越高;

(2)不同数据源之间的可信性可以通过链接相互传递;

(3)同一信息在不同数据源出现次数越多,其可信性越高。

基于此,我们可以建立一个包含Web信息(通常是一个事实)、Web网站和Web竞争情报实体在内的SFC可信性网络模型,如图8所示。SFC可信性网络模型中包含三类节点,分别是S节点、F节点和C节点。S节点表示Web站点,F节点表示Web网页中的事实,C节点表示Web竞争情报实体。节点之间存在三种类型的边。S节点到F节点的实有向边表示某个事实来源于某个Web网站;S节点之间的虚有向边表示网站之间的链接关系;F节点到C节点之间的实无向边表示事实与竞争情报实体之间的组成关系。

图8 Web竞争情报与Web信息之间的SFC可信性网络模型

图8中每个节点都具有相应的可信性值。其中F节点的可信性值可以采用前面4.2节中的方法计算;S节点的可信性值计算方法以往研究比较多,通常用站点权威性、站点信息的新鲜度、站点信息的客观准确性等进行评价;C节点的可信性值需要通过F节点上的可信性值进行计算。

图8的SFC可信性网络模型中,一个节点的可信性值可以通过有向边和无向边对其相邻节点的可信性产生影响,因此我们在计算C节点的可信性值时要考虑这种可信性传播的影响。这种传播行为在整个SFC可信性网络的所有节点之间进行。然后,将此SFC可信性网络中所有C节点的可信性值以合适的方式合并起来,就可以计算出由所有这些Web竞争情报要素所组成的Web竞争情报的全局可信性值。

SFC可信性网络模型中的可信性传播计算的主要思想是:在计算C节点的可信性值时,不仅考虑组成的各个F节点的可信性值,也考虑F节点所链入的S节点的可信性值对C节点可信性值的影响。在具体计算C节点的可信性值时,通常我们可以用加权方法。一个C节点的可信性值等于所包含的各个F节点的可信性值的加权和,即

其中Cred()函数返回节点的可信性值,是权值。F节点的权值可以根据SFC可信性网络模型中节点之间的传播关系进行定义。一种方法是可以根据节点的入链数(即在模型中指向该F节点的S节点数)来确定F节点的权值,如果一个F节点拥有较多的入链,说明该事实出现在较多的Web网站中,其可信性值相对就较高。另一种方法是在考虑F节点入链数的基础上,将每个链入的S节点的可信性值也纳入到权重计算中。如果F节点的某个链入S节点的可信性值较高,则赋予较高的权值,否则降低其权值。第三种方法是在第二种方法的基础上,将S节点之间的传播关系也结合进来,即首先通过S节点之间的链接关系对S节点的可信性值进行修正,然后再结合S节点的可信性值以及F节点的链入S节点数来综合确定F节点的权值。这种方法的优点是综合考虑了S节点之间以及S节点和F节点之间的网络传播关系。

5 未来研究展望

已有研究,包括现有的企业竞争情报系统研究,忽略了对竞争情报可信性的分析和度量,尚未阐明Web竞争情报可信性与Web信息可信性之间的关联关系,还没有提出有效的Web竞争情报可信性评价方法,从而阻碍了竞争情报系统的实际应用。作者认为,未来的Web竞争情报可信性评价将主要集中在以下一些方向:

(1)构建Web竞争情报可信性与Web信息可信性的语义桥梁。由于互联网环境下竞争情报来源的可信性差异很大,竞争情报的可信性与其所基于的Web信息的可信性之间应建立一个关联度网络模型,并建立Web竞争情报可信性与Web信息可信性之间的推理机制,从而弥补两者之间的语义鸿沟(semantic gap)。

(2)基于社会网络的Web竞争情报可信性评价。由于任何Web网站基本都是位于某个社会网络当中,因此在评价Web网站可信性时,应综合考虑Web网站内部信息及其在社会网络中的外部信息,结合网页可信性评价和社会网络中的外部评价来完成Web信息可信性评价。这种新的评价方式有望提高Web信息可信性的评价效果。

(3)用户敏感的Web竞争情报可信性评价。将用户认知模型和动机模型引入到Web竞争情报可信性评价过程中,建立用户和互联网信息之间的双向互动模型,并根据不同的用户动机选择不同的评价过程。

5.1 构建Web竞争情报可信性与Web信息可信性的语义桥梁

这部分工作要求研究者细化Web竞争情报可信性分析与评价的需求,从竞争对手、竞争环境等角度研究Web竞争情报可信性的特征以及具体评价要素,研究Web竞争情报的各个组成要素与Web信息可信性之间的语义关联关系,分析Web信息可信性与Web竞争情报可信性之间的传播机制,并最终建立表示两者之间关系的网状模型。图9给出了Web竞争情报可信性与Web信息可信性的语义桥梁研究的一个基本框架。

图9 Web竞争情报可信性与Web信息可信性的语义桥梁研究框架

5.2 基于社会网络的Web竞争情报可信性评价

根据维基百科的解释,“社会网络”(social networking,SN)是指个人之间的关系网络。在互联网上,社会网络呈现为Web网页之间的一种聚簇现象。例如,在著名的Facebook网站上,某个注册用户与其链接的朋友就形成了一个以此用户为中心的社会网络。

基于社会网络的Web竞争情报可信性评价动机源自于我们现实生活中的评价体制。通常,在现实生活中,评价某个人或者某个事物时,大家普遍认同“同行”或者“熟人”的评价意见,而对于一些外行和关系较远的人的意见则不会很重视。例如,在期刊论文评审中,普遍采用了“同行评审”制度。因此,在评价Web竞争情报可信性时,也应当引入这种机制。而社会网络则为我们提供了在Web上找到“同行”的机会。从而,我们可以首先在Web上找到关注某类竞争情报的社会网络(以此定为同行),然后再在社会网络内部进行可信性评价,以保证评价结果的可信性。由于Web上存在着非常广泛的网页引用关系,因此,某个话题可能会同时存在于多个社会网络中。所以,在完成了一个社会网络内部的可信性评价之后,再结合某种反馈机制将不同的社会网络中的评价结果进行汇总和集成。

基于以上的分析,基于社会网络的Web竞争情报可信性评价应重点关注以下内容:

(1)互联网社会网络的发现算法。一方面,研究利用现有社交网络(如Facebook、Myspace等)或者行业网络(如中国家具网、中国五金行业网等)抽取潜在企业或用户群体的算法,另一方面,研究直接利用Web结构挖掘社会网络的算法。

(2)Web网页内部信息抽取。由于Web网页中包含的内部信息类型较多,因此对于不同类型的内部信息,应建立不同的抽取方法。此外,抽取过程包含两个层次:第一层次是抽取网页的元数据信息,如网页的更新时间、IP地址、入链、外链等;第二层次是抽取网页的统计信息,如网页在Web上的流行度(类似网页数目有多少)、入链网页的地理范围(哪些城市或者地区的网页链接了自己)等。

(3)基于社会网络和内部信息的Web竞争情报可信性评价方法。主要研究从社会网络角度评价Web竞争情报可信性时需要考虑的具体要素,以及从内部信息角度评价时需要考虑的要素。同时,建立各个要素的计算模型。

5.3 用户敏感的Web竞争情报可信性评价

目前,在信息可信性评价的研究中,大都缺乏对用户动机和用户认知能力的考虑。而在实际工作中,不同认知能力和动机的用户对于信息可信性评价的要求有所不同,评价结果本身的可信性也有所差别。例如,当用户非常需要确切的信息时,他们通常会投入更多的精力来阅读和评价信息源。相反,如果用户的动机不是很强烈,那么可信性评价结果就有较大的不可信性。从而,可信性评价不仅要考虑Web信息本身的质量,还要考虑用户的因素,例如用户的时间是否充足,有无先验知识,对信息的理解能力等。

图10给出了用户敏感的Web竞争情报可信性评价研究框架。与传统的仅以信息为输入源的可信性评价不同,用户敏感的可信性评价需要同时输入用户模型和信息,并借助“用户-信息”之间的双向处理模型来完成竞争情报可信性评价过程。

图10 用户敏感的Web竞争情报可信性评价研究框架

用户敏感的Web竞争情报可信性评价中的几个具体研究问题为:

(1)用户动机和认知能力的获取。如何在可信性评价过程中获取用户动机和认知能力是用户敏感的可信性评价过程中首先需要考虑的问题。

(2)用户敏感的Web竞争情报可信性评价模型。由于将用户动机和认知能力结合到了Web竞争情报可信性评价过程中,因此需要建立一个计算机系统和用户双向互动的动态评价模型。动态评价模型的关键在于确定其评价流程以及决策方法。

6 结束语

本文针对目前Web竞争情报的研究现状,讨论了研究Web竞争情报可信性评价的必要性,从系统、方法等角度综合分析了当前Web竞争情报可信性评价的研究现状,并总结了存在的一些问题。在此基础上,讨论了Web竞争情报的语义,并给出了一个基于实体的表示框架。论文对Web竞争情报可信性评价的一些方法也进行了探讨,给出了基本的研究思路以及进一步研究的一些线索。可以预见,未来的企业信息平台将越来越依赖互联网技术,互联网也将成为企业获取数据和情报的主要来源。“情报制胜”将越来越成为企业首先的信息战略。但是,不可信的竞争情报不仅不能给企业带来决策上的帮助,反而会误导企业决策,导致战略上的失误。因此,研究互联网环境下竞争情报可信性评价的理论和方法,实现互联网虚假竞争情报的剔除和高可信竞争情报的发掘,将极大地提高Web竞争情报的实用性,促进竞争情报理论和应用的进一步发展。

标签:;  ;  ;  ;  ;  ;  ;  

网络竞争情报可信度评价:问题分析与研究框架_可信网站认证论文
下载Doc文档

猜你喜欢