内容分析与知识发现的比较研究_情报学论文

内容分析与知识发现的比较研究_情报学论文

内容分析与知识发现的比较研究,本文主要内容关键词为:发现论文,知识论文,内容论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

内容分析和知识发现原本来自于两个不同的学科,而后被引入到情报学领域。尽管许多学者在各自领域对其进行了深入的研究和应用,但即使在情报学领域,这些研究基本分处于两个不同的情报学分支:文献计量学和智能信息系统。事实上,二者在研究对象和研究方法等方面有着许多异同,本文试图通过对内容分析和知识发现的比较分析,揭示两种研究方法之间的异同,以便更好地利用这两种方法为情报研究服务。

1 产生背景

内容分析法最早产生于新闻传播学领域。20世纪初,有人采用一些半定量的统计方法对文献的内容进行深入的分析。拉斯韦尔曾在对两次世界大战的宣传技巧研究中大量使用这一方法,20世纪50年代美国学者贝雷尔森(B.Berelson)发表了具有权威性的著作《内容分析:传播研究的一种工具》,确立了内容分析法在大众传播学中的地位。而真正使内容分析方法系统化的是奈斯比特(J.Naisbitt),他主持出版的《趋势报告》就是运用内容分析法,研究美国社会变化的动态和趋势,享誉全球的《大趋势》一书就是以这些报告为基础写成的。20世纪60年代计算机进入了内容分析法领域,对内容分析法的发展产生了实质性的影响,逐步建立起了基于定性分析基础之上的定量内容分析法。

知识发现的概念最早来源于知识工程和人工智能(AI)领域,它的出现要晚于内容分析法。1989年首次出现数据库中的知识发现(Knowledge Discovery in Database,KDD)的概念,随着KDD在学术界和工业界的影响越来越大,国际KDD组委会于1995年把专题讨论会更名为国际会议,在加拿大蒙特利尔召开了第一届KDD国际学术会议,以后每年召开一次。近年来,KDD在研究和应用方面发展迅速,尤其是在商业和银行领域的应用比研究的发展速度还要快。KDD技术是人们长期对数据库技术进行研究和开发的结果,知识发现使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出数据之间的潜在联系,从而促进有用信息的产生。现在KDD技术在商业应用中已经可以马上投入使用,因为对这种技术进行支持的3种基础技术(海量数据搜集、强大的多处理器计算机、数据挖掘算法)已经发展成熟。

从以上的分析来看,虽然早期内容分析和知识发现的发展都属于不同的学科,而且这两种方法的出现时间跨度相差也较大,但可以说通过结合计算机技术,二者在情报学领域得到了极大的应用。这主要是由于20世纪90年代以来,随着知识经济的兴起,知识在社会经济中的地位愈发突出,人们对知识的渴求日益加强,但在“信息爆炸”和“信息泛滥”的今天,人们在信息海洋的面前,表现的是无所适从,正如奈斯比特在《大趋势》中曾提到:“人类正被信息淹没,却饥渴于知识”。面对各种竞争和压力,人们不仅要捕捉大量与自身工作与发展有用的信息,更渴望快捷、便利地获取相关领域的知识辅助和大量表面信息下潜在的知识或信息,而内容分析和知识发现的信息分析和获取方法在潜在知识获取(知识挖掘)方面具有独到的优势,因此,也很自然地被情报学家引入到情报分析和获取中来。

2 研究对象和任务

内容分析法从本质上来说就是文献计量学的方法,只是内容分析和文献计量学方法在研究对象和方法上有所不同。尽管内容分析的对象包括文本、声音和图像等形式的信息,但这里主要谈的还是以文献信息为主。内容分析法的研究对象是文献的内容特征,它用规范的方法读取文献内容,将大量的文献信息以量化的形式表达出来,并利用定量分析的方法,获取文献中本质性的信息和知识,对事物的发展做情报预测,其侧重于分析文献内容特征的“量”。内容分析法的研究对象不仅包括文献中显性内容信息(Denotation),也包括潜在的或隐含的信息(Connotation),前者是符号明显外在的意义,后者是在前者的基础上产生的一种隐含的意义,稳定程度相对较低。从内容分析的角度来看,潜在信息“不是直接描述这些事件现象或过程的相互联系,而是间接的——通过外在信息表现出来的这些事件现象或过程的特征、性质进行推理而得来的”。

内容分析法的量化是基于定性分析之上的,它离不开对文献内容的质的把握,这种“质”与“量”结合的方法,可以克服定性研究的主观性和不确切性的缺陷,达到对文献“质”的更深刻、更精确的认识。内容分析有深刻的描述功能、高度的概括功能、准确的评价功能和良好的预测性能。运用内容分析可以深入到知识交流内容的内部,从事知识组织、分析与综合工作和深层次的信息咨询和知识管理,并开展专题情报服务、情报研究、读者研究等工作。

数据挖掘是知识发现中最为关键的一个步骤,因此在概念上许多学者将知识发现等同于数据挖掘,本文也沿用这一方法。目前知识发现比较公认的概念是由Fayyad等提出来的:KDD是从大量数据中提取出可信的、新颖的、有效的以及最终可理解的模式的高级处理过程。知识发现主要依赖数据库。知识发现是在大量似乎无关的数据中发现其中的规律和知识,为了揭示数据库中文档信息的隐含知识而进行的活动。所以,知识发现一般又被称为数据库中的知识发现(Knowledge Discovery in Database,KDD),它的存在使得大量可信、新颖、有效的数据从数据库中被提取并成为人们理解的模式的处理过程的构想成为现实。利用崭新的信息处理技术和数据分析工具,提供高于传统信息检索的数据分析功能,自动地、智能地将大量数据转变为有用的、系统化的知识,是开展数据库知识发现活动的基本动因,也可以认为,它是为了适应新要求而出现的一种新型数据分析技术。所以说,数据库是知识发现的主要研究对象,而其中的数据形式可以是结构化或非结构化的,也可以是文本或非文本等多种形式。作为数据库中的知识发现技术,也逐渐被应用到知识库中进行知识的挖掘。

特别要指出的是,知识发现或数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。

从内容分析和知识发现的研究对象和领域来看,二者都不是对信息或数据的简单收集和整理,都是通过对已有信息和知识的加工,获取潜层或隐含的信息或知识,发现事件间的相互关联,对未来进行预测,只是二者的研究重心和概念范畴不同而已。事实上,从情报学的角度来看,信息和知识也没有绝对的界限,二者存在一定的转换关系,内容分析和知识发现可以在情报学中得到最好的结合,尤其是在语义和语用的研究领域中。内容分析成果反映出的社会语言和心理语言的密切关系、语义与语用结构的联系等规则,在计算机人工智能开发中也发挥着重要作用。举例来说,伽利略公司(Galileo Company)的文本分析软件CATPAC以多维排列和概念地图著称,其功能包括自动阅读文本并找出隐含概念,直接绘制概念地图并概括大意,发现语词之间的关联,这与知识组织中的知识因子的概念具有相似的功能。

武汉大学马费成教授认为,情报学发展要取得突破关键在于两点:第一,知识信息的表达和组织必须从物理层次的文献单元向认知知识单元和情报单元转换;第二,知识的计量必须从语法层次向语义和语用层次发展。

3 研究方法

文本分析是建立在定性基础上的定量分析方法,它是对文献内容所含信息量及其变化的分析。内容分析的过程就是层层推理的过程,故推理方法是内容分析法的方法论基础和核心。内容分析法中最基本的推理有:趋势推理、共变推理和因果推理等。

1)趋势推理(Trend Inference):这是一种纵向推理,或叫贯时性推理,是分析表征某一特征的信息的数量、重要性、强度等指标在不同时序里的变化和差异。

2)共变推理(Covariation Inference):根据表征两个以上事件的信息同时出现的状况进行推断,得出其间的相关性结论。

3)因果推理(Causal Inference):从表示特定事件的文字符号(语词)的变化来推断事件的发展变化,如从报纸的政治、经济社论推断当时的政治、经济环境。

内容分析法中的推理方法是依据对已有信息的分析而推断未知的信息和相关性的结论。同时内容分析不是对单一文献的分析,它往往是对一定时间内或各种文献中的有关信息的分析,故推理的过程又是比较的过程。对文献内容的分析就是对文献内容中的有关信息单元作各种比较,所以比较是内容分析法的另外一种研究方法。比较的方法主要有:趋势比较(Trend Comparison)、不同内容群比较(Comparision of Different Body Content)、内容内比较(Intra-content Comparison)、有标准的内容比较(Comparision of Content with Standard)。必须指出,上述的推理和比较类型不是彼此孤立的,相反,在具体运用中,很多研究和分析过程要综合运用多种方式。

知识发现可以说是统计分析方法的延伸和扩展,它结合了统计和人工智能技术,以计算机为工具,将数据挖掘过程进行封装,让使用者直接专注于所要解决的问题。

知识发现中常用的方法有:统计分析法、人工神经网络、决策树和关联规则:

1)统计分析法(Statistics)。知识发现主要是利用统计学原理对数据库中的数据进行统计分析。常用的统计分析方法有:相关和回归分析、因子分析、聚类分析等。

2)人工神经网络(Artificial Neural Network,ANN)。模拟人的神经元功能,经过输入层、隐藏层、输出层等,对数据进行调整、计算,最后得到结果,用于分类和回归。ANN是在模拟人类神经元拓扑结构的基础上提出的一种高性能计算技术,用ANN对数据进行学习得到反映事物本质特征的模型的目的,是为了对现实世界中未知分类特征的事物进行分类和预测。

3)决策树(Decision Tree)。决策树是一种有监督的学习方法,也是数据挖掘用于建立预测模型最常用的方法之一,它通过将大量数据有目的分类,从中找到一些有价值的潜在的信息。

4)关联规则(Association Rule)。关联规则主要是分析两个事物(或多个事物)同时出现的情况,以及该情况所出现的几率和事物之间相互影响的程度。

尽管从术语上来说,许多研究方法在各自的学科有其特有的专业名词,但通过比较分析可以看出文本分析的共变推理和知识发现的关联规则是一致的,二者都是找出事物之间的相关性。内容分析对数据的定量分析越来越借助于数理统计分析工具,而知识发现本身就是统计分析的拓展和延伸,随着KDD技术的不断成熟,各种KDD原型系统和应用平台大量涌现,许多数理统计软件的供应商不失时机地推出了基于原先统计分析系统的数据挖掘工具,如SAS的Enterprise Miner和SPSS的Clementine等,而这些工具在文献计量的内容分析中也得到了广泛的应用。

4 应用范围

内容分析是对于明显的传播内容作客观而有系统的量化并加以描述的一种研究方法,不仅分析传播内容的信息,而且分析整个传播过程。内容分析法通过对文献内容的科学分析,揭示文献中情报交流的特征,探求情报交流的实质并预测交流的目的。研究内容分析法的学者主要来自图书情报学、社会学、新闻传播学、计算机科学和医学五类学科,研究论文分布的学科面较为广泛,只是各类学者研究的角度和侧重点有所不同。在这当中以图书情报方面的研究论文最多,这是和情报学的学科特色相关联的,其学科特色体现在以一段时期的文献资料为研究基础,辅以情报研究方法,对掌握的资料加以整理之后,再利用推理和比较等多种方法进行内容分析。在已开发出来的数十种内容分析软件中,格式与功能各异,在软件名称上也各有不同的描述,如文本分析(Text Analysis)、文本挖掘(Text Mining)、内容分析(Content Analysis)、文本管理(Text Management)、数据分析(Data Analysis)等等,这些分析方法在知识发现中也有广泛的应用。

知识发现是知识信息处理的关键问题之一。20世纪80年代人们在知识发现等方面取得了一定的进展,利用样本,通过归纳学习,或者与神经计算结合起来进行知识发现已有一些试验系统。在数据库基础上实现的知识发现系统,通过综合运用统计学、模糊学习、机器学习和专家系统等多种学习的手段和方法,从大量的数据中提炼出抽象的知识,从中挖掘出潜在的规律,为做出正确的决策服务。数据挖掘技术从一开始就是面向应用的,在电信、电力、保险、商业、金融、银行等领域,已经开始发挥着积极的作用。在商业市场上,对数据挖掘的应用需求很大。商业数据的知识挖掘可以帮助商家确定客户消费行为,发现客户购买模式和趋势,增加商品的销售量,降低成本等。随着数据量的急剧增长,一些大型数据库的规模已经远远超过人工所能分析的程度,需要通过数据库中的知识发现技术来解决,因而有着广阔的应用前景。

通过对二者应用范围的比较。我们可以看到,内容分析和知识发现的应用范围都较广,只是二者的应用范围有所不同。内容分析除了传统的传播领域的应用外,在图书情报领域也得以广泛应用,在自然科学和其他社会科学领域也逐渐受到重视。知识发现或数据挖掘在商业上应用较多,尤其是通过商业数据挖掘获取用户的潜在信息较为成功,另外知识发现在人工智能和知识工程领域对知识的获取和挖掘应用也较为广泛。

5 发展趋势

计算机技术的应用极大地推动了内容分析法的发展。无论是在定性内容分析法中出现的半自动内容分析(Computer-aided Content Analysis),还是在定量内容分析法中出现的计算机辅助内容分析(Computer-assisted Content Analysis),都只存在术语名称上的差别,而实质上,正是计算机技术将各种方法有效地结合起来,使内容分析法得到了迅速推广和发展。同样计算机技术作为一种辅助手段也推动着知识发现的发展。当代人工智能的研究,也促使人们去探索、研究新的知识组织和知识发现方法。从知识信息的角度来看,数据挖掘技术功能的完善将极大地影响知识发现技术的进展,知识发现应用于专家系统和知识库的建立,将带来一种全新的知识组织系统。

近年来,KDD在研究和应用方面发展迅速,尤其是在商业和银行领域的应用比研究的发展速度更快。目前,国外KDD的发展趋势其研究方面主要有:对Bayes(贝叶斯)方法以及Boosting方法的研究和提高;传统的统计学回归法在KDD中的应用;KDD与数据库的紧密结合。在应用方面包括KDD商业软件工具不断产生和完善,注重建立解决问题的整体系统,而不是孤立的过程。国外很多计算机公司非常重视数据挖掘的开发应用,IBM和微软都成立了相应的研究中心进行这方面的工作,此外,一些公司的相关软件也开始在国内销售,如Platinum、BO。

计算机的发展,为研究复杂现象的数量关系和处理大量数据提供了物质手段和工具,使得反映人类各种社会活动的数据之间的联结成为可能。随着网络信息和文献的快速增长,互联网为信息和知识的获取提供了更为丰富的“原矿”,但是网络信息的增多在一定程度上体现为垃圾信息的增多,极大地增加了用户的负担,改变这种状况,就是要使信息的加工朝着浓缩信息资源、系统化组织信息资源、提炼知识的方向上发展,对网络信息的获取和挖掘将是未来内容分析和知识发现的一个重点研究方向。KDD的理论意义在于不仅提供了各种学科领域情报分析研究的科学性,而且促进了文献信息研究的进一步深入,丰富和完善了网络信息的研究内涵,利用网络挖掘的成果来提高网络信息检索的精准度和效率,改善检索结果的组织结构。KDD的开展其实是对网络资源极大限度的开发和利用,而且根据用户定义的知识发现策略,发现的知识必须是可以理解的。惟有如此才能把发现的知识明确表达,加以掌握和利用,才能真正体现出被发现知识的价值。KDD的开展不仅是知识管理的需要,更是提高网络服务水平、构建学科决策支持系统的需要,它也顺理成章地成为进行科学研究的有力工具。网络内容分析是内容分析在网络环境下应用的拓展,它可以深入到网络信息的内容层面,分析网络数据,鉴别网络信息资源,评价网络传播效果。可以认为,随着网络技术的发展以及数据库和知识库技术的发展,内容分析和知识发现将在网络信息资源研究中得到更为广泛的应用。

标签:;  ;  ;  ;  

内容分析与知识发现的比较研究_情报学论文
下载Doc文档

猜你喜欢