内容分析与知识获取的比较研究,本文主要内容关键词为:知识论文,内容论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[分类号]G350
内容分析和知识获取都源自于不同的学科,而后都又被引入到情报学研究领域。尽管许多学者对其进行了深入的研究,但这些研究基本上分处于两个不同的情报学分支:文献计量学和智能情报系统。事实上,两者在研究对象和研究任务等方面有着许多共性,本文试图通过对内容分析和知识获取的比较分析,揭示两种研究方法之异同,以便更好地用这两种方法为情报研究服务。
1 产生背景
内容分析法最早产生于新闻传播学领域。20世纪初,有人采用一些半定量的统计方法对文献的内容进行深入的分析。拉斯韦尔曾在对两次世界大战的宣传技巧研究中大量使用这一方法,20世纪50年代美国学者贝雷尔森(Bernard Berelson)发表了具有权威性的著作《内容分析:传播研究的一种工具》,确立了内容分析法在大众传播学中的地位。而真正使内容分析方法系统化的是奈斯比特(Naisbitt),他主持出版的“趋势报告”就是运用内容分析法,研究美国社会变化的动态和趋势,享誉全球的《大趋势》一书就是以这些报告为基础写成的。20世纪60年代计算机进入了内容分析法领域,对内容分析法的发展产生了实质性的影响,建立起了基于定性分析基础之上的定量内容分析法。
知识获取的概念最早来源于知识工程和人工智能领域(AI)。20世界50年代中期开始,人工智能的研究将计算机科学家的视线引入到知识问题的求解上,而后又引向语言和知识的表示、获取、运用等方面。1977年,美国斯坦福大学计算机科学家费根鲍姆在第五届国际人工智能会议上首次提出“知识工程”(knowledge engineering)的概念。知识工程学的基本任务就是研究知识组织、知识获取(包括学习、保存及交换)和运用(包括检索、推理以及其他各种形式的加工)的理论、方法和实现技术。有关知识获取的研究主要有三个流派,它们分别以人工智能方法、软件工程方法和心理学方法为特征,其中,国内以人工智能方法的研究居多,这种方法已被许多情报学家引入到情报学的研究领域中来。
从以上的分析来看,虽然早期内容分析和知识获取的发展都属于不同的学科,但这两种信息处理方法真正的发展基本上都是出现在20世纪50年代以后。因为20世纪中期以来,随着知识经济的兴起,知识在社会经济中的地位愈发突出,人们对知识的渴求日益加强,但在“信息爆炸”面前,人们表现的是无所适从。面对各种竞争和压力,人们不仅要捕捉大量与自身工作与发展有用的信息,更渴望快捷、便利地获取相关领域的信息和知识辅助,因此,内容分析和知识获取的信息分析和获取方法很自然地被情报学家引入到情报学领域中来。
2 研究对象和任务
尽管内容分析和文献计量学方法在研究对象和方法上有所不同,但内容分析法从本质上来说就是文献计量学的方法。内容分析法的研究对象是文献的内容特征,它用规范的方法读取文献内容,将大量的文献信息以量化的形式表达出来,并利用定量分析的方法,获取文献中本质性的信息和知识,对事物的发展做情报预测,其侧重于分析文献内容特征的“量”。内容分析法的研究对象不仅包括文献中的显性内容信息(denotation),也包括潜在的或隐含的信息(connotation),前者是符号明显外在的意义,后者是在前者的基础上产生的一种隐含的意义,稳定程度相对较低。从内容分析的角度来看,潜在信息“不是直接描述这些事件现象或过程的相互联系,而是间接地——通过外在信息表现出来的这些事件现象或过程的特征、性质进行推理而得来的”。
内容分析法的量化是基于定性分析之上的,它离不开对文献内容的质的把握,这种“质”与“量”结合的方法,可以克服定性研究的主观性和不确切性的缺陷,达到对文献“质”的更深刻、更精确的认识。内容分析有深刻的描述功能、高度的概括功能、准确的评价功能和良好的预测性能。运用内容分析可以深入到知识交流内容的内部,从事知识组织、分析与综合工作和深层次的信息咨询和知识管理,并开展专题情报服务、情报研究、读者研究等工作。
知识获取是知识工程和人工智能的研究核心。知识获取的研究对象非常广泛,可以是经济、工业、军事、社会、科学的数据,数据形态有数字、符号、图形、图像和声音等,数据组织方式也各不相同,可以是结构、半结构或非结构的。知识获取的结果可以表示成各种形式,包括事实、规则及框架的集合。知识获取的总任务是建立、修改、扩展和重组织知识库,它包括知识库的结构与内容知识的获取、精练和完善。具体来说,知识获取任务包括:描述基本元素、定义概念、获取事实和规则、从规则演绎新的事实和规则,等等。
从内容分析和知识获取的研究对象和领域来看,两者都不是对信息或数据的简单收集和整理,都是通过对已有信息和知识的加工,获取潜层或隐含的信息或知识,只是两者的研究重心和概念范畴有所不同而已。如:在知识获取中隐性知识(tacit knowledge)是一种主观知识,即经过人脑加工后仅存储在人的大脑里,如果以一定的形式(符号)记录在物质上就属于客观知识,即显性知识(explicit knowledge),这一点与内容分析法中的隐含知识是有区别的,内容分析获取的是显性内容信息之下的隐性信息,是符号在其所依托的社会文化背景之中引申的意义。而且,知识获取的对象一般是较为专业的专家知识,当然也包括常识性知识和用户知识。事实上,从情报学的角度来看,信息和知识也没有绝对的界限,两者存在一定的转换关系,内容分析和知识获取可以在情报学中得到最好的结合,尤其是在语义和语用的研究领域中。内容分析成果反映出的社会语言和心理语言的密切关系、语义与语用结构的联系等规则,在计算机人工智能开发中也发挥着重要作用。举例来说,伽利略公司(Galileo Company)的文本分析软件CATPAC以多维排列和概念地图著称,其功能包括自动阅读文本并找出隐含概念,直接绘制概念地图并概括大意,发现语词之间的关联,这与知识组织中的知识因子的概念具有相似的功能。
武汉大学马费成教授认为,情报学发展要取得突破,关键在于两点:第一,知识信息的表达和组织必须从物理层次的文献单元向认知知识单元和情报单元转换;第二,知识的计量必须从语法层次向语义和语用层次发展。
3 研究方法
尽管内容分析法的研究对象可以是文本、图像、声音等信息,但使用最多的还是文本分析法。文本分析是对文献内容所含信息量及其变化的分析。内容分析的过程就是层层推理的过程,故推理方法是内容分析法的方法论基础和核心。内容分析法中最基本的推理有:①趋势推理(trend inference):这是一种纵向推理,或叫贯时性推理,是分析表示某一特征的信息的数量、重要性、强度等指标在不同时序里的变化和差异;②共变推理(covariation inference):根据表示两个以上事件的信息同时出现的状况进行推断,得出其间的相关性结论:③因果推理(causal inference):从表示特定事件的文字符号(语词)的变化来推断事件的发展变化,如从报纸的政治、经济社论推断当时的政治、经济环境。内容分析法中的推理方法是依据对已有信息的分析而推断未知的信息和相关性的结论。同时内容分析不是对单一文献的分析,它往往是对一定时间内或各种文献中的有关信息的分析,故推理的过程又为比较的过程。对文献内容的分析就是对文献内容中的有关信息单元作各种比较,所以比较是内容分析法的另外一种研究方法。其中比较的方法主要有:趋势比较(trend comparison)、不同内容群比较(comparision of different body content)、内容内比较(intra-content comparison)、有标准的内容比较(comparision of content with standard)。必须指出,上述的推理和比较类型不是彼此孤立的,相反,在具体运用中,很多研究和分析过程要综合运用多种方式。
知识获取就是从知识源中抽取所需知识,并将其转换成可被计算机程序利用的表示形式,知识源主要是人类专家、书本和数据库。知识系统可用多种方法获取知识,这些方法包括:将人类专家的专门知识转换成知识表示形式的方法;从经验数据、实例、数据库出版物中获取知识的各种学习方法,一般可分为三种:①采访:由知识工程师通过一系列的采访和编码从人类专家获取知识;②机助采访:利用计算机智能交互程序直接与专家会话,获取专家知识;③机器学习:知识系统利用各种学习方法来获取知识,并进行知识的积累、建立、修改和扩充知识库,它是一种高级的全自动化的知识获取方法,减少了对专家和知识工程师的依赖性。基于知识推理的机器学习是知识获取中最主要的方法,借助于计算机技术的知识推理是人工智能和知识工程的核心。知识获取基于机器学习所采用的推理方法大致可以分为三种:演绎推理、归纳推理和类比推理。
推理就是依据一定的规则从已有的事实推出结论的过程,这个原则就是推理控制策略。由于要获得潜在的信息或知识,内容分析和知识获取都必须在已有信息或知识的基础上进行推理,由初始状态(事实、条件)到达目标状态(结论、假设),只是内容分析获得的是一般性预测的结论,而知识获取多是较为专业的知识和规则,但在方法上,内容分析和知识获取的推理有许多相似之处,比如说知识获取中的类比推理和内容分析法中的比较方法可以相互借鉴。事实上,内容分析法的方法背景就是归纳法,这种方法与知识获取中的归纳推理是同一的。
4 应用范围
内容分析是一种对于明显的传播内容作客观而有系统的量化并加以描述的研究方法,不仅分析传播内容的信息,而且分析整个传播过程。内容分析法通过对文献内容的科学分析,揭示文献中情报交流的特征,探求情报交流的实质并预测交流的目的。研究内容分析法的学者主要来自图书情报学、社会学、新闻传播学、计算机科学和医学五类学科,研究论文分布的学科面较为广泛,只是各类学者研究的角度和侧重点有所不同。其中,以图书情报方面的研究论文最多,这是和情报学的学科特色相关联的,其学科特色体现在以一段时期的文献资料为研究基础,辅以情报研究方法,对掌握的资料加以整理之后,再利用推理和比较等多种方法进行内容分析。在已开发出来的数十种内容分析软件中,格式与功能各异,在软件名称上也各有不同的描述,如文本分析(text analysis)、文本挖掘(text mining)、内容分析(content analysis)、文本管理(text management)、数据分析(data analysis)等等,这些分析方法在知识获取中也有广泛的应用。
知识获取是知识信息处理的关键问题之一。20世纪80年代人们在知识发现等方面取得了一定的进展,利用样本,通过归纳学习,或者与神经计算结合起来进行知识获取已有一些试验系统。数据挖掘和知识发现是90年代初期新崛起的一个活跃的研究领域。在数据库基础上实现的知识发现系统,通过综合运用统计学、模糊学习、机器学习和专家系统等多种学习的手段和方法,从大量的数据中提炼出抽象的知识,从而揭示蕴涵在这些数据背后的客观世界的内在联系和本质规律,实现知识的自动获取。知识获取最著名的成果是由欧洲学者在几年前提出的KADS(knowledge active and design structure),经过欧共体Esprit计划多年的支持,如今的Common KAD已发展成为欧洲范围内的公认标准。
通过对知识获取和内容分析法两者应用范围的比较,我们可以看到,内容分析法的应用范围较广,不仅在图书情报领域得以广泛应用,在自然科学和其他社会科学领域也逐渐受到重视。而知识获取主要应用于知识工程和人工智能领域,构建知识库。
5 发展趋势
计算机技术的应用极大地推动了内容分析法的发展。无论是在定性内容分析法中出现的半自动内容分析(computer-aided content analysis),还是在定量内容分析法中出现的计算机辅助内容分析(computer-assisted content analysis),都只存在术语名称上的差别,而实质上,正是计算机技术将各种方法有效地结合起来,使内容分析法得到了迅速推广和发展。同样,计算机技术作为一种辅助手段也推动着知识获取的发展。当代人工智能的研究,也促使人们去探索、研究新的知识组织和知识获取方法。从知识信息的角度来看,机器学习功能的完善将极大地影响知识获取技术的进展,知识获取在专家系统和知识库的建立等方面的应用,将带来一种全新的知识组织系统。
计算机的发展,为研究复杂现象的数量关系和处理大量数据提供了物质手段和工具,使得反映人类各种社会活动的数据之间的联结成为可能。特别是全文数据库及知识库技术的发展,可以很方便地对大量数据和信息进行分析和处理,还可借助内容框架来对一些问题进行系统化定性分析。随着网络信息和文献的快速增长,互联网为信息和知识的获取提供了更为丰富的“原矿”,但是网络信息的增多在一定程度上体现为垃圾信息的增多,极大地增加了用户的负担。若要改变这种状况,就要使信息的加工朝着浓缩信息资源、系统化组织信息资源、提炼知识的方向上发展,对网络信息的获取和挖掘将是未来内容分析和知识获取的一个重点研究方向,比如网络内容分析是当前的一个热点。可以认为,随着计算机的普及以及数据库和知识库技术的发展,内容分析和知识获取将在情报研究中得到更为广泛的应用。