汉语自动分词与内容分析法研究,本文主要内容关键词为:汉语论文,分词论文,分析法论文,内容论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
前言
汉语自动分词是目前中文信息处理中公认的难题,因为汉语自动分词是自然语言理解、机器翻译、信息检索、语言文字研究、汉语文本自动标引、内容分析等研究领域中最基本的一个环节,也是中文信息自动处理的“瓶颈”。如果能突破这一“瓶颈”,那么中文信息的自动处理就会迎刃而解,甚至意味着中华民族文化复兴的开始,因为它已经为汉语走向全世界打开了一扇方便之门。
近年来,由于计算机技术的飞速发展,汉语自动分词研究取得了突破性进展,其应用研究也越来越受到人们的重视,应用范围也越来越广。内容分析就是汉语自动分词应用研究的重要领域之一,因为汉语自动分词是内容分析法的前提和基础。随着内容分析法的兴起及其广泛应用,研究汉语自动分词在内容分析法中的应用就变得十分迫切和必要了。
1 已有的分词方法
为了克服汉语词计算机自动切分这一难题,许多年来,大量的学者都加入了这一领域的研究,使汉语自动分词取得了丰硕的研究成果。归纳起来,目前国内公开报道过的汉语自动分词系统采用的分词方法主要有三种类型[1~8]:
(1)机械分词法。又称词典式切分法。机械分词法主要有最大匹配法(MM法)、逆向最大匹配法(RMM、OMM、IMM)、逐词匹配法、部件词典法、词频统计法、设立标志法、并行分词法、词库划分和联想匹配法等。
(2)语义分词法。语义分词法引入了语义分析,对自然语言自身的语言信息进行更多的处理,如扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法、特征词库法、约束矩阵法、语法分析法等。
(3)人工智能法。又称理解分词法。人工智能是对信息进行智能化处理的一种模式,主要有两种处理方式:一种是基于心理学的符号处理方法,模拟人脑的功能。像专家系统即是希望模拟人脑的功能,构造推理网络,经过符号转换,从而可以进行解释性处理。一种是基于生理学的模拟方法。神经网络旨在模拟人脑的神经系统机构的运作机制来实现一定的功能。以上两种思路也是近年来人工智能领域研究的热点问题,应用到分词方法上,产生了专家系统分词法和神经网络分词法[9]。
2 当前汉语自动分词研究的重要趋势
汉语自动分词是一个综合性的难题,涉及到众多的学科和研究领域,需要多个学科的研究成果作为基础。但是随着科学技术的快速发展,汉语自动分词也并非遥不可及。根据目前汉语自动分词的研究现状,以及相关学科的发展情况,汉语自动分词有望在三个重大研究领域取得突破性进展。
2.1 克服汉语文本切分中的困难,继续研究传统文本切分的有效方法
目前,汉语自动分词的研究重心主要集中在克服传统文本切分中存在的困难,对传统文本的有效切分上。在计算机科学、情报科学和语言文字研究三个领域的学者专家们的共同努力之下,传统文本的有效切分已经取得了重大进展。
(1)汉语词的规范研究。汉语词的规范是汉语自动分词的基础。没有统一和明确的汉语词的定义,没有规范的汉语分词词表,汉语自动分词就无从谈起。在汉语语言学家和计算机中文信息处理专家们的共同努力之下,目前,我国汉语词的规范研究和汉语分词规范词表的制定已经有了较大突破。《信息处理用现代汉语分词词表》的制定及不断完善,说明了我国在汉语自动分词词表方面取得了重大研究成果,这为汉语自动分词的研究铺平了道路[10~14]。
(2)汉语词自动分词算法研究。分词算法研究是汉语自动分词的重点和难点,每一次分词算法上的突破都会使汉语自动分词的速度和精度有较大提高。据不完全统计,目前,在汉语自动分词方法和算法研究中,已经出现了上百种分词方法和算法[15~19]。传统汉语自动分词要获得新的突破,只能结合新的信息技术,在分词算法上做文章,必须在现有的分词算法和方法的基础上找到新的分词算法,这是今后汉语自动分词努力的重要方向之一。
(3)汉语自动分词歧义处理研究。汉语自动分词的主要困难是歧义切分,而歧义在自动分词中普遍存在。随着自动分词研究的突破,分词歧义处理研究也取得了重大进展。以前的消歧方法大体可分为两类:规则方法与统计方法[20]。由于自动分词中存在三种歧义类型,不同类型的歧义,其产生的根源和消除的方法各不相同。因此,应针对不同的歧义类型采取不同的解决方法。对于第一类歧义,由于他们本身就是汉语言中的歧义问题,解决这类歧义需要依靠上、下文语义信息,即增加语义、语用知识的处理。这无异对自动分词的效率有很大的影响(时间上和空间上),而且实现起来比较困难。若是在词处理的相应阶段,结合对分词阶段未解决的歧义字段进行处理,则会起到事半功倍的效果。统计表明,第一类歧义字段不到整个歧义字段总数的1/30,因此不必在分词阶段花费巨大的开销来处理它们。目前对第二类歧义处理方法主要有以下几种:分词知识处理法、联想-回溯法、基于词频统计的方法、邻接约束法、基于数学期望的方法。处理第三类歧义目前主要有两种方法:一是增加构词知识,扩大词典,二是增加临时词典。此外,还可以人工干预分词,人工分词与计算机自动分词结合。在遇到计算机解决不了的歧义时,借助于人工干预来完成。为了有效地消除歧义字段,还可以在上述方法的基础上建立分词歧义知识库或规则库[21~23]。随着计算机技术和汉语语言研究的进展,汉语词自动切分歧义处理技术将会有更大的突破。
(4)汉语自动分词应用研究。目前,汉语自动分词主要在信息检索、自动标引、自动文摘、机器翻译、语言文字研究、搜索引擎研究、自然语言理解和中文信息处理等方面的应用取得了可喜的成绩。随着汉语自动分词技术的进一步发展,这一研究成果将会更广泛地应用到更多的研究领域,如词频统计、内容分析、概念分析、认知心理学和汉语语言学等方面[24]。
2.2 将人工智能技术与汉语自动分词研究有机结合起来
汉语自动分词是中文信息处理的“瓶颈”问题,它的最终解决依赖于汉语的分词结构、句法结构、语义等语言知识的深入系统的研究;依赖于对语言与思维的本质的揭示;同时,在很大程度上还依赖于神经网络、专家系统、知识工程等人工智能技术研究的新进展。计算机技术和人工智能技术是汉语自动分词的技术基础,计算机技术发展的每一次巨大飞跃都是汉语自动分词的福音。因为自然语言处理与理解既是人工智能研究领域需要解决的重大课题,也是汉语自动分词研究的重要内容。因此,汉语自动分词研究发展的同时也寄希望于人工智能技术的新突破。
目前,人工智能技术的重点研究领域主要是专家系统、神经网络技术和生物芯片技术。从人工智能技术的发展和汉语自动分词的要求出发,比较理想的自动分词系统应该综合词法、句法和语义信息,而用计算机对语义、语法进行自动分析尚处在研究阶段。因而,已经推出的汉语分词与标引系统只能采用以机械分词为主,辅之以能部分反映词法、句法和语义规则的改进算法,但仍难以解决复杂的汉语组词关系。因此,今后应注重汉语句法和语义的自动分析研究,并将其应用到汉语自动分词领域。重点应集中在引入知识分词的技术与方法,采用知识分词语义分析法进行自动分词系统的研究。从目前已经公开的各种分词方法看,性能比较优异且具发展前景的应首推基于符号和启发式推理的专家系统和基于数值和算法的神经网络技术。神经网络具有联想、容错、记忆、自适应、自学习和处理复杂多模式等优点,不足的是网络连接模型表达复杂,训练过程较长,不能对自身的推理方法进行解释,对未在训练样本中出现过的新词汇不能给予正确切分。专家系统具有显式的知识表达形式,知识容易维护,能对推理行为进行解释,并可利用深层知识来切分歧义字段,缺点是不能从经验中学习,当知识库庞大时难以维护,在进行多歧义字段切分时耗时较长,同时在知识表示、知识获取和知识验证等方面存在一些问题。因而,将人工智能技术与汉语自动分词研究有机结合起来,把神经网络技术与专家系统紧密联系起来用于汉语自动分词与标引系统将是该领域的发展趋向[25]。
2.3 改造汉语文本书写规则使之利于计算机自动处理
当现有的分词方法和人工智能技术不能有效地解决汉语词自动切分中的困难时,必须有一种新的思维方式来引导汉语自动分词的研究,那就是要研究汉语语言本身的特点和规律,从汉语书面语的书写规则出发来寻求汉语自动分词的突破口。这也许是汉语自动分词发展的新方向。
对汉语书写规则进行适当改造,以使其便于计算机自动切分,不是一种主观幻想。这样做既有理论依据,又有现实例子。其理论依据在于,其他许多语言虽然没有汉语那样博大精深和妙不可言,但却有利于计算机自动处理的优势,实有可取之处。而且任何一种语言都处于不断变化和发展之中,有益的东西要吸收进来,不利的东西要抛弃,并使其趋于完善。完善是相对而言,并非一成不变。语言产生和发展的真正意义还在于,便于交流和利用。这就是为什么解放后我国要进行多次汉语改革的原因。而这些成功的汉语改革正是我们对汉语书写规则进行改造的现实依据。为了使汉语走向全球,为了中华文化的再次伟大复兴,随着信息时代的到来,我们必须对汉语进行改革。因为它牵系一个民族发展的前途和命运。
对书面汉语书写规则进行改造与规范,可以吸收其他语言在计算机处理中的优点。如可以从西方语系(如英语)得出启示,也可以从东方语系(如日语和韩语)得到启发,还可以汲取藏文自动处理的做法。这些语言都有适合计算机自动处理的优势。
西方语系与汉语的明显不同之处在于,西文都是拼音文字,词与词之间有空格等明显的间隔符,因此不存在语词切分的问题。西语的这一显著特征适应了计算机自动处理发展的要求,使得西语在计算机自动文字处理上具有较大优势。这是一种偶然,可以说是上帝赐予西方人的最好礼物。汉语显然不具备这一特征,而恰恰正是这一点又使得汉语不利于计算机自动处理,给我们留下了一个世纪难题。这是否能给我们一些启示呢?我们能否在汉语的书写上向西方人学习呢?这是值得我们思考的。当然,我们不必完全模仿西文而抛弃中文应有的特色和优点。为了使汉语便于计算机自动处理,我们只需要对现有的汉语语法规则作如下改造:一是要对汉语词进行明确规定,即界定什么是词;二是要在汉语文本的词与词之间增加适当的间隔符,即设立分词标志;三是要制定完整的汉语书写规则。这些都可以在汉语文本生成之前完成,如,由作者本人在写作时完成,或由出版编辑部门在稿件编辑时完成。这样我们就不必耗费巨资设计种种算法、编写各种软件来对传统文本进行切分了。
如果我们觉得西方语系难以接受的话,那么我们只要看看日语和韩语就应该有所启发了。日语同汉语十分接近,但日语较汉语适合于计算机自动处理。这是因为日语有丰富的词缀,日语中大量使用片假名和平假名构成了书面日语的词尾变化,而这些词缀可以作为计算机识别词的标志。虽然汉语不能像日语那样构造大量的词缀来作为词的标志,但是可以模仿日语设立其他词缀来区分词,如在词与词之间增加分隔符。韩语本身也有适合计算机自动处理的优势,因为韩语是部件式结构,能进行自由拆分和组合。而我国藏族的藏语是黏着性语言,在一定意义上,我们可以把传统藏文语法看作是由格助词及其接续特征规则构成的语法系统。这一语法系统的主要特点就是:各类名词性成分借助格助词及其接续特征规则构成句节进而由句节结合动词来组织句子。一般而言,藏语的句子是以动词为中心来组织的,动词决定着格助词的添接规则[26]。相比之下,汉语则明显缺乏足够的自动分词信息,所以必须对汉语文本进行改造,添加必要的分词信息。
基于以上启示,汉语的书写规则是完全可以进行改造的。如果词的范畴已经明确,书写规则已经制定,而且分隔符也已确定,那么我们就可以对汉语书写规则进行适当的改造了。这是一种新的分词思维,是一种类似英语词切分的无词典式分词方法,即改造书面汉语书写规则,在规范词的基础上,书写或录入时在词与词之间增加分隔符,增加自动分词信息,以便计算机自动识别和切分。这是一种一劳永逸的分词方法。尽管目前我们还不习惯,但是一旦它形成标准,而编辑部和出版社又按此标准对稿件进行规范时,我们有理由相信只要假以时日,就会有一种新的适合计算机自动处理的新的汉语文本出现,而这种文本并不破坏汉语自身固有的特色和优点。
此外,在进行信息交流和处理时,我们除了使用自然语言之外,还有很多其他的人工语言,如数学语言、检索语言、逻辑语言、程序设计语言等,是自然语言交流的补充。这些人工语言和自然语言一样都有一个共同特点,那就是都有一定数量的符号系统和一套完整的语法规则。但是,这些人工语言在很大程度上都适应了计算机技术的发展,具有较强的生命力。由此可得,我们应该能像这些人工语言一样设计出一套新的语言符号系统,模拟现有的汉语语言,并对其进行改造。例如,在数学语言中,“因为”通常用“∵”表示,“所以”通常用“∴”表示,清楚明白,一看便知。又如,在普通逻辑的三段论推理中,分别用“P”、“S”、“M”表示大前提、小前提和结论。数理逻辑和各种程序设计语言中的符号系统更是十分完备,完全可以用来进行信息表示、信息传递、信息存储和信息处理,并实现信息的自由交流。
3 汉语自动分词应用研究
书面汉语自动分词的研究具有重要的理论和应用价值,它的最终解决将对以下几个方面产生实质性影响[35]:汉语语言理解;计算机系统的汉语人机接口;机器翻译;情报检索、信息检索和自然语言检索;自动标引;自动编制文摘、目录与索引;词频统计、概念分析和内容分析;语言文字自动处理;人工智能和知识工程;智能计算机;专家系统和知识库;搜索引擎和网站建设;数据挖掘、知识挖掘;汉语语言学;认知心理学等。
正是由于自动分词问题在以上研究领域的重要性,所以它受到人工智能界、汉语语言学界、情报检索界、计算机应用界和其他各界人士的广泛关注。汉语自动分词应用相当广泛,已经在信息检索、自动标引、自动文摘、机器翻译、语言学研究、搜索引擎研究和自然语言理解等方面取得了重大的研究成果。
(1)信息检索。自动分词与信息检索的结合实现自然语言检索接口是自然语言检索的一个重要方面,自动分词是实现基于自然语言理解的智能检索的前提,是贯穿于信息检索系统整体流程中不可缺少的处理步骤[27]。在信息检索系统的设计中,如果能先解决自动分词问题,就会大大提高检索系统的检索效率。检索语言的发展趋势应是检索语言的自然语言化发展与自然语言的检索语言化发展的双向结合。
(2)自动标引。以自动分词为基础,专家学者们研制出了多种自动标引系统,归结起来有:词典切分标引法、单汉字标引法、机助标引法、统计标引法、逻辑推理法、语法语义分析标引法、自动标引专家系统和神经网络分词标引法等。这些自动标引方法可以分为三类,即统计法、语言法和人工智能法。并相应地开发出了一些科学实用的自动标引系统[28~30]。
(3)自动文摘。自动文摘是自动分词的一个十分重要的应用领域。国外在自动文摘研究方面已经取得了丰富的研究成果,并开发了大量实用的自动文摘系统。相比之下,汉语自动文摘研究较为困难,研究成果也相对较少。汉语自动文摘必须首先攻克汉语自动分词这一难题。尽管困难重重,我国在自动文摘研究方面仍然取得了一系列可喜的成绩,自动文摘理论和方法研究成果不断涌现,针对汉语自身特点而开发的中文自动文摘系统也开始由实验走向应用[31]。
(4)机器翻译。机器翻译本质上是对人类思维和语言活动的模拟,突破的焦点是让计算机理解和表达人类的语言。目前国内外关于机器翻译研究已取得了丰富的研究成果,并已经进入了实用性应用阶段。但要实现全自动高质量的机器翻译仍是一个长远目标,不可能在短期内实现,需要多个领域的学者专家们长期不懈的努力和追求[32]。
(5)搜索引擎研究。中文搜索引擎的重点在于中文关键信息的提取,其中的难点就是中文自动分词。随着因特网在我国的发展和普及,中文搜索引擎研究有了重大突破。在短期内就涌现出了许多重要的中文搜索引擎,并得到了广泛应用。目前,已开发并投入使用的中文搜索引擎已达上百种,并且数量仍在不断增加,质量也不断提高。但是,中文搜索引擎研究开发仍然存在大量的问题,如在信息组织、检索速度、检准率和检全率等方面还有较大的发展空间。今后,中文搜索引擎的研究方向应是将中文自动分词、信息检索、自然语言理解和人工智能等与搜索引擎研究相结合[33~34]。
(6)语言文字研究。计算机的出现和发展,引起了科学技术的巨大变化,也为语言学研究开辟了新的发展途径。计算机一方面对语言学提出了一系列新的要求,希望能用语言学武装其“头脑”,以发展它的智力(如赋予它信息检索能力、语言翻译能力、自然语言理解能力);给它添加“翅膀”,以赋予它更强的听觉(如识别口语)、视觉(如识别文字)、说话(如言语合成)和听写能力(如语音打字)。另一方面它又充当语言学的得力助手,帮助语言学工作者对语言素材进行分类、统计、演算、控制和模拟等。这也正是内容分析法需要研究的重要内容之一。将计算机与语言学有机结合起来,彼此互助,彼此互补,计算机便可能实现高度智能化。利用计算机来处理自然语言是一门新学科,即计算语言学。目前研究得比较多的课题有:机器翻译、情报检索、言语识别和言语合成、汉字信息处理、语音分析、人工智能中的自然语言理解等[35]。
(7)自然语言理解。自然语言理解是人工智能研究的最重要课题之一,同时也是自动分词研究最前沿的难题之一。国外在自然语言理解方面的研究起步较早,一些卓有成就的计算机专家、语言学家、逻辑学家和心理学家都在自然语言理解中的语法、句法及语义分析方面提出了一系列较为系统的理论的方法。比较有影响的理论有:转换生成语法、依存语法、语义网络、蒙塔鸠语法、扩展转换网络、系统语法、格语法和语义网络理论、概念依存理论、境况语义学和语料库语言学等。这些理论和方法大致可归为基于语法的分析法、基于语法与语义相结合的分析法和基于语义的分析法三类。尽管国外在自然语言理解上研究较早,成熟的理论和方法也不少,开发的实验系统也不计其数,但到目前为止,这些系统离真正的实用要求尚存在较大距离。国内在自然语言理解研究方面起步较晚,且较为系统的研究成果也为数不多。因为我国的自然语言理解研究必须以汉语为研究对象,而我国传统的汉语研究,并不以计算机处理汉语为目的,尽管语言学家设计了许多汉语语法体系,可这些体系很难直接在自然语言理解的研究中得到有效应用。同时,由于汉语是无形态变化的语种,因此无法直接套用西方现有的语法、语义结构体系,这使得汉语自然语言理解研究工作困难重重。但令人欣慰的是,近几年,国内自然语言理解的研究取得了很大的成绩,无论在汉语书面语的自动切分、汉语电子词典、汉语机读语料库、机器翻译、汉语人机对话、汉语情报检索等应用研究领域中,还是在结合汉语、汉字特点探索计算语言学基础理论的研究中,都出现了不少拓荒之作,取得了骄人的成果[36~37]。
(8)内容分析研究。除以上应用研究外,汉语自动分词还在其他一些相关领域也得到了充分的利用,如词频统计、文本内容分析、概念分析和数据库编制等。其中内容分析已成为汉语自动分词应用研究的重要内容之一。汉语自动分词及其研究成果都可以直接或者间接地应用到内容分析法中来,并构成内容分析法的重要研究内容、方法和手段。此外,汉语自动分词还可以直接用于词频统计、主题分析、篇幅分析、文献内容分析、概念分析和数据库系统设计等方面。因为就目前来看,所有词典式汉语自动分词系统几乎都是以词频统计分析为前提和基础的。例如,自动标引和信息检索系统的设计就是以词典式汉语自动分词系统为基础。在信息检索系统的设计中,如果能先解决自动分词问题,就会大大提高检索系统的检索效率。而信息检索系统又是内容分析法进行统计和分析的数据来源,同时也是内容分析法的一种重要的辅助手段。信息检索系统检索效率的高低及数据完备程度,能够决定内容分析法结论的准确和客观程度。
4 汉语自动分词研究与内容分析法
汉语自动分词是内容分析法的前提和基础,对内容分析法技术、方法和应用具有巨大的影响。如何综合利用汉语自动分词研究成果、计算机技术、文献计量方法和内容分析方法,深入文献内部,对其内容、信息和知识进行测度和综合研究,实现内容分析的自动化,提高研究效率和分析结果的可靠性与准确性是目前急需重点研究和解决的重大课题,也是情报学和文献计量学发展当前所面临的重大课题之一。
4.1 汉语自动分词研究对内容分析技术与方法的影响
内容分析法(Content Anolysis)是一种对文献内容进行客观、系统和量化描述与分析的研究方法,是社会科学研究中普遍使用的一种科学方法[38~39]。对文献内容的研究可分为定性研究与定量研究两种方式,分别从不同的侧面对文献中所包含的信息和知识进行加工处理与分析,从而得出相应的研究结论。但人们通常将对文献内容的定量研究称为内容分析法。内容分析法最早萌发于新闻界,后来扩展到图书情报乃至整个社会科学领域,在信息传播、情报研究与决策分析中有着重要的地位和作用[40~41]。客观、系统和定量是内容分析法的基本特征,而“定量”是内容分析法最为显著的特征,是达到“精确”和“客观”的一种必要手段。因此,内容分析法结论的准确性、客观性和可靠性取决于定量化的程度。在定量化的过程中,除了对大量的文献样本进行统计分析之外,还必须对样本文献自身所包含的知识内容进行统计分析。词频统计分析法是内容分析法中最基本的分析方法之一,而计算机辅助词频统计则是内容分析法最重要的技术手段之一,目前国内外有关内容分析法的理论与应用研究主要以词频统计分析为基础。从广义上来说,词频统计分析法包括所有以词或词组为单元的分析技术和方法,如主题词词频分析法、指示词词频分析法和关键词词频分析法等[42]。而汉语自动分词是词频统计分析法的基础,汉语自动分词的精度决定了词频统计的准确度。只有首先对文本文献进行有效切分之后,才能对文献中的词或词组进行准确的统计,然后再对统计结果进行分析,对文献中隐含的信息和知识进行有效挖掘。由于汉语自动分词研究一度进展十分缓慢,使得词频统计分析法在相当长的时间内还存在着一些问题。但近些年来,由于计算机技术应用于内容分析领域以及汉语自动分词研究的突破性进展,对内容分析法产生了根本性影响。以汉语自动分词研究为基础的信息检索系统(如书目数据库、文摘数据库、全文数据库和搜索引擎等)的发展以及数据挖掘和知识发现技术的应用,为内容分析方法研究提供了便利的条件,带来了蓬勃的生机[43~45]。所以说,汉语自动分词研究是内容分析法的前提和基础,特别是在利用计算机技术辅助内容分析法方面,汉语自动分词研究对内容分析技术与方法具有重大的影响。
4.2 汉语自动分词研究对内容分析法应用的影响
内容分析法应用相当广泛。由于科学技术发展的突飞猛进,信息知识社会的到来,当今世界的“信息过剩、信息富余”、“知识爆炸”给人们学习、工作和生活带来了沉重的压力,怎样才能在浩如烟海的文献和知识信息中找到自己需要的文献和知识信息,已经变得越来越重要。而内容分析法正是解决这一问题的有效方法,它借助于计算机对各个学科领域中海量的文献、信息和知识进行统计分析,找出其关键信息和核心内容,以供人们利用,从而提高管理水平和决策效率。因而,内容分析法受到了各个学科领域的热烈欢迎。
目前内容分析法主要在计算机和人工智能领域、图书情报领域、政治与军事领域、科技与经济领域、新闻与传播领域、社会学研究和心理学研究等研究领域的分析与预测中应用得非常普遍。计算机和人工智能领域研究内容分析法,注重于研究对象内容的自动分析、提炼和表达,因此,其主要研究领域,如自然语言理解、语义分析、自动编文摘、知识工程、机器翻译和专家系统等研究中都包含着内容分析。图书情报领域主要利用文献计量方法和内容分析方法对图书馆学、情报学、科技、经济和社会等方面的文献进行统计分析,了解其发展现状,并预测其发展趋势。因为内容分析法是一种重要的文献计量分析方法和情报研究方法,不仅自动标引系统、情报检索系统和搜索引擎等设计中包含着内容分析,而且词频统计、主题分析、关键词抽取、概念分析和篇幅分析等实质上就是内容分析法的重要内容和方法。政治、军事、科技与经济领域主要利用内容分析法对这些领域目前的文献信息进行统计分析,了解国内外发展动态,并对其发展动向进行科学的预测,以便采取有效的应对措施。新闻与传播领域主要利用内容分析法对新闻媒介所含的大量信息进行统计分析,捕捉新闻热点和焦点。社会学主要利用内容分析法对有关社会学研究的文献进行统计分析,找出社会发展中人们普遍关心的问题,如人口问题、老年问题、教育问题、犯罪问题、妇女问题和儿童问题等。心理学研究则通过对人们的语言和行为及其相关文献进行分析,以了解人们的心理状态和心理变化等[46~59]。
内容分析法的应用以文献计量方法和词频统计方法为基础,而文献计量方法和词频统计方法离不开汉语自动分词研究。内容分析法与汉语自动分词研究具有较高的关联度。内容分析法的应用和发展为汉语自动分词研究提出了迫切需求。因此,内容分析法的深入应用也受制于汉语自动分词研究。
4.3 内容分析法的发展趋势
目前,内容分析法主要是基于词频统计(包括主题词、关键词和指示诃等)而进行的。基于词频统计分析的内容分析法不能深入文献内部,很难挖掘出文献中隐藏的知识和信息,容易忽视词与词之间的关联,而且词频统计和处理的量十分庞大。因此,要提高内容分析法的科学性和准确性,内容分析法必须从语法分析走向语义分析和语用分析,从手工统计分析走向计算机自动统计分析,即从计算机词频统计分析走向概念分析、段落分析和篇幅分析,这是内容分析法发展的必然趋势。而要实现这一目标,就要首先突破汉语自动分词这一难关,实现计算机对自然语言的有效理解和处理。
结束语
汉语自动分词和内容分析法研究是目前情报学研究领域两大最重要和最富有挑战性的课题,它们既有各自独立的研究内容,又存在高度的关联性。因为汉语自动分词中的词典式分词法和内容分析法都是以文献计量方法与词频统计方法为基础而进行的。同时,文献计量方法和词频统计分析方法的改进又能促进词典式自动分词系统的完善。在计算机科学界、情报信息界和汉语语言学界三大领域的专家学者们的共同努力之下,汉语自动分词研究取得了重大的进展,但是离真正的问题解决还有相当漫长的路要走。目前,汉语自动分词研究有望在传统文本的有效切分(即寻找新的分词算法)、人工智能技术与自动分词结合研究和汉语文本书写规则的规范与改造三个方面获得突破。汉语自动分词研究是内容分析法的前提和基础,同时又对内容分析法的研究具有巨大的推动作用。内容分析法的深入发展必须借助于汉语自动分词研究成果,只有解决了汉语自动分词问题,对文献内容的分析才能真正做到精确、客观和可靠。
其实我们都知道,汉语自动分词研究无论如何已经不是一个单纯的技术问题了,因为它已经同汉语走向世界、中华民族文化的伟大复兴紧密地联系在一起。汉语,作为全世界使用人数最多的一门语言,随着信息时代的到来,其自身的发展和更新已是迫在眉睫。让更多的人了解汉语、学习汉语、使用汉语,将汉文化撒播到全球每一个角落,应该是每一个中国人的梦想。而要实现这一目标,就必须首先解决汉语自动分词问题,以便计算机能对汉语文本进行自由处理,增强汉语的生命力。
标签:自然语言处理论文; 语义分析论文; 分词技术论文; 文献分析法论文; 搜索引擎技术论文; 文本分类论文; 语法分析论文; 文本分析论文; 机器翻译论文; 信息检索论文;