汉语自动分词研究进展,本文主要内容关键词为:汉语论文,分词论文,研究进展论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
书面汉语自动分词是目前中文信息处理中公认的难题,因为汉语自动分词是自然语言理解、机器翻译、信息检索、语言文字研究、汉语文本自动标引等研究领域中最基本的一个环节,也是中文信息自动处理的“瓶颈”。如果能突破这一“瓶颈”,那么中文信息的自动处理就会迎刃而解,甚至意味着中华民族文化复兴的开始,因为它已经为汉语走向全世界打开了一扇方便之门。
1 汉语自动分词的意义
书面汉语自动分词的研究具有重要的理论价值和现实意义,它的最终解决将对以下几个方面产生实质性影响:[1]
·汉语语言理解
·计算机系统的汉语人机接口
·机器翻译
·情报检索、信息检索和自然语言检索
·自动标引
·自动编制文摘、目录与索引
·词频统计、概念分析和内容分析
·语言文字自动处理
·人工智能和知识工程
·智能计算机
·专家系统和知识库
·数据挖掘、知识挖掘
·搜索引擎和网站建设
·汉语语言学
·认知心理学
正是由于自动分词问题在以上研究领域的重要性,所以它受到人工智能界、汉语语言学界、情报检索界、计算机应用界和其他各界人士的广泛关注。
2 汉语自动分词的主要研究领域
自书面汉语自动分词这一问题提出后,近十年来,许多专家学者开始涉足这一领域,向这一难题发起挑战。目前,全国主要有三支队伍从事这项研究:
其一是计算机和人工智能领域。他们主要利用自动分词成果从事自然语言理解和处理研究,如语义分析,自动编文摘,知识工程,机器翻译,专家系统和智能计算机等,其研究成果令人瞩目。
其二是情报信息领域。他们在汉语自动分词与自动标引、汉语自动分词与情报检索和搜索引擎的研究和实践上十分活跃,取得了许多可喜的成绩。
其三是汉语语言学研究领域。他们主要从事汉语言文字研究以促进书面汉语自动切分。如汉语言的特点,与其他语言的比较,汉语言的规范等,其研究成果不容忽视。
以下是对“中国期刊网”1994-2003年有关“汉语自动分词”研究论文的统计情况,表1统计了三个研究领域中的重要刊物及相关论文分布情况,表2统计了三个研究领域中的重要研究主题及论文分布情况。从表中我们可以对目前自动分词研究主要研究领域的分布状况有个大致的了解。
表1 三大研究领域主要载文刊物及论文量统计表
关键词载文刊物 论文数量(篇)
情报学重要刊物
13
分词计算机科学重要刊物 35
汉语语言学研究刊物 17 224
其他刊物(较分散) 159
情报学报7
情报理论与实践 2
情报学重要刊物 现代图书情报技术2 13
情报杂志1
图书与情报
1
中文信息学报 6
计算机工程
3
自动分词计算机工程与应用1 47
计算机应用1 16
计算机科学重要刊物计算机工程与科学1
计算机工程与设计1
计算机研究与发展1
电脑开发与应用 2
汉语语言学研究刊物 语言文字应用6
6
大学学报
华中科技大学学报(自科版)浙江 8
大学学报(自科版)等
表2 主要关键词统计及相关论文量统计表
关键词 论文量(篇) 关键词
论文量(篇)
自动分词 47 内容分析107
分词系统 10 词频统计7
自动切分 5
自动文摘36
分词算法 11 人工智能587
分词歧义 539 专家系统3539
自动标引 50 机器翻译157
中文信息处理 45 语言文字719
自然语言理解 22
3 现有的分词方法及其局限性
3.1 现有的分词方法
近10年来,语言学界、人工智能领域和情报检索界的学者们,在汉语自动分词与自动标引的研究与实践上进行了大量的研究,找到了许多解决汉语自动分词问题的方法。80年代以来见诸报端的自动分词方法归纳起来有:最大匹配法、逆向最大匹配法,逐词遍历法、设立切分标志法、最佳匹配法、有穷多层次列举法、二次扫描法、高频优先分词法、基于期望的分词法、联想——回溯法、双向扫描法、邻接约束法、扩充转移网络分词法、语境相关法、全自动词典切词法、基于规则的分词法、多遍扫描联想法、部件词典法、链接表法、最少分词词频选择法、专家系统分词法、基于神经网络的分词方法等22种。
归纳起来,目前国内公开报道过的汉语自动分词系统采用的分词方法和算法主要有三种类型:
(1)机械分词法。机械分词法主要有最大匹配法(MM法)、逆向最大匹配法(RMM、OMM、IMM)、逐词匹配法、部件词典法、词频统计法、设立标志法、并行分词法、词库划分和联想匹配法等。
(2)语义分词法。语义分词法引入了语义分析,对自然语言自身的语言信息进行更多的处理,如扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法、特征词库法、约束矩阵法、语法分析法等。
(3)人工智能法。又称理解分词法,人工智能是对信息进行智能化处理的一种模式,主要有两种处理方式:一种是基于心理学的符号处理方法。模拟人脑的功能,像专家系统。即,是希望模拟人脑的功能,构造推理网络,经过符号转换,从而可以进行解释性处理。一种是基于生理学的模拟方法。神经网络旨在模拟人脑的神经系统机构的运作机制来实现一定的功能。以上两种思路也是近年来人工智能领域研究的热点问题,应用到分词方法上,产生了专家系统分词法和神经网络分词法。[2-9]
这些方法又大体上可分为两类:一类是基于规则的,大多数中文分词方法都属此类;一类是基于语料库的,如神经网络分词法部分的属于此类。基于规则的分词算法的计算模型均是概率论中的马尔可夫过程又称元语法、隐马尔可夫过程和通信中的信道噪声模型。但无论是马尔可夫过程还是信道噪声模型,最后都归结为计算词频的统计信息,串频和互信息是词频的另一种表现形式。但遗憾的是自然语言远不是一个经过事先精心规划的系统,难以用一套完整的规则去准确地预测正式汉语文本中所出现的各种变异。
3.2 汉语词自动分词存在的困难
尽管汉语自动分词取得了重大进展和突破,但仍有大量的问题困扰着这一领域的学者们。因为要自由进行汉语自动分词,至少会遇到以下一些困难:
(1)汉语词与词之间不像西文那样有明显的分隔符(如空格等),也不像日文那样有丰富的词尾变化(如日语中的片假名和平假名构成了书面日语的词尾变化)。
(2)中文原本没有词的概念,中文词的概念是一个舶来品,至今也没有统一的词的确切定义。
(3)汉语迄今为止仍未有一部公认的、确切完备的并适合于计算机自动处理的语法规则。
汉语词法的无标准性,句法的复杂性,语法的模糊性与语义的多样性,如汉语中大量存在一词多义,多词一义,词性变化,词义转借等现象,即汉语表达极大的灵活性,使得迄今任何人都难以对它进行完备的总结。
(4)中文构词方法的多样性和句法的“意重合”性等特点也使自动分词十分困难。
众所周知:中文造词的原料,不仅有字,而且有词、词组。造句的方式有以字造词,以词造词,甚至压句成词。如果没有语法、语义知识或语境了解的帮助就很难对有些句子进行正确切分。
(5)书面汉语丢失了语音中所蕴含的部分有用信息。
(6)新词在不断增加(如人名、地名、新产生的词、外来词等)。
总之,汉语无词的明显分隔标记,词的定义、词与词组划界标准与形式语法的缺乏等特点,构成了汉语词自动切分的极大困难。[10-11]
3.3 现有分词方法的局限性
衡量一个自动分词系统的指标主要有3个:切分速度,切分精度,系统的可维护性。切分精度则直接反映系统的正确性与科学性,是3个指标中最重要的一个。所以,要提高自动分词的精度,就必须有效地处理歧义字段。现有的分词方法,无论是机械分词法、语义分词法,还是人工智能分词法都不能有效解决汉语自动分词中存在的困难。因为它们普遍具有以下局限性:
(1)切分效率不高。分词速度和分词精度是切分效率的重要衡量指标。现有的分词方法基本上都是基于规则和词典的分词方法,它们都必须在分词速度和精度之间做出选择。要提高速度,就要适当放弃精度的追求,缩减词典,减少匹配次数。而要提高切分精度,就得舍弃速度,无限扩充词典,匹配次数也会无限增加。目前还没有找到有效的破解方法。
(2)不能有效消除歧义。书面汉语自动分词是把汉语文本中汉字字符的序列用计算机切分成词的序列的过程。汉字是方块字,每一个方块汉字都自为一个独立的、完整的书写单元,相互之间没有明显的界限,书写时字与字逐一连续等距离排列,词与词之间没有空格隔开,没有任何区分标志。加上汉语词理解的多义性、复杂性,因而歧义现象是自动分词过程中不可避免的现象。在自动分词过程中具有两种或两种以上切分形式的字段称为歧义字段,只有歧义字段才能产生错误切分,自动分词中的歧义现象一般分为三类:第一类为交集型歧义切分字段,第二类为多义组合型歧义切分字段,第三类为混合型歧义切分字段。[12-16] 也有人根据歧义产生的根源将分词过程中歧义字段归结为以下3个方面:A)由自然语言中的二义性所引起的歧义,称为第一类歧义;B)用人工分词是不会产生而由计算机自动分词产生的特有歧义,称为第二类歧义;C)由于分词词典的大小而引起的歧义,称为第三类歧义,不论词典有多大都可能产生歧义。
同时汉语自动分词中的歧义还有不同的表现层次,如果进行全切分,则可发现汉语中歧义普遍存在。但是这些歧义在实际语料中都有一定的表现层次,绝大部分可在较低层次消除。根据其表现层次,汉语分词歧义可分为4类:假性歧义、字段歧义、句法层歧义及上下文歧义。假性歧义指不论在什么上下文中都不会切分为多个词的组合型歧义。字段歧义指只凭前后字段即可确定切分结果的歧义,许多交集型歧义属于此类。句法层歧义需利用前后词性及句法限制来消歧,这包括部分组合型与交集型歧义。上下文歧义指其不同切分均符合语法,消歧依赖于语义及上下文。这类歧义虽出现频率很小,但最难处理。歧义表现层次的划分标准不是汉字串本身,而是其出现的上下文环境。因而对于任何歧义都必须考虑其上下文来确定消歧方法。[17]
歧义现象在词典式分词方法中普遍存在,而且只能有限减少,不可能完全消除。
4 汉语自动分词系统研究
汉语自动分词是机器翻译、文献标引、智能检索、自然语言理解与处理的基础。这一中文信息处理领域的重大命题吸引了计算机界和语言学界的许多志士能人,从80年代初期以来,涌现了相当数量的研究成果。十余年来,一些实用性的分词系统逐步得以开发,见诸报端的汉语自动分词系统主要有:
(1)由北京航空航天大学计算机系于1983年设计实现的CDWS分词系统是我国第一个实用的自动分词系统,它采用的自动分词方法为最大匹配法,辅助以词尾字构词纠错技术。其分词速度为5-10字/秒,切分精度约为1/625,基本满足了词频统计和其他一些应用的需要。这是汉语自动分词实践的首次尝试,具有很大的启发作用和理论意义。
(2)山西大学计算机系研制出的ABWS自动分词系统,系统使用的分词方法称为“两次扫描联想-回溯”方法,用“联想-回溯”来解决引起组合切分歧义。系统词库运用了较多的词法、句法等知识。其切分正确率为98.6%(不包括非常用、未登录的专用名词),运行速度为48词/分钟。
(3)北京航空航天大学于1988年实现了CASS式分词。它使用的是一种变形的最大匹配方法,即正向增字最大匹配。它运用知识库来处理歧义字段。其机械分词速度为200字/秒以上,知识库分词速度150字/秒(没有完全实现)。
(4)北京师范大学现代教育研究所于1991前后研制出书面汉语自动分词专家系统,它首次将专家系统方法完整地引入到分词技术中。据报道,系统对封闭原料的切分精度为99.94%,对开放语料的切分精度达到99.8%,在386机器上切分速度达到200字/秒左右。
(5)清华大学的SEG分词系统。该系统提供了带回溯的正向、反向、双向最大匹配法和全切分-评价切分算法,由用户来选择合适的切分算法。其特点则是带修剪的“全切分-评价”算法。经过封闭试验,在多遍切分之后,“全切分-评价”算法的精度可以达到99%左右。
(6)清华大学的SEGTAG系统。该系统着眼于将各种各类的信息进行综合,以便最大限度地利用这些信息提高切分精度。系统使用有向图来集成各种各样的信息,这些信息包括切分标志、预切分模式、其他切分单位。通过实验,该系统的切分精度基本上可达到99%左右,能够处理未登录词比较密集的文本,切分速度约为30字/秒。
(7)国家语委文字所应用句法分析技术的汉语自动分词系统。该分词模型考虑了句法分析在自动分词系统中的作用,以更好地解决切分歧义。切词过程考虑到了所有的切分可能,并运用汉语句法等信息从各种切分可能中选择出合理的切分结果。其过程由两步构成:一、对输入字串进行处理,得到一个所有可能的切分字串的集合,即进行(不受限的)全切分;二、利用句法分析从全切分集合中将某些词选出来,由它们构成合理的词序列,还原为原输入字串。随着软硬件水平的不断提高,直接运用时空消耗比较大的句法分析来检查分词结果的方法正在日益显现其优越性。
(8)复旦分词系统。该系统由四个模块构成:一、预处理模块;二、歧义识别模块;三、歧义字段处理模块;四、未登录词识别模块。实验过程中,对中文姓氏的自动辨别达到了70%的准确率。对文本中的地名和领域专有词汇也进行了一定的识别。
(9)哈工大统计分词系统。该系统是一种典型的运用统计方法的纯切词系统,它试图将串频统计和词匹配结合起来。系统由三个部分构成:一、预处理模块;二、串频统计模块;三、切分模块。该系统能够利用上下文识别大部分生词,解决一部分切分歧义,但是统计分词方法对常用词识别精度差的固有缺点仍然存在。经测试,此系统的分词错误率为1.5%,速度为236字/秒。
(10)杭州大学改进的MM分词系统。考虑到汉语的歧义切分字段出现的平均最大概率为1/110,因而机械分词的精度在理论上能够达到1-1/100=99.1%。根据统计,汉语的局部(词法一级)歧义字段占了全部歧义的84%,句法歧义占10%,如果提高系统处理这两类歧义的准确率,则可以大幅度提高切分精度。该系统采用了改进的MM分词算法。系统精度的实验结果为95%,低于理论值99.73%,但高于通常的MM、RMM、DMM方法。
(11)Microsoft Research汉语句法分析器中的自动分词系统。微软研究院的自然语言研究所从1997年开始,增加了中文处理的研究,从而使NLP Win成为能够进行7国语言处理的系统(其中日语和韩语部分的研究已较早地开展起来)。据报道,NLPWin的语法分析部分使用的是一种双向的Chart Parsing,使用了语法规则并以概率模型作导向,将语法和分析器独立开。实验结果表明,系统可以正确处理85%的歧义切分字段,在Pentium 200 PC上的速度约600-900字/秒。考虑到系统对多种切分结果进行了完全的句法分析、对词典每个属性进行了完全的查找,这是相当可观的效率。
(12)北大计算语言所的分词系统。该系统将分词和词类标注结合起来,系统的语言模型实现了通用性与多样性的有效结合,并达到了极高的速度。经过最近在搜索算法上的改进,系统的分词连同标注的速度在Pentium 133Hz/16MB内存机器上达到了每秒3千词以上,而在Pentium II/64MB内存机器上速度高达每秒5千词。系统自开发以来,已先后向国内和国外十多家单位进行了转让,获得了普遍的好评。
(13)北大计算语言所的汉语文本分析系统。在北大计算语言所开发的汉语切词和词类标注系统的基础上,开发者又设计了一个通用性强的汉语文本处理系统。据考察,这是目前国内最好的句子级以内消歧技术之一。
(14)东北工学院建立的基于规则的汉语分词系统,在SUN工作站上实现。
(15)南京大学完成的分词系统WS2BN,使用改进的最大匹配法、结合标志分词法,辅之以词法和语义知识。
(16)中软总公司研制的链接表法分词系统,在GW-286机上实现,分词速度12-13字/秒,准确率95%以上。
(17)上海交大1985年采用部件词典法研制的自动抽词系统。
此外,还有北京科技大学李秀志推出的“综合匹配法汉语自动分词系统”、四川省农科院情报所牛凯的“中文科技文献计算机自动标引系统”等同类成果报道。与汉语自动分词相关的基础研究和应用研究也在计算语言学界加紧进行。北航、人大和北大等十多个单位1981年到1985年间进行了现代汉语词频分析为主的单词标引向采用较复杂语言分析技术的短语标引过渡的研究,他们进行的现代汉语词频统计是迄今为止国内进行的规模最大(2023万字)、被统计材料时间分布最长(1991—1982)、分科最多(社会科学、自然科学两大类十个学科)、词典巨大(13万条)的词频统计。而且,在国内外运用计算机汉语自动分词系统进行大规模词频统计尚属首例。国内还提出了一些初步的汉语理解模型和生成模型,并建立了一批汉语理解实验系统、汉语接口系统和机器翻译系统。如北大俞士汶等研制的“英汉科学文献题录翻译系统”;中国科技信息所的“IST IC-I型英汉题录机译系统”;中软总公司的“译星机译系统”;铁道部情报所的“铁路文献题录系统”;清华大学的“自然语言理解与人机接口”等。这些系统的研制成功标志着汉语自动分词的研究成果已进入局部实用阶段。[18-19]
5 汉语自动分词应用研究
汉语自动分词应用相当广泛,已经在信息检索、自动标引、自动文摘、机器翻译、语言学研究、搜索引擎研究和自然语言理解等方面取得了重大的研究成果。
信息检索。自动分词与信息检索的结合实现了自然语言检索接口,这是自然语言检索的一个重要方面,自动分词是实现基于自然语言理解的智能检索的前提,是贯穿于信息检索系统整体流程中不可缺少的处理步骤。[20] 在信息检索系统的设计中,如果能先解决自动分词问题,就会大大提高检索系统的检索效率。检索语言的发展趋势应是检索语言的自然语言化发展与自然语言的检索语言化发展的双向结合。
自动标引。以自动分词为基础,专家学者们研制出了多种自动标引系统,归结起来有:词典切分标引法、单汉字标引法、机助标引法、统计标引法、逻辑推理法、语法语义分析标引法、自动标引专家系统和神经网络分词标引法等。这些自动标引方法可以分为三类,即统计法、语言法和人工智能法。并相应地开发出了一些科学实用的自动标引系统。[21-23]
自动文摘。自动文摘是自动分词的一个十分重要的应用领域。国外在自动文摘研究方面已经取得了丰富的研究成果,并开发了大量实用的自动文摘系统。相比之下,汉语自动文摘研究较为困难,研究成果也相对较少。实现汉语自动文摘必须首先攻克汉语自动分词、计算机中文信息处理和计算机语言理解等难题。尽管困难重重,我国在自动文摘研究方面仍然取得了一系列可喜的成绩,自动文摘理论和方法研究成果不断涌现,针对汉语自身特点而开发的中文自动文摘系统也开始由实验走向应用。[24]
机器翻译。机器翻译本质上是对人类思维和语言活动的模拟,突破的焦点是让计算机理解和表达人类的语言。目前国内外关于机器翻译研究已取得了丰富的研究成果,并已经进入了实际应用阶段。但要实现全自动高质量的机器翻译仍是一个长远目标,不可能在短期内实现,需要多个领域的学者专家们长期不懈地努力和追求。[25]
搜索引擎研究。中文搜索引擎的重点在于中文关键信息的提取,其中的难点就是中文自动分词。随着因特网在我国的发展和普及,中文搜索引擎研究有了重大突破。在短期内就涌现出了许多重要的中文搜索引擎,并得到了广泛应用。目前,已开发并投入使用的中文搜索引擎已达上百种,并且数量仍在不断增加,质量也不断提高。但是,中文搜索引擎研究开发仍然存在大量的问题,如在信息组织、检索速度、检准率和检全率等方面还有较大的发展空间。今后,中文搜索引擎的研究方向应是将中文自动分词、信息检索、自然语言理解和人工智能等与搜索引擎研究相结合。[26] [27]
语言文字研究。计算机的出现和发展,引起了科学技术的巨大变化,也为语言学研究开辟了新的发展途径。计算机一方面对语言学提出了一系列新的要求,来武装其“头脑”,以发展它的智力(如赋予它信息检索能力,语言翻译能力,自然语言理解能力),给它添加“翅膀”以赋予它听觉(如识别口语),更强的视觉(如识别文字),说话能力(如言语合成)和听写能力(如语音打字)。另一方面它又充当语言学的得力助手,帮助语言学工作者对语言素材进行分类、统计、演算、控制和模拟等。将计算机与语言学有机结合起来,彼此互助,彼此互补,从而使得实现计算机高度智能化成为可能。利用计算机来处理自然语言是一门新学科——计算语言学,目前研究得比较多的课题有:机器翻译、情报检索、言语识别和言语合成、汉字信息处理、语音分析自动人、人工智能中的自然语言理解等。[28]
自然语言理解。自然语言理解是人工智能研究的最重要课题之一,同时也是自动分词研究最前沿的难题之一。国外在自然语言理解方面的研究起步较早,一些卓有成就的计算机专家、语言学家、逻辑学家和心理学家都在自然语言理解中的语法、句法及语义分析方面提出了一系列较为系统的理论的方法。比较有影响的理论有:转换生成语法、依存语法、语义网络、蒙塔鸠语法、扩展转换网络、系统语法、格语法和语义网络理论、概念依存理论、境况语义学和语料库语言学等。这些理论和方法大致可归为基于语法的分析法、基于语法与语义相结合的分析法和基于语义的分析法三类。尽管国外在自然语言理解上研究较早,成熟的理论和方法也不少,开发的实验系统也不计其数,但到目前为止,现有系统离真正的实用要求尚存在较大距离。国内在自然语言理解研究方面起步较晚,且较为系统的研究成果也为数不多。因为我国的自然语言理解研究必须以汉语为研究对象,而我国传统的汉语研究,并不以计算机处理汉语为目的,尽管语言学家设计了许多汉语语法体系,可这些体系很难直接在自然语言理解的研究中得到有效应用。同时,由于汉语是无形态变化的语种,因此无法直接套用西方现有的语法、语义结构体系,这使得汉语自然语言理解研究工作困难重重。令人欣慰的是,近几年,国内自然语言理解的研究取得了很大的成绩,无论在汉语书面语的自动切分、汉语电子词典、汉语机读语料库、机器翻译、汉语人机对话、汉语情报检索等应用研究领域中,还是在结合汉语、汉字特点探索计算语言学基础理论的研究中,都出现了不少拓荒之作,取得了骄人的成果。[29-30]
此外,汉语自动分词在其他一些相关领域也得到了充分的利用,如词频统计、文献内容分析、概念分析和数据库编制等。
6 汉语自动分词研究展望
汉语自动分词是一个综合性的难题,涉及到众多的学科和研究领域,需要多个学科的研究成果作为基础。但是随着科学技术的快速发展,汉语自动分词也并非遥不可及。根据目前汉语自动分词的研究现状,以及相关学科的发展情况,汉语自动分词有望在三个重大研究领域取得突破性进展。
6.1 传统文本的有效切分
目前,汉语自动分词的研究重心主要集中在对传统文本的有效切分上。在计算机科学、情报信息和语言文字研究三个领域的学者专家们的共同努力之下,传统文本的有效切分已经取得了重大进展。
(1)汉语词的规范研究。汉语词的规范是汉语自动分词的基础。没有统一和明确的汉语词的定义,没有规范的汉语分词词表,汉语自动分词就无从谈起。在汉语语言学家和计算机中文信息处理研究专家们的共同努力之下,目前,我国汉语词的规范研究和汉语分词规范词表的制定已经有了较大突破。《信息处理用现代汉语分词词表》的制定及不断完善,说明了我国在汉语自动分词词表方面取得了重大研究成果,这为汉语自动分词的研究铺平了道路。[31-35]
(2)汉语词自动切分算法。分词算法研究是汉语自动分词的重点和难点,每一次分词算法上的突破都会使汉语自动分词的速度和精度有较大提高。据不完全统计,目前,在汉语自动分词方法和算法研究中,已经出现了数十种分词方法和算法。仅80年代以来见诸报端的自动分词方法和算法归纳起来就有:最大匹配法、逆向最大匹配法、逐词遍历法、设立切分标志法、最佳匹配法、有穷多层次列举法、二次扫描法、高频优先分词法、基于期望的分词法、联想——回溯法、双向扫描法、邻接约束法、扩充转移网络分词法、语境相关法、全自动词典切词法、基于规则的分词法、多遍扫描联想法、部件词典法、链接表法、最少分词词频选择法、专家系统分词法、基于神经网络的分词方法、特征词库法、EM算法、演化算法、直接匹配法和后缀匹配法、二分法、基于词形的分词算法、MM分词算法、改进的MM分词算法、RMM算法和DMM算法等上百种。传统汉语自动分词要获得新的突破,只能在分词算法上做文章,必须在现有的分词算法和方法的基础找到新的分词算法,这是今后汉语自动分词努力的重要方向之一。[36-40]
(3)汉语词自动切分歧义处理。汉语自动分词的主要困难是歧义切分,而歧义在自动分词中普遍存在。随着自动分词研究的突破,分词歧义处理研究也取得了重大进展。以前的消歧方法大体可分为两类:规则方法与统计方法。[41] 由于自动分词中存在三种歧义类型,不同类型的歧义,其产生的根源和消除的方法各不相同。因此,应针对不同的歧义类型采取不同的解决方法:对于第一类歧义,由于他们本身就是汉语言中的歧义问题,解决这类歧义需要依靠上下文语义信息,即增加语义、语用知识的处理。这无异对自动分词的效率有很大的影响(时间上和空间上),而且实现起来比较困难。若是在词处理的相应阶段,结合对分词阶段未解决的歧义字段进行处理,则会起到事半功倍的效果。统计表明,第一类歧义字段只占整个歧义字段总数的1/30以下,因此不必在分词阶段花费巨大的开销来处理它们。目前对第二类歧义处理方法主要有以下几种:分词知识处理法、联想—回溯法、基于词频统计的方法、邻接约束法、基于数学期望的方法。处理第三类歧义目前主要有两种方法:一是增加构词知识,扩大词典;二是增加临时词典。此外,还可以人工干预分词,人工分词与计算机自动分词结合。在遇到计算机解决不了的歧义时,借助于人工干预来完成。为了有效地消除歧义字段,还可以在上述方法的基础上建立分词歧义知识库或规则库。随着计算机技术和汉语语言研究的发展,汉语词自动切分歧义处理将会有更大的突破。[42-44]
(4)汉语自动分词应用研究。目前,汉语自动分词主要在信息检索、自动标引、自动文摘、机器翻译、语言文字研究、搜索引擎研究、自然语言理解和中文信息处理等方面的应用取得了可喜的成绩。随着汉语自动分词技术的进一步发展,这一研究成果将会被更广泛的应用到更多的研究领域,如词频统计、内容分析、概念分析、认知心理学和汉语语言学等方面。[45]
6.2 计算机技术的发展
汉语自动分词是中文信息处理的“瓶颈”问题,它的最终解决依赖于汉语的分词结构、句法结构、语义等语言知识的深入系统的研究;依赖于对语言与思维的本质的揭示;同时,在很大程度上还依赖于神经网络、专家系统、知识工程等人工智能技术的研究进展。计算机技术是汉语自动分词的技术基础,计算机技术发展的每一次巨大飞跃都是汉语自动分词的福音。因为自然语言理解既是人工智能研究领域需要解决的重大课题,也是汉语自动分词研究的重要内容。因此,汉语自动分词研究发展的同时也寄希望于人工智能技术的突破。
人工智能是对信息进行智能化处理的一种模式,主要有两种处理方式:一种是基于心理学的符号处理方法,模拟人脑的功能,像专家系统即是希望模拟人脑的功能,构造推理网络,经过符号转换,从而可以进行解释性处理。另一种是基于生理学的模拟方法,神经网络旨在模拟人脑的神经系统机构的运作机制来实现一定的功能。以上两种思路也是近年来人工智能领域研究的热点问题,应用到分词方法上,于是产生了专家系统分词法和神经网络分词法。[46]
目前,人工智能技术的重点研究领域主要是专家系统、神经网络技术和生物芯片技术。从人工智能的发展和汉语自动分词的要求出发,比较理想的自动分词系统应该综合词法、句法和语义信息,而用计算机对语义、语法进行自动分析尚处在研究阶段。因而,已经推出的汉语分词与标引系统只能采用以机械分词为主,辅之以能部分反映词法、句法和语义规则的改进算法。但仍难以解决复杂的汉语组词关系。因此,今后应注重汉语句法和语义的自动分析研究,并将其应用到汉语自动分词领域。今后应引入知识分词的技术与方法,采用知识分词语义分析法进行自动分词系统的研究。从目前已经公开的各种分词方法看,性能比较优异且具发展前景的应推基于符号和启发式推理的专家系统和基于数值和算法的神经网络技术。神经网络具有联想、容错、记忆、自适应、自学习和处理复杂多模式等优点,不足的是网络连接模型表达复杂,训练过程较长,不能对自身的推理方法进行解释,对未在训练样本中出现过的新词汇不能给予正确切分;专家系统具有显式的知识表达形式,知识容易维护,能对推理行为进行解释,并可利用深层知识来切分歧义字段,缺点是不能从经验中学习,当知识库庞大时难以维护,在进行多歧义字段切分时耗时较长,同时在知识表示、知识获取和知识验证等方面存在一些问题。因而,把神经网络技术与专家系统结合起来用于汉语自动分词与标引系统将是该领域的发展趋向。[47]
6.3 书面汉语书写规则的改造与规范
当现有的分词方法和人工智能技术不能有效地解决汉语词自动切分中的困难时,必须有一种新的思维方式来引导汉语自动分词的研究,那就是要研究汉语言本身的特点和规律,从汉语书面语的书写规则出发来寻求汉语自动分词的突破口,这也许是汉语自动分词发展的新方向。
对汉语书写规则进行适当改造,以使其便于利用,不是一种主观幻想。这样做既有理论依据,又有现实例子。其理论依据在于,其他许多语言虽然没有汉语那样博大精深和妙不可言,但却有利于计算机自动处理的优势,实有可取之处。而且任何一种语言都处于不断变化和发展之中,有益的东西要吸收进来,不利的东西要抛弃,并使其趋于完善。完善是相对而言,并非一成不变。语言产生和发展的真正意义还在于,便于交流和利用。这就是为什么解放后我国要进行多次汉语改革的原因。而这些成功的汉语改革正是我们对汉语书写规则进行改造的现实依据。为了使汉语走向全球,为了中华文化的再次伟大复兴,随着信息时代的到来,我们必须对汉语进行改革。因为它牵系一个民族发展的前途和命运。
书面汉语书写规则的改造与规范可以从西方语系(如英语)得出启示,也可以从东方语系(如日语和韩语)得到启发,还可以汲取藏文自动处理的做法。
西方语系与汉语的明显不同之处在于,西文都是拼音文字,词与词之间有空格等明显的间隔符,因此不存在语词切分的问题。西语的这一显著特征适应了计算机发展的要求,使得西语在计算机自动文字处理上具有巨大优势。这是一种偶然,可以说是上帝赐予西方人的最好的礼物。汉语显然不具备这一特征,而恰恰正是这一点又使得汉语不利于计算机自动处理,给我们留下了一个世纪难题。这是否能给我们一些启示呢?我们能否在汉语的书写上向西方人学习呢?这是值得我们思考的。当然,我们不必完全模仿西文而抛弃中文应有的特色和优点。为了使汉语便于计算机自动处理,我们只需要对现有的汉语语法规则作如下改造:一是要对汉语词进行明确规定,即界定什么是词;二是要在汉语文本的词与词之间增加适当的间隔符,即设立分词标志;三是要制定完整的汉语书写规则。这些都可以在汉语文本生成之前完成,如,由作者本人在写作时完成,或由出版编辑部门在稿件编辑时完成。这样我们就不必耗费巨资设计种种算法、编写各种软件来对传统文本进行切分了。
如果我们觉得西方语系难以接受的话,那么我们只要看看日语和韩语就应该有所觉悟了。日语同汉语十分接近,但日语较汉语适合于计算机自动处理。这是因为日语有丰富的词缀,日语中大量使用片假名和平假名构成了书面日语的词尾变化,而这些词缀可以作为计算机识别词的标志。虽然汉语不能像日语那样构造大量的词缀来作为词的标志,但是可以模仿日语设立其他词缀来区分词,如在词与词之间增加分隔符。韩语本身也有适合计算机自动处理的优势,因为韩语是部件式结构,能进行自由拆分和组合。而我国藏族的藏语是黏着性语言,在一定意义上,我们可以把传统藏文语法看作是由格助词及其接续特征规则构成的语法系统。这一语法系统的主要特点就是:各类名词性成分借助格助词及其接续特征规则构成句节进而由句节结合动词来组织句子。一般而言,藏语的句子是以动词为中心来组织的,动词决定着格助词的添接规则。人们之所以能够阅读并理解句子的含义,主要靠的就是这种词、短语之间的格助词及其接续特征规则以及由此构成的句节与句末动词之间特有的相互联系。一个句子如果在格助词的表述上出现了错误,我们就无法正确理解它的含义。进而言之,藏语句子的组织过程就是在词与词、短语与短语之间添加格助词并与句末动词有效地结合的过程,而藏语分词过程则相当于组织藏语句子的逆过程。因此,藏文分词的关键是如何结合藏语字、词、句各类形式特征来确定格助词及其接续特征规则的识别算法、结合分词过程的实际需求来有效利用各类资源并进而制定出切实可行的藏文分词策略。[48] 相比之下,汉语则明显缺乏足够的自动分词信息,所以必须对汉语文本进行改造,添加必要的分词信息。
基于以上启示,汉语的书写规则是完全可以进行改造的。如果词的范畴已经明确,书写规则已经制定,而且分隔符也已确定,那么我们就可以对汉语书写规则进行适当的改造了。这是一种新的分词思维,是一种类似英语词切分的无词典式分词方法,即改造书面汉语书写规则,在规范词的基础上,书写或录入时在词与词之间增加分隔符,增加自动分词信息,以便计算机自动识别和切分。这是一种一劳永逸的分词方法。尽管目前我们还不习惯,但是一旦它形成标准,而编辑部和出版社又按此标准对稿件进行规范时,我们有理由相信只要假以时日,就会有一种新的适合计算机自动处理的新的汉语文本出现,而这种文本并不破坏汉语自身固有的特色和优点。
此外,在进行信息交流和处理时,我们除了使用自然语言之外,还有很多其他的人工语言,如数学语言、检索语言、逻辑语言、程序设计语言等。这些人工语言和自然语言一样都有一个共同特点,那就是都有一定数量的符号系统和一套完整的语法规则。但是,这些人工语言在很大程度上都适应了计算机技术的发展,具有较强的生命力。由此可得,我们应该能像这些人工语言一样设计出一套新语言系统,模拟现有的汉语语言,并对其进行改造。例如,在数学语言中,“因为”通常用“∴”表示,“所以”通常用“∵”表示,清楚明白,一看便知。又如,在普通逻辑的三段论推理中,分别用“P”、“S”、“M”表示大前提、小前提和结论。数理逻辑和各种程序设计语言中的符号系统更是十分完备,完全可以用来进行信息表示、信息传递、信息存储和信息处理,并实现信息的自由交流。
当然,要设计一套这样完整的人工语言,并且还要能取代汉语进行自由信息交流,并不是一件十分容易和简单的事情。需要投入大量的人力、物力、财力,以及众多学科领域的专家学者共同努力协作,反复研究和实验,才有可能实现。但是,这不是一种遐思,在目前看来,至少是值得一试的一种新思路和新的思维方式。希望能引起大家的注意。
汉语自动分词研究不是一个单纯的技术问题,它已经同汉语走向世界、中华民族文化的伟大复兴紧密地联系在一起。汉语,作为全世界使用人数最多的一门语言,随着信息时代的到来,其自身的发展和更新已是迫在眉睫。让更多的人了解汉语、学习汉语、使用汉语,将汉文化撒播到全球每一个角落,应该是每一个中国人的梦想。而要实现这一目标,就必须首先解决汉语自动分词问题,以便计算机能对汉语文本进行自由处理,增强汉语的生命力。