汉语文献自动分词存在的问题及趋向,本文主要内容关键词为:汉语论文,分词论文,文献论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
摘要 详细分析了目前汉语文献自动分词存在的问题,即词法的复杂性、切分的模糊性和语法分析问题。然后提出了汉语文献自动分词的发展趋向。
关键词 汉语文献 自动分词 文献标引
文献自动分词是文献检索,尤其是自然语言处理系统的关键。国外自动分词与自然语言处理的研究始于50年代末,现已获得很大进展。我国汉语文献自动分词与处理的研究起步较晚,主要开始于80年代初,近几年来这项研究工作进展较快,取得了许多可喜的成绩。但是,由于汉语构词与书写的特点与西方相异,因此不能把西文自动标引理论技术完全照搬到汉语自动分词与标引中来。汉语词在不同人中有不同的概念与标准,而且汉语字间组词丰富、复杂,这给汉语词的正确切分带来了极大困难,使这项研究工作长期以来缺少突破性进展。
1 汉语文献自动分词存在的问题
近十年来,语言学界和人工智能领域的学者,在汉语自动分词与标引的研究与实践上进行了大量的研究,找到了许多解决汉语分词与标引问题的方法。根据这些方法实现的手段不同,大致可分为7类:词典切分标引法、切分标记法、统计标记标引法、单汉字标引法、机助标引法、语法与语义分析分词法和神经网络汉语分词法。但这些方法都存在优劣两面,至今没有一种方法完全解决了汉语文献自动分词这一问题。以下举例分析汉语文献自动分词存在的问题。
1.1 词法的复杂性
在汉语中,词与词之间不象西文那样有明显的空格分隔。汉语字的组词非常灵活,难以确定字在词中的位置,而且虚词较多,新词不断增加,这些现象必然导致文献分词中的混乱现象。例如,“酸牛奶”可以分为3个词:“酸/牛/奶”。虽然“牛奶”可以分成两个词,但是“水牛”却只能作为一个词而不能分成“水”和“牛”两个词。
从标引员或检索者的角度来说,自动区分同形异义词是很困难的。例如,“牛皮”照字义理解为“牛的皮”,但是它还有“夸大”的意思。同样,将同义词联系起来考虑也是难以做到的。例如,大陆所用的“计算机”一词,在港台地区则用“电脑”代替,现有的分词标引方法很难将这两个词作为同一词处理。
一个汉语表达可以当作一个词或一个短语,但是其含义不同。当它作为一个词时,则不应切分;而如果是一个短语,它就能切分成词。例如,“中国解决了吃饭问题”中的“吃饭”作为一个词的意思是“食物”或“吃”,而“昨天吃面,今天吃饭”中的“吃饭”则是一个动词短语,意思为“吃米饭”。
许多专有名词(如地理名称或人名)、缩略语和外来语同样存在切分问题。解决这一问题的方法是把这些词存储在词典里。但是,任何词典都不可能穷尽所有的词,因此容易导致错误的切分。例如,“水口水电站”的正确切分为:“水口/水电/站”。但是由于词典中一般不包括“水口”这个小地名,因此可能导致:“水口/口水/电站”这种错误切分。同样,“生产科教”这个缩略语的正确切分为“生产/科教”,而不是“生/产科/教”。
1.2 切分的模糊性
某一汉字字符串C1—C2—C3可以切分成C1—C2/C3或C1/C2—C3。这种模糊性给汉语文献切分提出了最棘手的问题。例如,对“认真实行”这一汉字字符串的几种可能切分为:“认真”、“真实”、“实行”。一些模糊性问题可以通过改变切分方向来解决,即用逆向扫描代替顺向扫描。因为重要的词素和词通常出现在复合词或短语的右端,因此逆向扫描可能产生比顺向扫描更多的正确切分结果。但是,任何一种扫描方式都不能保证总是正确的,甚至有时两种扫描方式都会产生错误结果。例如,对“发展中国家”进行顺向扫描可切分为:“发展/中国/家”,逆向扫描可切分为:“发展/中/国家”。在这种情况下,逆向切分是正确的。对“中国科学院”进行顺向扫描可切分为:“中国/科学/院”,逆向扫描可切分为:“中国/科/学院”,在这种情况下顺向扫描切分是正确的。又如“信息技术等高技术产品”的正确切分为:“信息/技术/等/高/技术/产品”。在这种情况下,逆向扫描和顺向扫描都产生同样的错误切分:“信息/技术/等高/技术/产品”。
许多研究人员试图解决多种切分方法导致的模糊性,但收效不在,不够完善。这是因为试图产生全部可能切分的系统会遇到组配过泛的问题。此外,即使这样的系统是可行的,它仍难以选择正确的切分。还有,即使采取语义分析也不可能完全解决切分的模糊性,这就使汉语文献自动分词困难重重。
1.3 语法分析问题
目前已有的自动分词方法利用了自然语言处理中的某些技术,但仍不能完善地解决汉语语法分析问题。词的分类是自然语言语法分析的必要前提之一。但是,由于汉语缺少派生的词缀,而且标准的句法范畴系统尚不存在,甚至权威性词典也不能表明一个词属于哪一类,从而导致语法分析时易产生分类模糊问题。总之,消除范畴歧义是非常困难的。在一些情况下,消除范畴歧义和文献分词之间相互依赖。同时,由于在自然语言中存在句法的多义性,消除范畴歧义还可能遇到组配问题。对检索来说,消除动词和名词之间的歧义尤为重要。许多复合词含有两个名词,其中第二个词也可以用作动词,如“图象/处理”。对“图象/处理/技术”这个短语进行语法分析,“图象/技术”就是一个正确的短语。相反,对“图书馆/处理/图书”这个句子,抽取“图书馆/处理”就是错误的。当然,动词和名词之间的歧义并非孤立存在的问题,它与其它词性的歧义密切相关。
复合词的语法分析亦是分词难点所在。假如一个复合词由3个名词部件N1—N2—N3组成,人们很难清楚地判断正确的语法分析是N1—N2/N3还是N1/N2—N3。也许只有一种是正确的,也许两种都是正确的。假如,把“汉字电脑输入”分析成“汉字/电脑输入”更为合适,但对“汉字电脑开发”来说,更贴切的分析是“汉字电脑/开发”。确定在一个短语、句子或段落中,非相邻的词是否应组配成短语,对文献分词系统来说难度更高。例如上例中“汉字输入”是正确组配,但是“汉字开发”则是错误组配。
汉字句法并非固定,它基本上可归纳为两个方面:自由词序和主题突出。一方面,英文词序以“主—谓—宾”作为句子的基本结构,而在汉语句法中则有不同的词序:主—谓—宾、主—宾—谓、宾—主—谓,甚至宾—谓—主。例如,“我看过这本书。”是主—谓—宾结构,而“这本书我看过”。是宾—主—谓结构。另一方面,人们可以按照作者或讲话人所强调的内容来理解主题,因为主题通常出现在句首位置。主题与主语的区别在于主语通常是动作的执行者或与连系动词有关,且主语应与谓语保持一致,而主题与动词之间没有这种限制关系。总之,主题突出是解决汉语句法中自由词序问题的主要方法。
2 汉语文献自动分词的发展趋向
从以上分析可以看出,现有的各类标引技术还不够完善,切分处理技术还不能适应汉语丰富的构词变化,语法和语义分词标引法还不成熟。因此,自动分词和标引技术有待于在以下方面发展。
2.1 切分词典设计
就目前普遍使用的微机环境而言,首先必须解决切分词典的设计问题,研究压缩技术以及词典的代码化,以减小系统的空间开销。其次,抽词标引算法技术的研究应更注重实际应用的研究,以提高切分的正确率,解决歧义、交集型字符串等问题。再次,为适应当今社会、经济和科学技术的高速发展,新概念、新词汇层出不穷的状况,自动分词系统必须具有增加新词的能力。
2.2 汉语自动分析研究
机械分词难以解决复杂的汉语组词的关系,因此今后应注重对汉语句法和语义的自动分析研究,并将其应用到汉语文献自动分词与标引领域。应引入知识分词的技术与方法,采用知识分词语义分析法进行文献标引专家系统的研究。此外,应从自然语言理解角度出发,采用不同层次的处理方法。具体地说,从语义、句法、知识库、语境相关分析等语言学角度出发,进行知识分词的理论性研究,以推动整个自动标引技术研究的迅速发展。
2.3 神经网络分词方法
神经网络分词方法是未来汉语自动标引技术发展的必然。由于人们目前采用的规则推理与状态转移机理不能完全表达人脑思维的机制;对复杂、模糊的语义信息的处理,仍显得无能为力;分词知识库的构造,词典中信息的选择,具有很大的人力因素;同时,系统本身的自学习与再学习缺乏有效手段,所以自然语言处理中的语法、语义研究的进一步发展必然要走向神经网络的分词与理解系统。
总之,汉语文献自动分词是汉语文献自动标引的基础。近年来,我国的自动标引系统正从实验阶段走向实用阶段。注重汉语文献自动分词的研究,无论对我国汉语自动标引的研究,还是对我国情报检索系统的发展,都有一定的现实意义。