论知识组织的语言基础_自然语言处理论文

论知识组织的语言学基础,本文主要内容关键词为:语言学论文,组织论文,基础论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[分类号]G302

1 序言:知识与语言

知识分为主观知识和客观知识。本文所称知识均指客观知识。客观知识是用各种形式的语言记录在脑外载体(主要是文献)之上的知识。语言是客观知识的第一载体,文献则是客观知识的第二载体。可以说,客观知识世界就是人的语言所表达的世界,知识是语言所表达的思想内容,语言是知识的表达工具。可见,知识与语言之间存在着同构关系。其中,知识本身的结构呈现为内隐结构,而语言结构则呈现为外显结构。也就是说,知识结构是通过语言结构表现出来的。知识的表现有其特定的语言逻辑,所以在知识组织的过程和方法中也必然存在其特定的语言学基础。

2 知识组织的语义学基础

知识组织的语义学基础,是指在知识组织过程中所遵循的语义学原则与方法。知识组织的首要任务就是把知识客体中的语义结构揭示出来,供人们识别和选择。知识组织过程中的语义揭示可借用专家系统中的术语称之为知识表示(knowledge representation)。所谓知识表示,就是把知识客体中的知识单元及其关联关系用某种语言形式(如文字语言、框图语言等)表示出来。在专家系统中,知识表示方法有一阶谓词逻辑表示法、产生式规则表示法、框架式表示法、语义网络表示法等。这些方法是根据计算机程序运算方式的不同来区分的。从一般逻辑方法看,知识表示方法可分为定义法、概述法、指示法和逻辑标示法等。

2.1 定义法

知识表示的定义法,是指采用形式逻辑中的下定义的方法来揭示某一知识客体的内涵与外延,直接性和简洁性是它的特点。它能够回答某一知识客体“是什么”的小问题,是人们最熟悉、最常用的知识表示方法。各种类型的词典、百科全书等就是采用定义法来表示知识的。定义法主要用来表示知识单元的内涵,但缺乏对知识单元之间联系的表示功能。

2.2 概述法

概述法是指概括性地描述知识的方法。这种方法不仅可以定义某一知识客体,而且还可以概略性地介绍该知识客体的相关背景信息,概括性和浓缩性是它的特点。教科书、综述、报道性文摘、类书等,就是主要用概述法来表示知识的。

2.3 指示法

指示法就是简要显示知识客体的一些形式特征和内容特征,以引导用户指向知识客体。这种方法一般不表示知识客体的全部内容信息,而只提供一些指向知识客体的线索。指示法对知识的表示侧重于知识客体的表层结构信息,而很少涉及深层结构信息,即使涉及一些内容特征信息,也局限于摘要性、提要性的简单信息。它的特点是表层性和指向性。各种书目、索引、题录、文献指南以及指示性文摘、提要性文摘等就是主要用指示法来表示知识的。

2.4 逻辑标示法

逻辑标示法就是把能够表示知识的所有概念或语词按一定的逻辑顺序排列起来,使这些概念或语词之间形成一种逻辑空间体系(即语义场),根据概念或语词在语义场中的位置及其联系方式来表示知识的一种方法。概念或语词之间的语义逻辑关系有聚合关系和组合关系两种。语义聚合关系是指一个语义场内语词之间按相互间的隶属关系形成的纵向序列关系;而语义组合关系是指同一语义场或不同语义场内的语词之间相互搭配形成的横向组配关系。语义聚合关系是一种显性结构,而语义组合关系是一种隐性结构。逻辑标示法用概念或语词之间的逻辑网络关系来表示知识单元及其联系,因此这种方法又可称为逻辑网络法。逻辑性和网络性是它的特点。分类法和主题法就是用逻辑标示法来表示知识的。

上述知识表示方法在语言学上的共同点之一是:都是用一种语言表征另一种语言,即用表征语言(标引语言)去表征知识客体的语言(作者语言)。这种表征能够成功的前提是两种语言之间在语义上具有通约性(即相同性或相通性,包括部分相同性或相通性)。另一个共同点是,都力图以最少数量的语义单位表征最多的语义内容,即都追求最大的语义力。因此可以说,语义通约性和语义力最大化是知识组织的语义学基础。

3 知识组织的语法学基础

任何一种语言,不仅要以词为基础,而且还要以语法为锁链。词是语言的基本单位,但语言不是词的堆砌,它必须通过语法来加以组织和控制,才能表达某种意义。知识组织的语法学基础,就是指在表示语义时遵循的语法规则与方法。知识组织的语法学任务,就是为知识的语义表示提供语法保障。从知识组织的历史实践看,语义表示中通常使用的语法手段有:语义分析中的语法分析、语义组配中的语法逻辑、语义控制中的语法辅助、语义综合中的语法重组、语义检索中的语法指引等。

3.1 语义分析中的语法分析

语义分析是语义表示的前提和关键。语义分析在文献主题标引中称为主题分析。所谓主题分析,简单地说就是分析出文献主题的构成因素。文献的主题因素一般包括主体因素、通用因素、位置因素、时间因素和文献类型因素等。在分析这些主题因素时,搞清各主题因素之间的语法关系是正确标引文献的关键。在汉语文献标引中,语法分析往往表现为对句子结构成分的分析。汉语句子的结构成分可分为两组:一组是基本成分,包括主语、谓语和宾语;另一组是附加成分,包括定语、状况和补语。在进行主题分析时,应首先抓住句子的基本成分,因为句子的基本成分在一般情况下都表达主题中心,尤其是主语和宾语,往往反映文献研究的具体事物对象。例如,“影响飞行安全的几个问题”一文,其主题是“影响飞行安全”,有三个语法成分:谓语、定语和宾语;如果把“飞行安全”看作一个词组,就只有两个成分:谓语和宾语。显然,这篇文献研究的具体事物对象是“飞行安全”(宾语),这是该主题中关键性的、具有独立检索意义的主题因素。

3.2 语义组配中的语法逻辑

在知识的语义表示过程中,经常需要通过词与词或词组与词组之间的概念组配来表达特定的概念意义,这就是知识表示过程中的语义组配。语义组配在文献主题标引中表现为主题词组配。主题词的组配,除了要求正确选择主题词(词汇控制)之外,还必须通过语法运算方法把含有该主题词的文献无遗漏、无差错地钩标出来,这样才能保证组配的准确性,避免漏检和误检。这里所谓的语法运算,是指根据词间语法关系,按照某种逻辑运算规则,把所涉及的主题词加以组合的过程。例如,具有联合关系的主题词间组配,就要采用布尔代数中的逻辑和运算方式进行组配。逻辑和的运算符号为“∪”(并集符),其运算公式为A∪B,其运算结果必须满足“或者属于A,或者属于B”的要求,即满足这一要求的文献号码就被钩标出来。再如具有偏正、主谓、动宾关系的主题词组配,就要采用逻辑积运算方式,其运算符为“∩”(交集符),其运算公式为A∩B,其运算结果必须满足“既属于A,又属于B”的要求,即满足这一要求的文献号码就被钩标出来。对于具有多种语法关系的复杂主题词间的组配,则要采取逻辑和与逻辑积混合运算的方式。

另外,语义组配中的引用次序问题也属于语法逻辑范畴。引用次序,亦称组配次序,是指对复合主题进行标引时,各个主题因素的组合排列次序。在分类法中,引用次序是指类目划分标准或不同组配被引用的先后顺序;在主题法中,引用次序则指字顺标题中各个主题因素的排列次序,它决定主题款目的排检位置。人们对什么样的引用次序最为科学、合理提出了众多方案,其中最具代表性的有柯茨(E.J.Coates)等提出的显著性引用次序;阮冈纳赞、维克利(B.C.Vickery)等提出的范畴职能次序;奥斯汀(D.Austin)等提出的上下文从属引用次序和我国刘湘生提出的主题组配公式等。使用不同的引用次序方案,就会产生出不同的标引结果(款目)。但是,这些方案都是针对主题因素的组配次序而言的,都没有改变主题因素本身的语义内容,因此,引用次序的规定实质是一种语法性规定,属于语法逻辑范畴。

3.3 语义控制中的语法辅助

在知识的语义表示过程中,往往需要对所用词汇进行语义上的控制,以确定所用词汇的确切涵义。这种控制在自然语言中往往是通过上下文联系(语境)或语义注释手段来实现,而在专门用于知识组织的人工语言中,则主要通过词汇在范畴体系中的位置、参照注释以及少量的直接语义注释手段来实现。除此之外,人工语言还使用一些特殊的语法手段来帮助实现语义控制。在文献主题标引中所使用的联号、职号、加权等方法,就是这种语法辅助控制手段的体现。

3.3.1 联号 亦即联系符号,是一种用以揭示同一文献中不同主题词之间联系强度的专用符号。使用联号通常是在主题词后标上相应符号,一般为数字或字母。具有相同联号的主题词间可以进行组配,联号不同就不能组配,以此避免虚假组配。例如在标引“铝的焊接和铜的清洗”一文时,设其文献号为1024,以数字1、2为联号,则该文献可标引为:

主题词

文献号 联号

铜 1024

1

清洗1024

1

铝 1024

2

焊接1024

2

由此保证:“铝—焊接”、“铜—清洗”的正确组配,而不致于出现“铝—清洗”、“铜—焊接”这样的错误组配。

3.3.2 职号 亦即职能符号,是一种表示主题词在组配中的语法职能的辅助符号。使用职号一般预先制定相应的范畴职能号表,如下表所示:

表1 职能号表

职号

 职能

A

动作对象

B部分

C性质

D操作

E

 施动者

根据这一职能号表,若标引“万用表检测”这一文献,就能正确标引出"E-D"即“万用表—检测”,而不致于出现"D-A"即“检测—万用表”这样的错误标引。

3.3.3 加权 是根据各主题词在语义表示中的重要程度赋予其相应权值,然后按权值递减顺序加以标引的语法手段。加权标引能够使重要程度高的主题词首先被标引,而那些与文献主题中心关系不大的主题词则可以不标,从而能够提高标引效率。

3.4 语义综合中的语法重组

语义综合是指对一定领域内的诸多知识客体中的相关语义信息加以归纳、概括的过程。而语义综合中的语法重组,是指对知识客体中的基本语义单位一词汇,进行重新组织,从而产生另一形式的知识产品的过程。所谓对词汇进行重新组织,是指把原来相对处于零散、孤立状态的相关词汇,按一定方式方法加以归类、链接、整序、浓缩,从而使这些词汇之间形成更加完整、系统的语义表达系统。在这个过程中,词汇的原本意义基本没有改变,而被改变的只是词汇之间原来的关联关系,所以这是一种语法性重组。综述、述评、手册、年鉴、百科全书等三次文献,就是通过语法重组手段形成的。在三次文献的形成过程中,虽然对原始文献所用词汇不可避免地有所“修改”,有一定的“创新”成分,但这种“修改”或“创新”从根本上说是在“尊重原意”基础上的一种完善过程,不属于根本意义上的创造性活动。因此,从语言学角度看,三次文献的形成过程基本上还是属于知识的语法重组范畴。

3.5 语义检索中的语法指引

从语言学角度看,知识检索必须建立在对知识客体的语义揭示基础之上。而且,人们检索知识的目的也是为了获得知识客体中的语义内容,所以说,知识检索的实质是语义检索。语义检索的途径是多种多样的,如分类途径、著者途径、主题途径等。知识组织的一项重要任务就是建立语义检索系统。在建立语义检索系统时,为了适应检索的方便性、推荐性、全面性、联系性等要求,采用一些语法指引手段是必要的。如在文献分类标引中,对个别文献的分类号上加注推荐性符号(如《中图法》中的推荐符号"a"),以示重点推荐;在索引款目中采用参见法和交替法,以示文献间的联系性或交叉性;在索引款目标目的设置上采用轮排法,以引导用户多途径检索,等等。

通过以上分析,我们可以看出,上述各种语法学规则或方法,有一个共同的特点,那就是:在以不改变知识客体的基本语义为前提的基础上,追求多种语义表示形式。这一特点,如果借用乔姆斯基(N.Chomsky)的生成语法学术语说,就是用多种表层结构形式去表示深层结构中的语义。因此,表层结构对深层结构的表示能力与方法问题是知识组织的语法学基础。知识组织语言中的表层语法结构与深层语义结构之间的关系见图1所示:

4 知识组织的语用学基础

知识组织中的语用问题,有两方面的指向:一是知识客体本身的语用问题,这属于文献语言或作者语言范畴;二是知识利用者在表述自身知识需要时的语用问题,这属于用户语言范畴。这两方面问题的焦点是作者语用与用户语用之间相互对接或匹配问题。知识组织的语用学基础,就是指作者语用与用户语用的对接或匹配的语言规则与方法。

知识组织的目的是为用户提供有序的知识。从语言学角度说,知识组织的目的是为用户利用知识提供有序的语言信息保障。语言信息可分为语义信息、语法信息和语用信息三个层面。语用信息指的是“认识主体所感知或表述的事物运动状态和方式相对于某种目的的效用”。从语用信息的这一定义看,知识组织的目的最终体现在所提供的知识信息对用户的有用性或效用性上。按照这种理解,布鲁克斯的知识方程式K[S]+ΔI=K[S+ΔS]中的ΔI就是指语用信息,而提供ΔI就是知识组织系统的根本宗旨所在。但是,在以往的知识组织活动中,我们主要是针对作者语言进行形式化处理(如分类、标引、排序等),即把重点放在知识客体的语义信息和语法信息的处理上,而很少考虑这些语义信息和语法信息对用户的实际效用性。因此,我们所提供的语义信息和语法信息对用户来说往往是陌生的,甚至经常是难以理解和使用的。例如,我们所使用的知识组织语言(主要是分类语言和主题语言),对一般用户来说就很陌生,再如我们所提供的检索语言载体—目录,对一般用户来说也是不容易熟悉和掌握的。由此我们面临这样一个问题,即如何以用户熟悉的语言组织知识?

上面说过,知识组织中的语用问题涉及到作者语用与用户语用两方面。如果说作者的语用信息可以通过对知识客体的语义分析和语法分析来获得的话,那么用户语用信息的获得就不那么简单了。因为用户的语用信息的获得必须以用户的需求表述为前提,而用户对自身需求的表述往往是不准确、不完备的。再者,用户在表述自身需求时所使用的语言往往是“次语言”——特定学科、领域、职业、技能等方面的专门术语,而知识组织系统对这些“次语言”往往不能准确领会,这就更加剧了用户语用信息获得的困难性。用户对自身需求的表述,其实质是对自身“知识异常状态”(anomalous state of knowlege-ASK)的描述。用户对自身需求的表述不准确、不完备,其责任不完全在用户一方,因为用户不熟悉知识组织系统所使用的人工语言,所以很难与知识组织系统进行充分的沟通。更根本的是,任何人都不能准确描述自己不知道的东西。由此我们又遇到了这样一个问题,即如何最大程度地准确领会用户的需求表述语言。

为了解决上述两个问题,我们可以采取如下一些方法:

——提高知识组织系统领域知识(domain-analysis)和语言知识水平。因为领域知识和语言知识是用户在表述知识需求时所涉及的最关键的两种知识结构,所以提高知识组织系统的领域知识和语言知识水平,就有利于提高对用户需求表述的理解程度,有利于实现同用户的充分沟通。

——实现自然语言标引与检索。作者语言和用户语言都是用自然语言表述的,所以用自然语言组织知识对用户来说是最亲近、最容易理解的。尽管自然语言中因存在多词一义、一词多义、同形异义、词义含糊等现象而可能影响到标引的一致性和检索的准确性(检准率),但是用自然语言标引和检索知识是人们不可改变的一种永恒追求,所以如果知识组织系统不能用自然语言标引和检索知识,将是它永远的缺陷。再说自然语言中的多义、歧义等现象对标引和检索的影响问题,无论从理论上看还是从技术上看,都不是不可逾越的障碍,随着计算机技术、人工智能技术等的发展,这一问题终会得到解决。

——人工语言与自然语言相结合。在自然语言标引和检索不能全面实现的情况下,为了逐步实现知识组织的自然语言化,同时为了保留人工语言组织知识所具有的规范性优点,一些人想到了在人工语言基础上加进自然语言成分和途径的方法。其具体做法主要有:

①受控词表中加进自然语言入口词。即在人工编制的受控词表(分类表、主题词表)中大量增加自然语言入口词,以提供用户熟悉的自然语言检索入口;

②编制专用自然语言入口词表。这种词表是供用户直接用自然语言词汇输入检索指令而无需查受控词表的检索用词表。编制和使用这种入口词表,既不影响用受控词表进行规范标引,也不限制用户用自然语言检索;

③同时使用受控词和自由词标引与检索。即用受控词和自由词标引同一篇文献,组成同一词汇文档,也就是同时使用叙词、自由词、篇名词、文摘词等进行标引和检索。著名的DIALOG就采取了这种方式;

④自然语言标引、后控词表检索。即采用自然语言标引,所积累的词汇达到一定数量时再进行后控制处理,即编成后控词表,用于以后的标引。

——发展自然语言理解技术。自然语言理解(natural languageunderstanding)已成为目前尖端技术研究领域。它是指用机器(计算机或以后的智能机)理解和处理自然语言的技术,是对人的语言理解过程的模拟技术。它可以在语言的音位层、形态层、词法层、句法层、语义层、语用层上理解和处理自然语言。自然语言理解技术在机器翻译、信息检索、人机接口、知识工程(包括知识组织)等领域具有广泛的应用空间。根据自然语言理解技术的发展前景,可以相信,在知识组织领域中应用自然语言理解技术,去解决对作者语用信息和用户语用信息的理解、自然语言与人工语言的接口转换等问题,将指日可待。

通过上述分析,可以看出,实现作者语用信息与用户语用信息的对接或匹配,是知识组织的语用学目的,同时也是整个知识组织系统的目的。而实现这一目的的关键之一是建立一套科学的自然语言理解系统。

收稿日期:2001-02-07

标签:;  ;  ;  ;  ;  ;  ;  

论知识组织的语言基础_自然语言处理论文
下载Doc文档

猜你喜欢