电子词典编纂中的语义网与义链研究,本文主要内容关键词为:语义论文,电子词典论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
电子词典研究在国外已经进入一个蓬勃的发展期,国内由于受技术和盗版等因素影响,进展缓慢。电子词典最能体现词典的工具性、实用性、方便性和高效性,代表着未来的发展趋势。探讨电子词典编纂中的语义网和义链是当代甚至未来词典学研究的一个重点。
一、电子词典的类型及其特点
我们可将电子词典主要分为机用型、传统型、学习型、研究型四种。传统型电子词典主要用于学习者进行普通的词汇查检,学习型电子词典主要用于普通大众进行词汇习得,而机用型电子词典除了全民通用性外,更多地是用于专业的翻译领域,而且多以后台方式存在、运作。而研究型电子词典是最前沿的,它探索出来的新的编纂思路和方法会在机用型、传统型和学习型电子词典中具体体现。研究型词典虽然具有一定的探索性质,但却体现着电子词典编纂思路相较于传统词典的根本性转变,它们将词汇语义理论的最新成果和计算机信息处理的最新技术应用于词典编纂。研究型电子词典在深入探讨词位系统和词义系统的语义结构层次和语义关系的基础上,以语义场、词群、框架语义学、语义配价、并置理论、语义网络等新的理论为指导,开创性地提出了许多编则,代表了电子词典的未来发展趋势。这些研究型词典的最大特点是先有一个尽量统括全民族词汇的知识库,如MindNet、WordNet、FrameNet、ILD等,汉语方面有北京大学仿照WordNet标准制作的CCD等。而基于WordNet词库技术的研究型词典已经进入成熟的商业化运作,如Thinkmap Visual Thesaurus。
二、电子词典新编则理论基础——知识本体(Ontology)与语义网
研究电子词典的新编则必须从研究型电子词典入手。现代研究型电子词典大都是基于语义网理论。语义网又是基于知识本体而建构的,或者说其核心骨架是基于知识本体的。知识本体的研究最近成为热点,它在为工程语义学提供形式化、方便共享的词表的同时,也成为全面揭示语义类别的重要工具,并且逐渐成为语义网的最佳操作工具之一。借用知识本体,可以对分类的语义关系类别、继承性等进行深入而细致的研究,揭示很多新的有普适性的规律,这些规律将直接转化为新型电子词典编纂的思路。
Ontolosy被译为“知识本体”。目前在计算机信息处理的工程语义学界提到的Ontolosy,比较公认的定义是:“本体是对共享的概念进行形式的显示和规范说明,即要用形式化的方法规范地说明关注域中的概念术语与概念术语之间的关系”(注:何飞等:《基于领域本体的知识关联研究》,《湖南城市学院学报》2005年第1期。)冯志伟界定为:“知识本体通常是指对一个领域或微世界进行分析而获得的概念系统的规范说明。”(注:冯志伟:《词汇语义学与词网》,烟台师范学院讲座2005年,以下几处引用均出自此讲座。)Studer对本体的诸多定义进行概括后认为,本体论的概念包括四个主要方面:1.概念化;2.明确性;3.形式化:4.共享性(注:李健康等:《本体研究及其应用进展》,《图书馆论》2004年第6期。)。冯志伟进行了诠释:如果我们对于一个领域中的客体进行分析,找出它们之间的关系,获得了这个领域中不同客体的集合,这一个集合可以明确地、形式化地、可共享地描述这个领域中各个客体所代表的概念的体系,这样的概念体系的规范就可以成为这个领域的知识本体。
冯志伟在介绍Ontology时,将知识本体分为通用性知识本体、语言知识本体、形式知识本体。其中语言知识本体常常表现为一个词表,其中要描述概念和术语之间的关系。具体地说,如果我们把每一个知识领域抽象成一个概念体系,再采用一个词表来表示这个概念体系,在这个词表中,要明确地描述词的涵义、词与词之间的关系,并在该领域的专家之间达成共识,使得大家共享这个词表,那么,这个词表就构成了该领域的一个语言知识本体。
电子词典的编纂首先要定域、定词、定层、定关系,按属种划分关系、整体与部分分解关系的特点(注:王东海:《〈唐律疏议〉法律专科词汇语义系统研究》,北京师范大学博士论文,2006年。)确定好一个结构严密、联系紧密的上下义语义树,确定好上下层级关系之后,再确定平行的语义关系。在整个语义网中,上下义关系决定着总体拓扑结构,而在上下义关系的每一个层次的平行方向,会有许多的二级节点词项,在语义树每个分支的末端层次是平行的叶子词项,这些平行向的词项群是整个语义树的局部分形体,与整个知识本体构成整体与部分的关系。如果说上下层级关系主要还体现的是知识分类的话,那么平行层级关系可以更多地体现着语言分类标准,比如同类、同义、反义词项往往处于同一层次,体现着语义的平行性。基于语言知识本体的语义网络可以清楚、全面地揭示词语之间所蕴含的语义联系。一个知识本体基本是由纵向的有上下义关系的词项系统和横向的有平行类义词项系统结合起来的语义网结构,能全景式地展现词汇语义系统的多层嵌套式的上下义骨干结构及每个层次的平行节点的结构,是研究词汇语义系统层次的最佳思路和方法。
根据何飞等人的研究(注:何飞等:《基于领域本体的知识关联研究》,《湖南城市学院学报》2005年第1期。),结合我们的研究,与基于“知识本体”理论构成的上下义语义树相关的概念可以这样界定:每个语义分支的最末端为一个个独立的词项,称“叶子词项”。词项间路径指的是两个词项连通所需要的最短路径,语义树的深度,指从初始词项到最小语义树分支的末端叶子词项的最长路径长度;词项间的关联度,表征两个词项的义位之间的关联程度,显然,关联度越大,语义相似度和相关度就越高,关系越紧密。最小上界指语义树的根词项,即于江生(注:于江生等:《中文概念词典的结构》,《中文信息学报》2002年第4期。)所说的初始概念,可称初始词项。最大下界,指语义树的叶子终端。
而研究型电子词典借助计算机强大的识别、储存、检索技术,可以自动计算语义相似性而进行词语的自动类聚和层分,最后通过语义链的方式将词汇语义系统进行动态的呈现。另外,以ThinkMap为代表的基于语言知识本体语义树理论而编纂起来的电子词典,还通过计算机技术,使词典使用者第一次获得了对词典编纂的一定程度的控制权。如在词典安装时就可以选择自己目前的水平和想到达到的水平,并根据不同的学习目的安装不同的词库,然后根据词频将常用词、基本词挑选出来,进行集中习得,词目数量和范围在一定程度上可控,这样可以有效地控制叶子词项的数目和语义网的复杂程度,达到最好的词汇习得效果。电子词典的这种安装特点体现了使用者、操作者对电子词典的收词数目的控制,符合学习的心理和进度。而传统词典在这方面是不可控的,使用者只能被动接受一部既成词典提供的信息,选词、立目、释义、举例等方面的信息都是定型后提供给使用者,使用者没有任何选择权。
三、电子词典中语义网的动态呈现及“义链”编则的提出
电子词典不但提供了一个民族词汇语义系统的语义网建构,而且其语义网还可以完全以动态的互动方式呈现于操作者或使用者面前,与使用者的学习、查阅心理相同步。
例如在Thinkmap中,输入目标叶子词位“leg”,通过“Find”功能,在我们面前呈现的是一局部语义网络(图1),它以检索叶子词位为核心,以小喇叭标志提供语音朗读。以圆点代表义项,可以通过圆点显示该词位的不同义项,正常状态下,义项解释是隐藏的,鼠标对准圆点后就会激活对话框,如“the limb of an animal used for food”,很多时候还提供必要的例句,在释义对话框中以横实线进行间隔。以义项圆点的颜色(图2)代表词性,例如:“pen”的大多义项是一个名词性的,如可以显示为“a writing implement with a point from which ink flows.”,但也可以做动词,当作动词时,表述为“produce a literary work”.系联其他叶子词项。
如果说以上功能还只是将传统词典的内容和信息进行图形化和多媒体化处理,那么图中细实线和虚线表示的语义关系及其动态呈现的形象性和可控性,则集中体现了此类研究型电子词典的价值所在。在部分重视语义联系的传统语文词典中我们也见过类似的思路,例如梅家驹的《写作语库》等。但电子词典不同于传统词典的优势在于,在貌似简单的局部语义网中往往隐含着各种语义信息,例如我们将操作指向某一表示语义关系的线条时,两个词项之间的语义关系就会得到展示。这种语义关系的展示分为十七种(见下文)。远远不是传统词典只列出的同义、反义两种关系可以比拟,这些信息都是隐藏的,它会根据使用者的要求逐一得到激活,在满足查阅要求后再次进入蓄势待发的隐藏阶段。
除了这些静态的语义信息外,这个局部语义网络还提供了大量的动态的语义导向,例如将操作指向与核心操作词位相关的叶子词位后,经确认,会直接跳转到一个新的以此词为核心的新的局部语义网络。如我们点击“leg”局部义网中的“Cut”,则会展示如图3所示的新局部义网,在新网络中,刚被激活的词项“cut”作为核心词突显,而原语义网络的词“leg”作为普通叶子词位存在于界面上,由于“cut”属于多义项常用词位,它的语义网界面要比“leg”复杂得多。这样可以保证在一个显示页面上,包含众多静态的语义信息和动态的语义导向。
图3
这种新型电子词典语义网的动态呈现,主要依靠我们提出的“语义链”编则的运用,可以简称为“义链”(注:我们在对网络新闻的研究中,曾经提出了“语链”概念。“语链”与“义链”有一定的相似性。详细参见王丽英:《网络新闻语境的语链分析》,烟台职业学院学报2006年第1期。)。“语义链”编则的提出是基于词网(WordNet)知识库的,它是一个词典学的概念,我们将其界定为在新型电子词典中,词汇语义系统通过语义关系而形成的可动态呈现、可追踪的联系脉胳。语义链与词汇语义系统中作为叶子端点的词位和义项构成一个结合严密的语义网。支撑语义网实体是各个具体的叶子词项,而连接各个词项或义项的则是义链。电子词典提供的语义网不但可以展示传统词典中的词位、义项、例释、义域、词类功能等方面的信息,更主要的是展示了词和词之间的语义关系、语义相似性、语义距离、语义类聚,这种展示靠的是“义裢”来实现的。
四、语义网的经脉——显性语义关系义链及其控制
义链分为两种,一种是显性的,一种是隐性的。前者是词汇语义本体的,后者是基于操作者学习认知心理的。显性的义链即语义关系链,它在局部语义网上显示的实线或虚线,分别指称各个词项间的不同的具体语义关系,这完全是语言本体性质的,与操作者无关,是客观存在的。对于具体的语义关系类别的研究是语义网研究的核心,也是基于语义网的电子词典编纂的核心。
传统的语义关系种类测查主要是通过语义场进行。现在,随着工程语义的发展,具备了在大规模语料中,基于语义网知识库,对词项义位的频率、分布及变异情况进行全面测查的条件。语义关系到底是否封闭?数量有多少?这是崇尚语义形式化研究的人员最关心的问题。
俄罗斯语义学派基于机器翻译工程语义的需要,基于语义网络,使用词汇函数对语义关系进行尽量穷尽性的测查。他们对俄语词义进行分析,得出结论:尽管词与词之间的具体语义关系繁杂,但是它们之间的抽象语义关系类型却是可以列举的,已被揭示并加以研究的有70余种(注:转引自张家骅等:《俄罗斯当代语义学》,商务印书馆2003年版。)。
国内的“知网”(Hownet)中归纳了上下位关系、同义关系、反义关系、对义关系、部件—整体关系、属性—宿主关系、材料—成品关系、施事/经验者/关系主体—事件关系、受事/内容/领属物等—事件关系、工具—事件关系、场所—事件关系、时间—事件关系、值—属性关系、实体—值关系、事件—角色关系、相关关系等,这是基于大规模真实文本基础上的测查,其成果是对普通语义学重要的补充和验证。
这些语义关系测查虽然有些细琐,但它使词义关系由简单的几元论丰满起来。随着计算机工程语义的语义分析形式化极端倾向的出现,被发现的语义关系更加丰富起来,但有一些明显不适合进行形式化描写与分析的语义关系也被牵强地套进这一语义关系符号模型中去,这些危险的苗头都应该引起注意。
基于词网WordNet进行编纂的电子词典已经注意到这一点,它对语义关系的测查并不过分注重语义关系数量,因为过多、过细的语义关系只存在于研究领域,不利于操作,所以他们的语义关系只限十七种常用的骨干语义关系(注:这17种关系中含部分构形关系,例如“derive from”等,但这种构形关系和语义、语法关系有密切关系,从动词转变为分词形式的形容词,或转变为副词,语法形式的变化,必然带来语法意义的改变,而语法意义也被包含在广义的“语义”范围内。),用这些关系将近十万实词项进行了全面系联,组成了一个完整而不间断的词汇语义网络。
其中实现主要是体现的意义所有的同义词通过实线和某一义项相联系,体现着同义(synonyms)类聚的特点。如围绕“produce a literary word”义项,形成了indite、pen、write、compose等同义词的类聚。
而虚线表示的从一个义项到另一个义项之间的关系,这些关系在词网中被细化为以下16种。我们举出例证,结合俄罗斯的“词汇函数”理论,可以表示如下:
Antonym:Good=(antonym) evil
Pertains to:academic=( pertains to) academia
Participle of:applied=(participle of) apply
Derived from:fondly=(derived from) fond
Entails:snore=(entails) sleep
Verb Group:Accord,concord,consort,harmonise,harmonize,fit in=(verb group) tally,match,gibe,fit,jibe,correspond,check
Attribute:weight=(attribute) light,heavy
See-also:Precise=(see also) accurate
Is similar to:precise=(is similar to) meticulous
Is a type of:Dalmatian=( is a type of) dog
Is a part of:spoke=(is a part of) bicycle
Is made of:brick=(is made ot) clay
Is a member of:Democrat=(is a member of) Democratic Party
Domain Category:E-mail=(domain category) computer
Domain Region:Kamikaze=(domain region) Japan
Domain Usage:Frisbee=(domain usage) trademark
对于显性语义关系义链涉及到“复杂度”的问题,一些常用词、多义词、多功能词的语义关系是非常复杂的,如上面列出的“cut”局部义网,在这个展示的界面上,我们很难对“cut”的词义和相关词群有一个全面清楚的认识。语义关系复杂,牵扯的相关词群的词目必然多,清理就很慢,就会使操作者产生畏难情绪,极大地影响可操作性。这一功能上的限制同电子词典界面设置有很大关系,如果能牺牲部分美观性,采用多屏滚动显示的方式,可以将复杂词项的关系呈现得比较清楚醒目一些。这只需要在电子词典的编纂中进行很小的技术调整。
另外,从语义关系本体上来讲,要注意语义关系的细化分级。类似ThinkMap这样的电子词典已经实现了词目的操作者可控,完全可以实现语义关系的操作者可控,例如可以分出骨干语义关系及次要语义关系,可以将骨干语义关系下分为二级甚至三级语义关系小类。对于专家研究可以安装完整语义关系系统,因为专家不会过多地关注操作性问题,而更多地关注信息的容量及语义联系的广度、深度;而对普通学习者或查询者,就可以进行简化处理,只显示骨干语义关系,服务于以语义场、词群的方式进行词汇习得或普通词汇查询。
最后,既然后台的数据库是基于显性语义关系义链建构的,在电子词典的功能方面还可以加入自动统计的功能,例如点击“Is a type of”义链,就可以将词库中的所有具有这种关系的词群进行统计列表,这样可以整体把握一个民族语言的词汇系统的总体面貌。目前深圳大学开发的《广韵》、《集韵》、《龙龛手鉴》三个电子词典,虽然只提供了词目、反切上、反切下、等、呼等属性标注词目的检索,没有提供全文电子化、文本化及检索功能,但它们都有自动分类统计,可以自动统计出《广韵》等韵书、字书中的所有反切上字、下字等情况,不但方便查询、学习等普通层面的操作,也为深入的学术研究提供了专家知识体系。这方面的功能开发应该重视。
五、认知学习心理途径——隐性操作义链及其控制
隐性义链也可称为操作义链,完全是由词典使用者或学习者的操作记录形成。由于操作者的不同操作指向,在不同的局部语义网络或同一网络的不同节点之间切换,形成了一条条操作路径,这一路径和操作者的查阅目的或学习目的紧密相关。查阅行为本身是学习行为的一部分。学习行为可分为主动型和被动型,词典使用中的被动型行为指的是目标单一,只检索一个对象,弄清词义后,获得想要的信息后,操作过程即停止,接受词义信息比较被动。而主动型则是有选择地根据显性语义关系义链,通过电子词典语义网络进行系统的学习,学习一个目标词,可以附带地学会更多的词群。只有主动型的使用词典的过程,结合学习认知心理和显性语义关系义链才能产生隐性义链,被动型的使用词典只会形成一个操作点,不可能形成操作链。
例如:可以查找“hurt”的语义信息,在了解了其义项等情况下,可以就“Any physical damage to the body caused by vidence or accident or fracture etc”义项,进入同义词“harm”的局部语义网,通过其“Cause or do harm to”义项,根据“Is a type of”显性语义关系义链,进入围绕义项“Cause injuries or bodily harm to”形成的同义词群,进入“injure”局部子语义网,根据其“Hurt the feeling of”进入其相关的bruise,offend,hurt, spite,wound的词位的局部语义网络……这样就形成了一个隐性的操作路径。
Hurt同义harm Is a type of injute同义bruise,hurt等……(图4)
图4
观察这个隐性的操作义链,我们会发现两个特点:
一是语义相似度随隐性操作义链的深入而缩小。这个操作义链在循一个查询线索向下扩展的同时,两个局部语义网络之间总是有共同的词位或义项相联系,但越向下深入就会离起点词的语义越远,语义距离越拉越大,走到一定的深度后,起点词就会在随后出现的局部语义网络中消失,这就使操作者背离了其原始的操作意图,很容易造成我们称为“义链迷失”的后果。虽然这种“迷失”会拓展操作者的知识广度,但也会使操作者淹没在义海里或词海里,从而占用大量时间,查询活动的鲜明目的就逐渐模糊甚至消失,变成了类似在因特网上的无目的漫游。这是超文本、超链接技术本身的不足,电子词典编纂引入此方面技术,在给电子词典带来巨大革新和效益的同时,也带来“义链迷失”的危险性。
例如,在“bruise”局部义网上,从“hurt the feeling of”义项可以进入“offend”局部义网,在“strike with disgust of revulsion”义项可以进入“shock”局部义网,此时我们已经在“shock”局部义网上找不到起点词“hurt”了,两个义项之间的语义相似性已经非常小,甚至很难确定,至此原查询目的已经被解构消亡或转移了。如果此时不适时止住操作行为,将会离操作起始点越来越远,时间浪费也会越来越多,这需要操作者能适当控制住自己的操作路径,适时而止。同时也需要词典编纂者针对操作者的查询心理或学习心理进行思考,将隐性义链显性化,例如可以在屏幕的界面上设置一个操作路径提示,当原起点词从操作界面消失时,应该出示警示标志。
二是非线性。我们曾经谈过词汇语义系统是一个非线性的复杂系统(注:王东海:《〈唐律疏议〉法律专科词汇语义系统研究》,北京师范大学博士论文,2006年。)。在电子词典中不但通过显性语义关系可以体现这种非线性联系,如一个词可以根据不同义项或义征进入不同的同义聚合,也可以进入整体一部分聚合场,还可进入功能聚合场等十七种不同的义场。从隐性操作义链方面,如果将操作路径具体化、形式化、可视化后,也会发现这种操作的非线性。例如可以在离操作起点很远的一个局部语义网络,通过某一个义项的语义相似性,原来在操作视野中消失的起点词又会出现,这时通过点击它又可以回到操作的起点,这就是一种典型的非线性操作,它可以在操作路径上随时跳转,在不同的学习兴奋点之间转移。如上文提到了在“shock”局部义网中找不到起点词“hurt”,但通过点击“shock”中的“offend”文可以回溯到“hurt”。
不过,对于操作者或学习者来讲,很难将此操作路径记住,然后进行回溯,很多回溯操作是因为进行别的查询时意外发现原起点词也在局部义网上。我们需要做的是将此操作路径显性化,用超链接的方式将被操作的词位置于屏幕上,随操作深度的拓展不断扩展超链接的节点数目,操作者随时可以在路径上看到自己的操作进度,用鼠标点击激活回溯或非线性跳转操作。
另外,隐性操作义链的拓扑结构的广度、浓度、复杂程度等与显性语义关系的密度(复杂度)有直接的关系,同义项的多少也有密切的联系。
以上这两个特点、围绕这两个特点产生的问题、对义链的控制方法是目前电子词典编纂中还没有涉及的,应该对这些问题引起重视,使电子词典的编则日臻完善。
总之,电子词典的编纂是词典学界和计算机应用技术领域的新兴事物,目前通过语义链的方式体现出很多的区别于传统词典的优势,但还有很多需要完善的地方。