《汉语主题词表》轮排索引的功能及计算机编制,本文主要内容关键词为:词表论文,汉语论文,索引论文,功能论文,计算机论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
自70年代以来,国内已经编制和正在编制的汉语叙词表多达百余部,但是其中配备轮排索引的叙词表却廖廖无几。直到90年代初,国内出版的词表方有《教育主题词表》、《艺术科学叙词表》、《农业科学叙词表》及《军队档案常用主题词表》等编制了轮排索引。1995年中国科技信息研究所检索语言研究室与中国索引学会索引技术与索引标准研究室合作完成了《汉语主题词表》(自然科学增订本)第五册轮排索引(以下简称《汉表轮排索引》),并已由科学技术文献出版社正式出版。全书共收录16万多条索引款目,近600万字, 是国内目前规模最大的叙词表轮排索引。笔者结合编制这部大型索引的实践,对计算机辅助编制叙词表轮排索引的若干主要技术问题,作粗浅的讨论,以就正于同行。
1 轮排索引的功能
90年代前国内编制叙词表很少配备轮排索引,其重要原因是认为轮排索引只是一种按照词素进行字顺检索的工具,功能单一,可有可无。如果在叙词表中大多数词都属于单纯词,那么完全没有必要在字顺表以外再设置一个轮排索引。据统计,《汉表》(第一版)的先组度远远高于国外的叙词表,先组词共65757个,占全表的60.6 %, 单纯词仅为42811个,占39.4%。在满是合成词(即先组词)的词表中, 如果不设置轮排索引,用户假如记不准某叙词的首字(或者首词素),要想从位于合成词的中部或尾部的其他词素进行检索,几乎是不可能的。
实际上轮排索引的作用不仅限于按照词素进行查词,还包括如下一些特殊功能:
首先,可以显示叙词之间的等级关系(或称属分关系)。我们知道,轮排索引的原理在于通过轮排实现叙词的字面成族,把含有同一个词素(即主题因素)的若干叙词(即主题概念)聚集起来,显露概念的相关性。由于汉语构词法有着中心词在后、词素层层限定等特点,当检索入口的词素恰巧是位于叙词尾部的中心词时,这时轮排索引就可能把一批具有等级关系的叙词聚集起来。例如:
——检索入口
电缆*54N 517左
对称
电缆 54N 604左
高频对称
电缆 39H 879左
延迟
电缆 54N 2901中
对称延迟
电缆 54N 604右
脉冲
电缆 54N Y 射频电缆 1736左
射频
电缆 54N D 脉冲电缆, 稳相电缆 2217左
稳相
电缆
Y 射频电缆 2661左
同轴
电缆 54N 2541右
电缆敷设 54N 517中
电缆敷设设备 57N 517中
电缆故障 54N 517中
电缆理论 54N 517中
上例前八条索引款目部与“电缆”具有属分关系,而且由右至左不断提高专指度。此例中“电缆”为第一级;“对称电缆”为“电缆”的下位词,系第二级;“高频对称电缆”又为“对称电缆”的下位词,系第三级。这样既集中又分级排列,对于把“选择最专指叙词”作为标引最主要要求的叙词标引来说,是非常有用的。从这个意义上说,轮排索引对于等级关系的显示优于字顺表。这不仅体现在显示的方式和易检性上,而且也体现在数量上。前者显示的具有等级关系的叙词数量超过后者,如“电缆”在字顺表中仅显示24个下位词,但轮排索引实际显示的下位词多达62个,当然由于轮排索引是按照字面成族,在等级关系显示方面肯定要遗漏一些字面不成族的叙词。如“引出缆”虽为“电缆”下位词,但轮排索引未予显示。同时,也可能把一些字面成族但概念不成族的叙词聚集一处。如“泵”下聚集的一批词中,包括了失去“泵”本义的“气泵”、“热泵”、“鱼泵”等词。实际上后者对用户检索不会造成误会,反而会有所帮助。
第二,可以显示叙词之间的相关关系。由于汉语中同时包含某一词素的两个词或多个词往往具有语义上的相关关系,因而轮排索引为识别相关关系提供了方便。如果说位于检索入口词素左侧的数据,有助于发现具有属分关系的叙词,那么位于检索入口词素右侧的数据,则有助于查找具有方面关系、整部关系或其他相关关系的叙词。如上例最末四条款目可以看作是“电缆”的方面关系词,即“电缆敷设”是对“电缆”的操作,而“电缆敷设设备”又是“电缆敷设”的一个工具(设备)。除此而外,在轮排索引中含有相同词素的若干叙词之间也可能具有相关关系。例如《汉表轮排索引》中的“主航道”与“副航道”与“引航道”与“进港航道”等就属于相关关系。当然,有些字面不成族的相关关系,在轮排索引中也是无法显示的。
第三,可以显示等同关系,即同义关系。《汉表轮排索引》一改以往轮排索引不收非叙词的做法,不仅并收叙词和非叙词,还加注了用、代项。这样用户标引时不查字顺主表,就可以选定所需的正式叙词,非叙词则可用作查词换词的入口词。从汉语构词法来看,同义词之间大多包含相同的字或词素,大多字面相似度较高。从这个意义上看,把含有相同词素的词聚集起来的轮排索引在一定程度上也可以显示同义词或准同义词,如“英文编目”、“外文编目”、“西文编目”,又如“稳定性”、“非稳定性”、“不稳定性”、“半稳定性”、“亚稳定性”等词。
总之,《汉表轮排索引》依其字面成族的原理,具有显示叙词概念之间各种关系的功能。因而,在自然语言标引和检索中,只要在《汉表轮排索引》中加入大量的入口词,就可以改造成为一部后控词表。另外,由于轮排索引省略了属项、分项和参项参照,从而大大压缩了词表的篇幅,加之大量增加了检索入口,并指明了叙词在主表中的页码及栏目,因而可以用作《汉表》的字顺索引(或称简表),提高用户查词的速度。对于熟练的标引员来说,轮排索引已成了他们标引查词的首选工具,除了必要时偶而查找一下卷帙浩繁的字顺表外,一卷轮排索引在手,则可以基本满足需要。此外,由于《汉表轮排索引》为每个叙词和非叙词指明了相应的范畴号,因而也可用作《汉表》范畴表的字顺索引。
综上所述,这种轮排索引在受控标引或自然语言标引中都具有重要的作用,是手工检索及计算机检索中不可缺少的工具,应当大力提倡。
2 轮排索引计算机辅助编制系统
《汉表》(自然科学增订本)共收词81198条, 如采用手工编制轮排索引,那将工程浩大,旷日持久,而且质量难于保证。因此我们决定在《汉表》机读数据的基础上用计算机辅助编制《汉表轮排索引》,即通过对数据的订正和补充,由机器完成叙词自动切分、款目拼接、款目排序及辅助编辑排版,最后完成轮排索引的生成和激光输出。整个编制过程充分发挥计算机在自动标引及索引编制等方面的优势。
《汉表轮排索引》计算机辅助编制系统的环境是:
软件支持:希望汉字系统(UCDOS),Foxbase+2.10,北大方正排版系统
硬件支持:兼容286、386及486微机
整个系统分为六大模块,其结构如图1所示。
(1)词典生成模块。主要是对《汉表》原机读数据进行处理, 从中抽取适当的单字词、双字词及多字词,产生一个机读词典,然后由人工对词典进行筛选及判别。由于人机合作,提高了词典的生成速度,也保证了词典的质量。
(2)机器自动分词模块。主要是利用上一模块生成的机读词典,逐词对主数据进行自动切分,从而提高分词的速度和一致性。经过测试,机器分词的效果较好,到位率能够达到90%以上。
(3)人工校验模块。 主要是由人工把每个叙词款目的对应页码及栏号添加到主数据文件中,并对机器分词的情况给予订正,以确保分词质量。
(4)机器自动校验模块。 由机器自动对整个数据文件中的页码号及栏号进行校验,减少人为操作的误差。另外,利用一个自编的禁用词表删除词表中不适当的切分,以控制索引篇幅及减少多人切分操作的不一致性。
(5)索引生成及排序模块。 将主数据的每一记录按分词符号进行切分、款目拼接,生成相应的KWIC索引款目,并滤去分词符号,最后将生成的全部索引款目排序输出。
(6)统计管理模块。 本模块主要是对分词和生成的索引款目的数量进行统计和监测,以控制索引的轮排系数和最终规模(包括其印刷篇幅)。
3 叙词的自动切分
《汉表轮排索引》运用了大词典法自动分词和辅助生成索引技术。在叙词的切分中采用切头不切尾的“含糊抽词”方法,即在叙词中可以作为检索入口的词素之前插入一个切分标志(百分号%),而不必把这个词(即关键词或词素)完整地从叙词中抽出来,这样既可回避汉语分词难题,又可保留关键词的上下文,以提高检准率。
为了保证《汉表轮排索引》的质量,提高叙词切分的准确性和一致性,通过与机读词典匹配,计算机进行正向和逆向扫描切分后,再由人工判别,修改误切和未切的叙词。
在使用机读词典自动切分和人工判别时,主要采用了以下切词规则和切词方法:
(1)切分的基本规则。凡是具有检索意义的词或词素, 即可以用作检索入口的词或词素,均应切分。反之,无检索意义或检索意义不大的词或词素(通常是一些通用词),则不应切分。例如:
系统电压%特性(错误)
物理化学%处理(错误)
特性、处理、保存、变化等类通用词皆不应切分,另外科、属、目、纲、门、法、学、素、机等泛指词(包括单字词)也不应切分,一律不收入机读词典。
(2)充分切分。以充分切分为原则,不规定切分的最高次数。 有的固定词可不予切分,例如,物面、物种、物种形成、蜥螈亚目等。有的叙词可以切分两次或两次以上。例如:
阿贡零%梯度%同步%加速器
阿吗啉%生物%碱
(3)模糊抽词。一般“切头不切尾”, 只识辨叙词中哪个词或词素具有检索意义,无需考虑一个词到何处结束。叙词的词首不加切分符,但一律予以轮排。
(4)切分符号用百分号(%)。一处只能采用一个百分号, 如有两个百分号连用(由两次重复切分引起),须删除其中一个。
(5)单字词只切居于叙词尾部的具有检索意义的单字词,如计、仪、牛、马、场、癌、剂、汤、散、矿、病等,不切居于叙词其他部位(词首或词中)的单字词。例如:
高纯度%盐%酸 (正确)
盐%酸%氯化法%制粉 (错误)
盐酸%氯化法%制粉(正确)
(6)同形异义词后的括号限定词不予切分。机器如自动切分, 应删除百分号。例如:
阿比特法(%湿性%炼铜)(错误)
阿比特法(湿性炼铜)(正确)
(7)具有重叠现象的并列词组,对其中相同的词或词素, 只作一次切分,不作重复切分。例如:
金属%物理及%物理化学分析(错误)
金属%物理及物理化学分析(正确)
(8)机器切分错误之处,应当用手工予以调整。例如:
行驶稳%定性(机器切分“定性”,误切)
下丘脑—垂%体系统(机器切分“体系”,误切)
稻蓟%马(机器切分“马”,误切)
(9)先切分三字词,后切分二字词,最后切分单字词, 以避免上一类切词错误。
(10)化合物的名称一般采取“切头又切尾”的方法,即切出一个化合物的完整名称和化合物的类称,如酸、碱、盐、酮、醛等。对于化合物名称中的其他词素,视情况予以切分。例如:
高级烷%烃(漏切“烷烃”)
高级%烷%烃 (补切“烷烃”)
(11)不了解叙词的含义,不可强行勉强切分。如遇这种情况,可不予切分。例如:
低铁假板%钛%矿(因不明“低铁假板”的含义,不予切分)
(12)手工切分和判别时,必要时应参考词表中的属项和族项。
4 索引款目双向排序
《汉表轮排索引》采用题内关键词索引(KWIC),以适应汉语的特点,并便于计算机自动生成。KWIC索引的检索入口位置在索引数据的中部。先排位于检索入口及其右侧的词素,右侧数据排完后,再排位于检索入口左侧的数据。对左侧数据(即词或词素),通常是由左到右顺序排列。《教育主题词表》轮排索引就是采用这种单向排序方式。还有一种方法是由右到左逐字逆序排列左侧数据,右侧数据仍按常规顺序排列,因而被称为双向排序法。它最早由上海空军政治学院信息管理系提出。我们为《汉表轮排索引》研制了双向排序的专门软件。现将两种排序方法的结果对比如下:
双向排序法 单向排序法
高耸建筑物
大断面地下建筑物
地下建筑物
大跨度地下建筑物
大跨度地下建筑物 地下建筑物
人防地下建筑物
高边墙地下建筑物
浅埋地下建筑物 高耸建筑物
深埋地下建筑物 海洋建筑物
大断面地下建筑物 浅埋地下建筑物
高边墙地下建筑物 人防地下建筑物
水下建筑物 深埋地下建筑物
海洋建筑物 水下建筑物
可以看出,采用双向排序法,检索入口左侧的词素字面成族的系统性比单向排序法强。由于采用了左侧逆序排列,使本例有关“地下建筑物”的7条款目集中在一处。又如, 《汉表轮排索引》中“纤维”这一词素带有前缀的共有244个款目,其中各种“玻璃纤维”的就有36条。如果检索入口左侧的词素不采用双向排序法, 这36 个款目就会分散到244条款目当中。因此,双向排序是较为科学的排序方法, 有助于提高轮排索引的检索效率。
《汉表轮排索引》采用汉语拼音与其他排序法相结合的排序法。先比音节,音节相同比声调,同音节同声调再比笔画和笔顺。采用这种排序法的目的是把相同汉字集中在一处。但是,由于汉语存在着多音字现象,形同音不同,同一汉字无法按字形集中。为了解决上述问题便于用户检索,《汉表轮排索引》为多音字设置了交互参照。例如:
重(Chóng)另见重(Zhòng)
重(Zhòng)另见重(Chóng)
空(Kōng)另见空(Kòng)
空(Kòng)另见空(Kōng)