“汉语词表”信息方法与技术的分析、评价及发展方向_汉语主题词表论文

“汉语词表”信息方法与技术的分析、评价及发展方向_汉语主题词表论文

情报方法技术 《汉语主题词表》剖析、评价及发展路向研究,本文主要内容关键词为:词表论文,汉语论文,情报论文,评价论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

情报方法技术

摘要 较全面系统地对《汉语主题词表》进行了有关重要指标的定量剖析,对其增订本的新进展予以评价,并探讨了该表的发展路向,指出了它的不足,提出了改进措施。

关键词 汉语主题词表 定量分析 评价 发展方向

《汉语主题词表》(以下简称《汉表》)不仅是目前我国规模最大的一部叙词表,而且是国内诸多词表中收词量最多的大型叙词表,其覆盖范围最为广泛。它是在认真学习和总结了国内编制专业词表的经验,研究和参考了国外编制叙词表的先进技术的基础上,经过多次的专业审定会和全国汇总会,综合整理编辑而成。具有适应性广,实用性、通用性强的优点,得到了广大科技工作者的欢迎。

1 《汉语主题词表》的指标测评

美国兰开斯特(F.W.Lancaster)等学者曾经提出,可以用关联比(con-nectedness ration)、参照度(accessibility measure)、等同率(equiva-lence ration)等主要指标来评价一部叙词表的性能,对其进行定量剖析。现以这三项指标测评《汉表》。

关联比是指词表中总词数减去无关联词(即具有参照项的词)与总词数的比率。也就是说,词表中无关联词越少,关联比就越高,词表的网络性就越好。据笔者抽样统计《汉表》(增订本)(以下简称《增订本》)字顺表(M-Z)中100个页码中的词,共发现72个无关联词,而款目词总数为1989个。因此,它的关联比为0.964。

参照度是指词表中参照(属、分、参)所指引的词数与总词数的比率,即平均每个叙词拥有的参照条数。每个词拥有的参照条数越多,参照度就越高,说明词表揭示词间关系比较充分。据抽样统计,《汉表》的参照度为3.21。

等同率是指词表中非叙词和叙词的比率。等同率表示一部词表入口词的多少。《汉表》第一版收录正式主题词为91 158条,非正式主题词为17410条,因此,等同率约为0.191。《增订本》正式主题词为68 823条,非正式主题词为12 375条,等同率约为0.18。

将以上测评《汉表》获得的数据与世界上几部权威词表相应数据作一比较(见表1),(有关数据取自兰开斯特著《情报检索词汇规范化》第一版)。从表1中可以看出,《汉表》的关联比及参照度较高,说明它在词间关系控制及其网络性方面胜过其它词表或与个别词表相当,因而具有较强的实用性。就参照度来看,一般认为比较理想的值是在2~5之间。由于《汉表》实行了等级关系全显示,因而参照度为3.21,还是适宜的。从等同率看,《汉表》低于其它几部词表,这方面的问题有待进一步探讨。

表1 《汉表》与其它词表测评数据比较

词表名称 关联比 参照度 等同率

MESH1967年版)

0.5730.3810.50

LCSH(7版) 0.7991.0320.22

ASTLA(第二版) 0.9561.492 /

TEST(第一版) / 2.903 0.31

汉语主题词表(增订本) 0.964 3.21 0.18

2 《汉语主题词表》在学术及实用价值上的新进展

2.1 字顺主表的变化

《汉表》(增订本)对《汉表》字顺主表的宏观结构未作变动,而是对微观结构进行了调整。这些调整表现在选词原则的科学化、主题词款目的合理化、排列规则的实用化、逻辑错误的改正和排检手段的增强等五个方面。

2.1.1 选词原则的科学化

在保持不变的选词范围内,《汉表》强调选词的思想性,而《增订本》更强调选词的实用性以及与国外词表的兼容性。《增订本》将兼容性提到重要位置,以促使我国词表逐步发挥保证国内外文献情报资源共享的重要作用。

在兼容性、实用性原则的指导下,修订单位参考了70多部国内专业词表,集合了各专业研究人员的意见,并采纳了各专业自由词文档所提供的自由词,增词量虽不多,但工作量很大,对提高《汉表》的质量是有益的。

概括地说,《增订本》的新增词汇有四类:a.近十多年来发展起来的新兴学科有关的名词术语;b.《汉表》中漏收的重要主题词;c.作为入口词的非正式主题词;d.具有实际检索意义的专指性词组。

对上述四类词汇的增补,体现了《增订本》选词的实用性原则和科学性原则。而其中对增补入口词的重视尤其令人欣喜。由于非正式主题词的数量对于保证检索系统的查全率有重要影响,所以目前国内外的词表均把不断提高本词表入口词的含量作为词表的发展方向之一。从表2可以看出,《增订本》非正式主题词的含量还是偏低,在日后的修订中仍需要进一步增加。

表2 几种叙词表入口词含量对照表

词表名称 收词总数 正式词数 非正式词数 入口词比例

《增订本》 91198 69823

12375 15.2%

JICST叙词表40902 34695

6807 15.2%

IEST23364 178105554 23.8%

科学技术叙词表18925 148254100 21.5%

INSPEC 45%

2.1.2 主题词款目的合理化

主题词款目是叙词的微观显示方式。主题词款目中包含信息量的多少以及显示方式的合理与否直接关系到词表的科学性和易用性。《增订本》对主题词款目词调整如下:a.采用单汉字拼音法代替全词拼音法,并且加注音调;b.对于新增补的主题词加“事项注释”,注明该词被收入词表的时间;c.每个主题词只选一个英译名;d.在印刷方式上,对正式主题词采用黑体印刷,对非正式主题词采用白体印刷,即使在非正式主题词款目中也是如此;e.在词形上,除强调范围注释以外,还规定(P)作为主题词的一部分,代表化合物的衍生物;f.扩大加“*”的族首词的使用范围。这些变化,使《增订本》字顺主表揭示的内容更多,更利于用户选择用词,无论对手检还是机检,都是有益的。

2.1.3 排列规则的实用化

虽然《汉表》编制的着眼点是应用于机检系统,但是我国自动化水平的现实决定《汉表》目前还只能是着重于手检系统。所以,《汉表》中主题词的排列方式应该照顾手检系统的需要。《汉表》在这一点上做得很不够,《增订本》对此做了重大调整,表现在:a.以汉字为单位注音、注调;b.在不同词组中出现的多音字,予以分别标音,提供多向查找途径;c.按音、调、形的顺序集中以同形汉字为首的主题词;d.各语种字母按固有顺序排列,各语种间按规定顺序排列。

《增订本》的排列规则,尊重各语种字母的排列顺序,比《汉表》的排列规则更具科学性,也便于手工使用。

2.1.4 逻辑错误的改正

由于《汉表》第一版采用手工编制,造成逻辑错误比比皆是。在《增订本》修订过程中,共发现逻辑错误27种、4~5万条,涉及到的词间关系有10多万条,几乎对每条款目的参照项都做了改正,其工作量是巨大的。

经过逻辑检验的《增订本》在全书各种关系的闭合检验中顺利通过,全部主题词的语义参照基本上没有纰漏。

2.1.5 排检手段的增强

《增订本》对《汉表》的排检手段做了总体上的变动:将主题词首字汉语拼音索引和部首检索索引调到字顺主表的最前面,并在印刷本的开头注明该页款目的拼音起止及主题词首字,以更加突出醒目的方式提供给用户使用。

2.2 各辅助索引的变化

2.2.1 范畴索引

表3从宏观上显示了《增订本》对《汉表》范畴索引所做的调整。

表3 两版范畴划分对照表

词表名称 范畴数 二级类目数 三级类目数

《增订本》43 333 770

《汉表》 43 501 769

从微观上看,《增订本》对《汉表》范畴大类的划分未做变动,只调整了68、75两个范畴的名称。但对大类下的二、三级类目则做了大幅度的调整,现以“环境科学”这一范畴为例进行说明,见表4。在原版基础上,增加了91K、91L、91M、91N等四个二级类目,词量也有增加。可见,《增订本》对范畴类目的划分更为科学合理,符合科学技术发展的需要。

表4 两版“环境科学”范畴对照表

词表名称二级类数 主题词总量 正式主题词数 非正式主题词数

《增订本》13 1115

1003112

《汉 表》 9

567476 91

2.2.2 词族索引

《汉表》词族索引存在的突出问题是:由于词族划分不平衡,造成过大的词族不便于使用,失去了优化查全率的作用。《增订本》删除了134个族首词,增加了141个词族,缩小了词族体积。表5反映了“环境科学”范畴中词族的变化。这种变化弥补了原版词族过大的不足。

表5 两版“环境科学”范畴族首词对照表

词表名称总词量族首词量平均每族词量

《增订本》 1115 6317.7

《汉 表》 576

24 24

2.2.3 英汉对照索引

对《汉表》英汉对照索引存在的不足,《增订本》做了如下改进:a.尽量选用国外叙词表中的叙词作本索引中的英文词,以利于与国外词表的兼容转换;b.对于同义汉语异形词,采用英文词后加范围注释的方式,或用英文词的单复数加以区分;c.同时揭示与同一个英文词对应的几个汉语主题词;d.增补了一部分《汉表》中缺少的英文词。

由上述分析可以看出,《增订本》从总体上加强了《汉表》的科学性和实用性,从学术价值和实用价值两方面提高了《汉表》的质量。

3 《汉语主题词表》的发展路向研究

可以说,《汉表》是我国情报检索语言发展史上的一个重要里程碑,是我国图书情报检索标准化、现代化的一次尝试。但它也难免许多不足之处。笔者试以下文“发展路向”的形式就有关问题予以阐述和探讨,同时提出一些对策措施。

3.1 发展路向探讨之一——《汉表》的国家标准化与专业词表的研制同时进行,可谓我国叙词表发展的基本模式。

自《汉表》问世以后,国内涌现出不少专业词表。据1988年“全国叙词表发展方向研讨会”上所进行的有关统计,共有近60部专业词表已出版。目前已基本形成以《汉表》为母表,各专业表为子表的我国叙词表体系。目前问题的关键是,为了适应现代情报检索的要求,应进一步以《汉表》为基础,处理好专业主题词表与《汉表》的兼容和统一的问题。建立专业主题词表和《汉表》兼容统一的系统,可按照编制《汉表》的统一要求,进行专业词表的编辑工作。这些专业词表与《汉表》词汇兼容。而《汉表》可以进一步在专业词表的基础上精炼,专业词表则可以在总结《汉表》编制经验的基础上进行。这样就可以在我国图书情报界建立起一个词表统一和兼容的整体系统。

总之,《汉表》可作为专业词表编制的基础,专业词表又为《汉表》国家标准化提供选词。我国情报检索语言标准化应是《汉表》科学化和专业词表科学化融合的结晶。

3.2 发展路向探讨之二——对《汉表》进行改造,使其成为中文自动标引中通用的综合性切词词典。

中文自动标引中的难点是中文词的识别问题。在中文词的识别过程中,切词词典又是必不可少的工具。目前出现的各种中文词自动切分系统都是根据本系统的需要去建立切词词典,使各系统的切词词典之间共享性极小。如果建立一个普遍适用的综合性切词词典,将会减少重复劳动,并能协调全国自动标引研究。将《汉表》做如下改造,将会使其成为中文自动标引中通用的综合性切词词典。

3.2.1 词汇方面

进一步缩减词汇,减少词表中先组词的含量。在评价词汇组配能力的基础上决定词的去留。并且,增加有关词汇的形态、语法、语义等方面的信息。在词表构造初期也许会出现词汇不全的现象,但可以在标引使用过程中通过系统自学机制逐步予以完善。

3.2.2 结构方面

减化词表宏观结构,细化词表微观结构,合并词族表于字顺主表中。词族展开的形式,正与自动标引中广泛采用的最长匹配法的工作形式相吻合,有利于提高系统效率。

3.2.3 兼容性方面

英汉对照索引中的英文词应逐渐过渡为英文叙词,并在其基础上发展多语种对照索引,以利于标引结果的国际兼容。

3.2.4 协调性方面

《汉表》作为一个整体,应保证其社会科学部分和自然科学部分的同步发展,两部分相辅相成,方能保证其科学、统一。

4 《汉语主题词表》的一大不足——选词问题

4.1 各科专业词汇分布不均衡

作为一个综合性大型词表,应根据各学科的特点、基础和发展动态,对其词的收录量从宏观上应基本均衡,均匀粗细程度应把“度”掌握好,基本一致。《汉表》对各学科或专业词汇的容纳不均匀,多少不一,繁简不一。如:某些专业词汇专指程度和完备程度较高,甚至过高,但另一些专业词汇则远远不够;有些可合并的近义词未合并,收词过多,而意义难辨;专指概念多,特称词多,相反,类称词过少。

4.2 常用术语和反映学科动态的词没有收入

如生物技术(在字顺表中作为代项)、单克隆抗体、植株再生、地质灾害、环境地质学等没收入;然而有相当数量的词或由于分得太细、或很少在标引过程中能用得上,如后退演化、低氧推动等占据了词表一定的篇幅。这些需进一步探讨和完善。

上面提到的这两方面情况,造成《汉表》词多而不精,面广而不匀,实际标引过程中最需要的词常常没有,不太有用的词可能不少。弥补这一不足的办法应是:以大量的文献标引实际数据作基础,用统计学方法对叙词进行检查和调整。

4.3 先组词偏多

据统计,《汉表》词组占60%以上,可见其先组词成分偏高,单元词(或称单词)所占比例太少。单元词在具体标引过程中具有用途广泛,灵活性、组配性强的优点。一部词表,如果单元词相应比例较多,可以使篇幅精简,标引成本降低,通用性增强。《汉表》在这方面须做进一步改善。

笔者统计了《增订本》(A-L)中的先组词,约有10%的先组词可用常用的单词概念组配而成。例如:“基因型环境相互作用”可用基因型、环境生物效应、相互作用等词来进行概念组配;“固体废物综合利用”,用固体废物和综合利用二词表述这一复杂概念就行,不一定在《增订本》中新增此词。如此等等。改进的措施应是:a.保留和筛选使用频率较高的先组词;b.保留因组配后易产生二义性的先组词;c.凡是能由单元词组配成的先组词全部删去。

4.4 《汉表》收录了一些只限于某一学科的叙词

这些词本来通用性较强,可是《汉表》用小括号的形式进行了注释性限制,导致具体标引人员无所适从。如:专业训练(军事)、裂解(病毒学)、联络(数学)、统计分析(数学)、敏感性(生物)、能量代谢(运动生理)和原子(哲学)等等。。顺便举其中的例子稍加阐述,如“化合物裂解”、“原子裂解”和“病毒裂解”。三篇文献均需要“裂解”这一叙词来标引,显然,对前二篇文献标引来说,就会产生使用不妥的情况,或者使标引人员举棋不定,是用还是不用。改进措施:对于许多学科都可用的通用性较强的词,就无需用括号形式进行硬行限制和框定。

(征文选登)

标签:;  ;  ;  

“汉语词表”信息方法与技术的分析、评价及发展方向_汉语主题词表论文
下载Doc文档

猜你喜欢