主题词与关键词相结合的词表在网络信息处理中的应用,本文主要内容关键词为:词表论文,主题词论文,关键词论文,信息论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
〔分类号〕G254.23
1 网络环境下主题词表和关键词表的局限性
1.1 主题词表的局限性
1.1.1 从标引的角度来说 用概念严密、结构复杂的主题词表进行标引,效率低、速度慢,难以满足网络环境下文献信息以指数速度增长的需要。
·主题词都是经过严格优选,并遵循“一个概念只用一个主题词表达,一个主题词只表达一个概念”的规范化原则,这就要求标引人员将活泼丰富的自然语言表达转换成严谨的主题词检索语言表达。一个合格的标引人员必须熟练掌握主题词表的主要内容与标引规则,特别是在进行专业文献信息的标引时,既要掌握本专业的业务知识,又要掌握主题词表这种检索语言。在信息量飞速增长的今天,这是对标引人员的智力挑战。
·主题词表的精髓是概念组配,而概念组配的初衷是使主题词表尽可能快地体现和反映新概念,尽可能压缩词表的规模,以方便标引人员记忆和查词,从而提高标引的质量和效率。在手工信息资源管理阶段,这是非常重要的,但在信息处理电子化的今天,上述两方面的必要性都大为降低。与此同时,概念组配而带来的标引自动化处理的复杂性却日益成为提高信息加工和检索效率的制肘。
1.1.2 从检索的角度来说 检索用户必须选用主题词才能构造检索策略,进行有效检索。这就意味着检索用户必须对主题词表有透彻的了解。如果要提高检索的效率和质量,还必须对词表的参照系统、等级关系和概念组配的方法有相关知识,以便灵活地调整检索策略,进行扩检和缩检。但是,在网络环境下,信息用户越来越大众化和平民化,不能对其如此苛求,这就要求对主题词表这种严密的检索语言进行简化和优化。
1.2 关键词表的局限性
·大量自然语言在文献标引中的使用,使标引的一致性难以得到保证。又由于关键词法直接采用自然语言的语词作为标引标识,对自然语言中大量存在的等同关系词不加规范统一,也不显示等同、等级关系。所以,在关键词系统中,同一主题的文献常常因标引者用词不同而被分散。
·缺乏严格组织的关键词使检索质量和效率都难尽人意,特别是检全率难以保证。由于同一主题的文献因标引者用词不同而被分散,检索者必须用表达该主题的许多个等同关键词同时查找,才能查到较多文献。即使是熟悉本专业用词的专业人员,检索时也难以将表达某一概念的全部等同关系词都考虑齐全。因此,漏检的可能性较大。另外,关键词法不显示关键词之间的等级关系和相关关系,使检全文献的难度相应增加。
2 一种改进的词表——主题词表与关键词表相结合
传统的主题词表和关键词表在网络信息资源组织的直接应用中都存在局限性。但网络信息资源的科学组织和规范化处理,又离不开情报检索语言的指导。唯一的出路就是对传统的检索语言进行改良,使之在不显著降低标引质量的同时,适应网络信息处理对标引效率和检索易用性的要求。主题词法是在吸收、借鉴和综合了大量检索语言的原理和方法的基础上,经改良而成的一种性能优异的检索语言,特点是有丰富的参照系统和严格的词间关系,标引精度高、深度大,在检索过程中能灵活地调整检索策略。而关键词法是适应目录索引编制自动化的需要而产生的,其突出优点是语法简单,标引速度快、效率高、检索简单、检全率高,特别适应计算机信息处理。如果能将主题词表和关键词表这两种最常用的检索语言结合起来,既发挥主题词表标引精度高、可通过参照系统实现检索策略的调整,从而得到高质量检索效果的优点,又体现关键词表标引难度小、效率高、方便自动化信息处理的特点,嫁接优化而产生一种更适合网络信息处理的信息标引与检索系统,应该是一种良好的选择。
2.1 改进后词表的结构
2.1.1 原理 既有主题词表,又有关键词表,而且建立起每一个关键词与其概念相同或相近(含相关和相反)主题词的对应关系。在文献处理时,利用自由词进行标引,尽可能降低标引的难度,提高标引的效率。然后通过后台的词表控制系统将自由词标识转换成对应的关键词和主题词标引标识。检索时,也是先用自然语言或自由词构造检索表达式,然后通过后台词表控制系统转换成相应的关键词检索表达式,进行检索匹配。如果检索用户需要扩大检索范围,就可通过关键词与主题词的对应关系,利用主题词表的参照系统和等级关系进行扩检。
改进后的词表系统包括主题词表、关键词表、自然语言检索时用的停用词表和存放标引结果并进行检索匹配的文献——关键词表。其中主题词表又由主题词词表、词间关系表和范畴分类表等组成。主要结构见表1:
表1 改进后词表技术实现应包含的数据库表
词表系统包含的表 表的用途
主题词词表
用于存放主题词及其范畴分类标识
词间关系表
用于存放主题词之间的等同、等级和相关关系
范畴分类表
用于存放主题词范畴分类号和范畴分类名
关键词表 用于存放所有的关键词及其与对应主题词的关系,
这是该词表技术的核心、标引与检索都必须使用到该表
停用词表 存放各类不适用于标引的停用词,主要用于对自然语
言描述表达的检索需求的解析
文献—关键词表
这是标引以后的结果表,存放文献ID及与之相关的关键词与主题词
2.1.2 主要特点
·主要通过关键词表进行标引,通过文献—关键词表进行检索匹配,通过主题词表的参照系统、范畴等级分类体系及主题词与关键词的对应关系进行扩检、缩检和检索策略优化。
·以关键词表为核心进行标引和检索,充分利用关键词表标引时难度小、效率高、检准率高、用自然语言词语构造检索表达式、检索用户智力负担小的优点。
·通过建立关键词与主题词的对应关系,在发挥关键词表优势的同时,也没有丧失主题词表组织严谨、标引准确、参照系统完备、方便进行检索策略调整和检索过程优化的特点。
表2 改进后词表所包含的数据库表的逻辑结构
主题词词表的主要字段 字段的说明
主题词
具体的一个个主题词
范畴分类号
主题词所属的范畴分类号
状态类型 是否已停用
词间关系表主要字段字段的说明
主题词
具体的一个个主题词
关系类型 主题词与其他主题词(关系词)的关系,包括近义词、
反义词、上位词、下位词、相关词等
关系词
与该主题词相关的其他主题词
范畴分类表的主要字段 字段的说明
范畴分类号
用等级累进制编码方式来反映范畴分类及其等级关系
范畴分类说明 该范畴分类号所代表的具体涵义
关键词表的主要字段
字段的说明
关键词 具体的一个个关键词
主题词 与该关键词相对应的主题词(允许一个关键词对应多
个主题词,当然一个主题词也可以对应多个关键词。
需要注意的是,主题词一定是关键词,并建立与自己的对应)
状态标志 是正式关键词还是临时关键词
记录序号 用于标识唯一涵义的关键词(即关键词—主题词对)
停用词表的主要字段字段的说明
停用词
存放一个个的停用词
文献关键词表的主要字段
字段的说明
文献ID
一篇文献的唯一标识
关键词
能说明该文献内容的关键词,同一篇文献的多个关键词以多条记录来反映
主题词
与该关键词涵义相切合的那个主题词
关键词相关性顺序号关键词排列的顺序号,用于表示关键词与标引文献的相关性程度
·通过对标引关键词的相关性排序。可以按照相关性权重进行检索命中文献的输出。
·通过停用词表对自然语言的过滤,实现自然语言表达的检索需求的解析,进一步简化信息检索过程。列入停用词表的词,都是无实际检索意义的词,包括:①冠词;②介词;③连词;④感叹词;⑤代词;⑥概念过于宽泛或检索意义不强的某些副词、形容词、名词和动词。
·为了减少词表控制的复杂性,将关键词与主题词的对应关系进行简化。严格意义上讲,关键词与主题词的对应关系有两种:①一种是直接对应,即一个关键词与一个主题词在概念上有直接的关联;②组配对应,即一个关键词与几个主题词组配后产生的新概念对应。为了减少词表控制的复杂性,我们将所有的组配对应全部转换成直接对应,即如果一个关键词需要与几个主题词组配后的概念对应,则将组配后产生的新概念也加入主题词表,以降低词表对应的复杂性,提高标引与检索的效率。
3 改进后词表的标引方法
从图1——改进后词表标引方法流程图上,可以发现如下几个特点:
图1 改进后词表的标引流程
·如步骤B、C、D、F所示,标引人员是直接用自然语言进行标引,然后通过后台的词表转换,转换成关键词和主题词标识。这样,通过后台的自动化处理和少数有经验的词表控制人员的干预,将标引人员文献内容主题分析的结果转换成规范的文献标引(检索)标识的过程大为简化。一方面,降低了对标引人员的要求,另一方面,文献标引的速度和效率大为提高。可以说是以几乎与自然语言标引相等的速度,得到与主题词表标引不相上下的标引效果。
·如步骤I所示,词表的规范和控制由专业的词表控制人员进行,将前台大量标引人员需要面对的检索语言的复杂性,转变成后台少数专业人员的专业化操作,在降低标引复杂性的同时,标引的质量也得到了保障。
·如步骤E所示,将关键词与主题词同时作为检索表示记录下来。一方面,可以通过关键词保证检索匹配的精确性(即检索需求与文献内容的切合性),另一方面,又可利用主题词表丰富而严谨的参照系统和等级关系,保证检索策略调整的灵活性及检索结果的高质量。
·如步骤K所示,特别建立了“关键词的拆分与组合”机制,进一步增加文献标引标识,提高标引的网罗度。所谓“关键词的拆分与组合”,就是当一个复合关键词的分拆能够提供更多的检索入口时,就将其分拆为两个或多个关键词标引标识,当两个或多个关键词可以结合成一个更专指的关键词时,应将其合并为一个新的关键词标引标识,并将这些新产生的标识用于对该文献的标引。
·如步骤H所示,标引人员在选择标引标识的同时,对所选择的标引标识与标引文献的相关程度进行判断并排序,在记录标引标识的同时,记录下该标识与标引文献的相关性权重(次序),便于在检索结果输出时进行相关性排序。
4 改进后词表的检索方法
利用改进后的词表进行检索,除了一般意义上的直接匹配检索之外,还能进行扩检(扩大检索范围)、自然语言检索、检索结果的相关性排序和相关文献的自动聚类等。词表在检索中的应用更加深入和多样化。
4.1 一般检索
从图2——一般检索的流程来看,利用改进后的词表进行检索的特点是:
图2 利用改进后词表进行一般检索的方法
·如步骤A所示,检索人员可以直接用自然语言关键词构造检索表达式,无须通过查阅词表确定检索用词,而是由后台自动进行检索标识的转换。检索人员的智力负担大为减轻。
·如步骤B所示,在进行检索词匹配之前,系统自动进行复杂关键词的拆分和简单关键词的合并,以增加检索入口词,在不降低检准率的同时,提高检全率。
·如步骤F所示,如果检索用户输入的检索用词没有对应的文献资料,系统可以自动将与之相关的关键词提示出来,由用户挑选并加入检索表达式,以提高检全率。
·如步骤G所示,在进行检索匹配的同时,如果用户的检索表达式中出现具备检索意义的非关键词,系统能够自动搜集,并提醒词表控制人员将其加入关键词表和主题词表。这样,从另外一个角度扩大了关键词与主题词的搜集范围。
4.2 扩大检索范围
改进后的词表,与目前网络环境下信息资源组织中广泛应用的自由关键词组织方法相比,最大的改进之一就是能够按照主题词表的词间关系有层次、有目的地进行扩大检索范围的检索策略优化。扩大检索范围的具体实现方法如下:
图3 利用改进后词表进行扩检的方法
这样,检索用户在检索的过程中就能够根据检索结果的具体情况,结合实际的检索需求,适时调整检索策略,并最多可以进行3次扩检,最大程度地满足自己的检索需求。
4.3 自然语言检索
检索用户除了用关键词及它们之间的逻辑关系构造检索表达式进行常规检索外,还可以用自然语言直接表达自己的检索需求,系统利用停用词表、关键词表自动解析以自然语言表达的检索需求,并构造检索表达式进行检索,图4是自然语言检索的流程,并以“人民币汇率的调整”为例,说明整个检索过程。
图4 利用改进后词表进行自然语言检索的方法
从这一流程可以看出,自然语言检索的关键在于步骤D和步骤E。步骤D是通过词语之间的排列组合,尽可能多地构造检索用词。步骤E是将解析出的检索用词组合成检索表达式,最大可能地将自然语言表达的检索需求表达得更详尽、更准确,以得到满意的检索结果。
4.4 检索结果的相关性权重计算
在网络信息环境下,检索结果集往往非常庞大。而检索用户在庞杂的信息集合中寻找出自己真正需要的内容,又需要耗费大量的精力。这就意味着,信息检索的过程不仅仅是将符合检索条件的信息单元寻找出来,而且还要将其中与用户检索需求最相关的内容优先呈现到用户面前。这样,就需要对检索结果的相关性进行计算和排序。在改进后的词表中,可以按照以下流程进行相关性权重的计算,并据此进行检索结果的输出,如图5:
图5 利用改进后词表进行检索结果相关性权重计算的方法
表3是一个相关性权重表的例子,其中,每一次扩检的计算权重,可以根据实际检索结果的经验积累进行修改和调整。
表3 相关性权重表示例
4.5 相关文献的聚类
在网络信息处理中,经常会要求进行相关文献的聚类。特别是在网络信息的展现过程中,相关文献是信息浏览用户扩大信息搜寻范围的主要途径。利用改进后的词表,可以以非常简便且高质量地实现相关文献的聚类。实现流程如图6:
图6 利用改进后词表进行相关文献聚类的方法
4.6 利用词表精选检索用词
对于检索用户而言,在构造检索策略时,最困难的事情莫过于选择恰当的检索用词。在使用单纯的关键词表进行检索时,由于关键词之间缺乏有效的关联和严格的等级关系,也没有完善的参照系统和范畴索引来揭示词表的轮廓和概貌,用户只能通过自己的经验和知识来选择检索用词,难免有模糊性和局限性。而改进后的词表就可以通过主题词表的范畴分类、参照系统和等级关系,按图索骥、有的放矢地选择能够表达自己真实意图的检索用词。
·可以通过主题词表的范畴索引、参照系统了解检索对象所涉及的概念的内涵与外延,并按图索骥地去寻找能够准确表达自己信息需求的检索用词。
·可以通过主题词表的词间关系(参照系统和等级关系),根据信息需求和检索过程中的实际情况,扩大或缩小检索对象的概念范畴,通过上位词和下位词之间的来回切换,关联到相应的关键词,挑选出更适合的检索用词,从而灵活地提高或降低检索用词的专指度,进行检索策略的调整。
·可以通过主题词表丰富而严密的词间关系和基于知识分类的范畴分类,将大量相关的主题词及与之相关的更大量的关键词集中起来,供检索用户大范围地、有的放矢地挑选相应的检索用词。
5 改进后词表的更新与维护
无论是关键词还是主题词,都是对客观事物的概括、抽象与反映。任何一种词表都要随着事物本身的发展变化以及人们对客观事物认识的深入而加以修订、完善。
5.1 关键词表的更新与维护
关键词表的更新与维护流程见图8:
图8 增补主题词的方法
从图7可以看出,由于关键词表是检索和标引的入口词表,一般不能删除词汇,所以关键词表的维护实际上就是新增关键词。新增关键词的来源有3类:①标引中出现的新关键词;②检索中出现的新关键词;③词表控制人员发现需要增补的关键词。
图7 关键词表的更新与维护方法
这样,关键词扩充的来源基本包括了词表使用的全过程,而且可以通过计算机实现关键词的自动搜集。关键词表的丰富和完善由此有了全方位的保障。
5.2 主题词表的更新与维护
由于需要进行词的优选和规范化,主题词表的更新与维护相对比较复杂。主题词表的更新与维护包括3种情况:①增补主题词;②剔除主题词;③概念的词替换。其中剔除主题词又包含概念的分解和概念的合并两种情况。具体情况讨论如下:
5.2.1 增补主题词 当出现新的概念,或现有概念(主题词)须细化、综合时,都可能需要进行主题词的增补。增补主题词的流程见图8:
5.2.2 剔除主题词 当一个主题词代表的概念被分解、合并而产生能够完全代替该概念的新概念和主题词时,就需要进行主题词的剔除。图9以概念的分解为例来说明主题词剔除的过程。
图9 剔除主题词的方法
由概念的合并而造成的主题词剔除的流程与此类似,在此不复赘述。
5.2.3 概念的词替换 当一个概念对应的主题词随着时代的变化不再适用而被新的词语所逐步代替时,为了保证主题词表的时代性和新颖性,应该将代表该概念的旧主题词替换成新的通用的主题词。概念词替换的流程如图10。
图10 主题词概念替换的方法
如果想对某个主题词的字面进行修改,可借用概念词替换的流程。
6 总结——改进后词表的优越性
通过对主题词表和关键词表进行嫁接和改进而形成的新的词表结构及由此而产生的标引与检索方法,由于继承了主题词法和关键司法各自的优点,并在一定程度上克服了各自的不足,因此无论是标引质量和效率,还是检索的方便性与灵活性,都有了很大提高。表4是主题词表、关键词表和改进后词表在词表质量、标引、检索等各方面指标的简单比较。
表4 主题词表、关键词表与改进后词表的性能比较
评价指标 主题词表
关键词表
改进后的词表
1.标识的专指度 一般
高 高
2.标识的网罗度 较高
高 高
3.标识对自然语言的适应性低 高 高
4.概念表达的准确性 一般
高 高
5.概念表达的规范性 高 低 一般
6.显示概念之间关系的能力高 低 较高
7.将概念转换成检索(标引)标识的方便性 不方便 方便方便
8.标引的效率低 高 高
9.标引不一致的可能性低 高 一般
10.标引结果对文献内容揭示与组织的程度
高 一般较高
11.标引与检索用词对同一概念描述歧义的可能性 低 高 一般
12.检索策略构造对词表的依赖性
高 低 低
13.检全率
高 低 较高
14.检准率
一般
高 较高
15.调整检索策略的能力
强 弱 较强
16.对相关文献聚类和族性检索的能力
强 弱 强
17.进行检索结果相关性计算的能力 强 弱 强
18.对计算机信息检索的适应性 弱 强 强
从上表可以看出,通过嫁接和改良,改进后词表的各项性能指标都达到或接近主题词表或关键词表中较高的那一个。也就是说,改进后的词表较好地继承了主题词表或关键词表各自的优点,有效地形成了“杂交优势”。