一种新的文件机器检查方案_自然语言论文

文献机检查全的新方案，本文主要内容关键词为：文献论文,新方案论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

随着计算机检索的日益发展，采用自然语言标引的文献信息与日俱增，因而，同一主题概念的文献在数据库中的查全（下简称查全）问题越来越受到图书情报界和用户的关注。本文试图就标引和检索都采用自然语言，借助一个专用的检索软件，便捷地实现查全作些探讨。

1 文献机检查全的传统做法

通过对近10年的文献调研发现，在计算机文献检索中，为了查全文献，人们主要采用受控语言和调整检索策略这两种手段。

1.1 采用受控语言——受控语言是根据情报检索的需要而创制和不断改进的，其发展过程是从分类语言、标题语言、叙词语言，到为实现自然语言检索而设计的后控制语言等。一般认为，分类语言和叙词语言比较成熟，有助于文献的查全。

1.1.1分类语言——用户可以通过分类途径查找所需文献。分类标识能提供族性检索，有利于扩检和缩检，从而实现不同范围内的查全。但由于文献数据库所用的分类法在类目的设置与体系结构方面不尽相同，用户必须在了解数据库所用分类法的体系结构并查到相应类目后，方能检索；分类法尚未反映的新主题层出不穷，分类人员对它们一般采用上位标引和靠类标引，而分类法中的交替类目，各专业单位往往选择不一，用户对这些常难以捉摸；由于分类人员的观点、知识层次、专业水平及各单位的需要不同，甚至分类先后的差异，都难免会产生归类上的分歧。因此，尽管分类语言有族性检索的优势，有利于查全，但在上述这些情况下，用户很可能产生漏检或误检，甚至使检索失败，特别在网络环境中，依靠分类语言实现查全，不易做到。

1.1.2叙词语言——它吸收了多种主题语言的优点，是为后组式标引而创制的。如果检索与标引都用叙词并相匹配，必能实现查全，现被多数数据库所采用。然而，叙词语言也存在一些问题，主要是：（1 ）目前国内外有几百种叙词表，各表所选叙词的兼容性不尽人意，描述同一主题概念的叙词各表会有所不同，因而影响查全。而且，在实际标引中，往往不可能完全使用叙词，较多的是叙词与自由词结合使用。最近，笔者利用中国科技信息所重庆分所建立的《中文科技期刊篇名数据库》（1989年—1997年3号盘），采用《汉语主题词表》中的“情报检索”这一叙词进行检索，查出文献1773篇；同时对它的两个同义词“文献检索”与“信息检索”也作了检索，竟各查出文献205篇和49篇；同样对叙词“查全率”和“查准率”进行检索，分别查出文献32篇和27篇，采用相应的同义词“检全率”和“检准率”，则各查出了3篇文献。可见，仅用叙词检索，文献常无法查全。（2 ）叙词语言的最成功之处在于它采用了概念组配的原理，可以使任何一个复杂概念都能通过若干个单元概念的组配表达出来，具有比词表中收入并用正式叙词表达的概念要丰富得多，而且专指得多。但是，对于未受过机检专业训练的最终用户来说，要做到选词恰当、组配正确难度较大。（3）由于叙词表强调词汇控制，因而不易及时更新。这种滞后性，极大地影响了新主题概念的标引与检索。笔者对全国科学技术名词审定委员会推荐的名词“因特网”，利用上列光盘进行检索，查出的文献篇数竟为0，而利用它的各个同义词进行检索，结果为：“Internet”180篇、“INTERNEI”11篇、“互联网”26篇、“互联网络”32篇、“国际互联网”13篇、“国际互联网络”10篇、“英特网”2篇、“英特网络”1篇、“交互网”1篇、“全球互联网”2篇。显然，同一主题概念的文献标引如此分散，用户哪能查全。

1.2 调整检索策略——陈光祚教授认为：“所谓检索策略是在分析情报提问实质的基础上，确定检索途径与检索用词，并明确各词之间的逻辑关系与查找步骤的科学安排。”用户能否构造一个最佳的检索策略，将直接影响到文献的查全。为了查全，人们一般采取下列几种检索策略：

1.2.1

选择尽可能多的数据库——因为不同的数据库有不同的收集范围和准则，任何数据库由于各种条件所限，不可能及时地将现有的文献都收录齐全，所以，选用的数据库越多，虽然重复也多，但查全的可能性会相应提高。

1.2.2扩大检索范围——采取这种检索策略的具体方法有：（1）用户可利用截词符“？”或“*”，对某一单元词可能构成的全部复合词进行检索；（2）利用逻辑运算符“+”，连接同义词；（3）用上位词检索，以提高检索的网罗度。

1.2.3增加检索途径——用户可利用数据库所提供的各种检索途径，特别要指出的是：除了用主题途径外，可以与分类等途径一起作组配检索。

1.2.4 层次检索——将要求检索的内容分析为不同层次及同一层次的不同方面，然后从这几个层次和方面分别进行检索，再对各层次检出的文献进行分析、综合，得出完全相关的文献。

不管采用受控语言还是自然语言，上述四方面对机检查全都是行之有效的。只是对最终用户来说，需要经过指导才能实现。

2 当前采用自然语言实现机检查全的研究成果

采用受控语言标引和检索，在一定程度上有助于查全，但存在着人为因素大、技术要求高、检索效率低等缺陷，使用户难以得到理想的检索效果。如果标引和检索都采用自然语言，又能达到查全要求的话，优越性就大了：（1）可以降低标引工作的难度和成本，提高标引的速度；（2）直接使用文献用语和作者用语，可以提高标引的专指性；（3）用自然语言检索，对用户方便；（4 ）自然语言不依附于特定的数据库，兼容性强，适用于联机网络环境，有利于文献资源共享。但是，简单地使用自然语言，显然不利于文献的查全，上述“因特网”这个例子就足以证明这一点。为弥补这一缺憾，图书情报界已经提出了以下两种比较成功的办法。

2.1 编制后控制词表这种办法是标引阶段采用自然语言，然后主要在标引用词的基础上确定它们的受控词，编成后控制词表，并存贮在计算机中。用户利用自然语言检索，由计算机转换成相应的受控词，通过受控词查明其同义词，最终达到查全文献的目的。同时，通过受控词的分类体系，实现文献的扩检与缩检。因此，后控制词表是目前自然语言与受控语言相结合的成功尝试，是一种有发展前途的情报检索语言。但是，由于后控制词表是依靠受控语言作为转换工具的，难免有以下的不足之处：（1）用任何一个自由词检索，必须通过它的受控词找到相应的同义词，通过逻辑“或”的运算，才能查全。利用分类体系找到相应的上、下位词，才能实现扩检或缩检，而分类体系难免具有一定的凝固性。（2）由于选定受控词要符合文献保证与用户保证等原则，技术要求较高，所以在任何时候都会有不少自由词不能及时确定它们的受控词，因而用这部分自由词来检索，文献就难以查全。

2.2 计算机自动转换这种办法是将叙词表存贮在计算机中，标引与检索都使用自然语言，由计算机通过入口词表，自动地将非叙词转换成相应的叙词，由此实现检索与标引用词的匹配，以达到文献的查全。这种办法与通过后控制词表检索存在着类似的缺点，而且，对受控语言的依赖性比后控制词表更大。

3 采用自然语言实现便捷查全的新方案

在计算机技术高度发展的今天，摆脱受控语言的束缚，用自然语言标引和检索，在文献已有标引词的基础上实现便捷查全，已经成为图书情报界共同追求的目标。通过我们近几年来的探索与试验，采用如下措施，这一目标是可以实现的：

3.1 从任一专业入手，尽可能将各个主题概念的具有等同关系的词汇（包括同义词、近义词、同义词组和近义词组）搜集起来。

3.2 将这些具有等同关系的词汇（下称等同词），由计算机自动赋予一个相同的号码，称之为链号，将它们链接起来，构成各个等同词链。因此，不管链上各词的标引频率如何，都可作为文献信息的检索点。

3.3 文献信息（包括题录、文摘乃至全文），在输入数据库时，不管它们用链上的哪个词标引，计算机均将这些标引词转化为相应的链号，并集中存贮在数据库的该链号之下。例如：本文1.1.2中所举的， “查全率”有文献32篇，“检全率”有文献3篇。若两词的共同链号为1163，那么这35篇文献就会集中存贮在链号1163之下。

3.4 设计一个专用的检索软件。当用户使用任一具有检索意义的自由词进行检索时，不管文献标引采用链上的哪一个等同词，计算机通过链号就能将文献一次便捷查全。如：上例中，不管用“查全率”还是“检全率”进行检索，计算机会自动转换为链号1163，这35篇文献就能迅速检出。

3.5 各个等同词链之间，凡有上下位关系和相关关系的也须通过各自的链号相互链接，构成一个有机的语义网络，以备扩检与缩检，实现某一范围、较大范围或较小范围内的查全。

3.6 对于尚未收录的新标引词，计算机将自动加以登录，词表维护人员须及时作好必要的链接工作，以保证文献随时都能查全。

3.7 这种便捷查全的机读词库是兼容的、开放的、动态的，能适用于相同专业的任何数据库。由于标引与检索都采用自然语言，且无需转换为控制词或叙词，就不存在时滞问题；对各等同词无需作逻辑“或”的运算，因而提高了检索效率，这些对标引者（通常是作者）和最终用户都有利。

（本文是浙江省哲学、社会科学九五规划重点课题《中文图书馆学、情报学文献检索最优化研究》的研究成果）

收稿日期：1998-08-18

标签：自然语言论文; 文献论文; 数据库语言论文; 数据检索论文; 同义词论文; 受控论文;

一种新的文件机器检查方案_自然语言论文

猜你喜欢