OPAC研究中的相关问题综述_相关性分析论文

OPAC研究中的有关问题评述，本文主要内容关键词为：OPAC论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

1 引言

20世纪70年代中期出现的联机公共检索目录（Online Public Access Catalog，简称OPAC），是70年代联机检索技术的应用产物。但人们对OPAC的研究，在它正式出现在图书馆之前就已经开始了。自60年代以来，已经发表了大量的关于OPAC研究论文。据文摘[1]报道，第一篇研究自动化目录可能性的文章是Dan Swanson所著，并于1964年发表。据统计，截止到198 5年，共发表了600多篇论文。自1985年以来，图书馆学检索刊物《Library Literature》已经为1300多篇有关OPAC的文献编制了索引。可见，这方面研究论文和述评文章的文献量很大。

本文就OPAC研究中的有关问题进行阐述和评价，着重围绕OPAC的发展阶段、OPAC研究的主要目标、信息检索过程的构成、相关性判定、检索变量等方面，旨在为进一步研究和改进OP AC有所裨益。

2 关于OPAC的发展阶段

迄今为止，OPAC的发展可大致分为三个阶段：

第一代OPAC取代了卡片目录，基本上包括了与卡片目录相同的书目信息和检索点。在用户的检索输入与书目记录之间，许多OPAC需要进行逐个字符的匹配，匹配的有效性不高。与卡片目录相比，用户似乎更愿意在OPAC上进行主题检索（与已知文献检索相比），但是，由于一般必须把用户的检索限制在《国会图书馆标题表》(LCSH)，而该表的神秘性又使大多数用户感到困惑，因此，OPAC没有给用户带来太大的益处。

这些早期的OPAC设计被更友好的用户系统——第二代OPAC所取代。在大多数图书馆都能看到这样的系统，它们的性能更加完善，如对书目记录中的题名或其它字段进行关键词检索、布尔匹配、浏览手段并改进了联机帮助手段。

尽管对第一代OPAC作了上述改进，尽管第二代OPAC受到用户的欢迎，但人们很快就发现，检索时还是经常出现一些问题，结果也不总是令人满意。造成这种状况的原因如下：

①OPAC用户来自方方面面，类型不是单一的。某些人对一般的信息检索任务可能具有相当的专业特长，又可以随意使用某个OPAC系统，而其他人在这两方面可能还是新手。就OPAC检索而言，用户在其检索领域内的学科知识水平是不同的，并或多或少地涉及到所查文献的精确信息。事实上，OPAC的用户群相当复杂，而且这个用户群在各种信息检索系统中可能是最为广泛的。

②在检索能力、界面设计、应答时间、数据库规模以及各个书目记录的内容等方面，不同的OPAC系统差别很大。

③一个典型的OPAC包括的主题范围很广泛，而不局限在一个狭窄的学科领域，并且必须能有效地处理任何一个领域中的检索。

④OPAC主要局限于一种文献形式，即专著。在它们的封面上包括了大量信息，但这些信息都是以概括的形式压缩在OPAC记录里，有代表性的是按题名、主题标题或分类号。

第三代OPAC正在缓慢地出现，它包括增强检索和匹配技术，或者根据提问的相关性对检出结果进行排序。但在大多数情况下，这样的OPAC仍处于实验阶段。这些增加的性能是对自系统细致地调查研究最早的OPAC以来进一步扩展的结果，这一结果有助于广泛深入地收集OPAC 及其用户的信息。同时，必须承认，这些信息提出了至少与答案一样多的问题。

对于解决OPAC问题的办法，还没有取得一致意见，特别是在主题检索领域。有些人建议改进界面，更好地提供联机帮助，或者对初级用户进行更好的指导。另一些人则主张需要更高级的检索引擎或对用户提问进行自然语言处理。还有人认为书目记录本身的关键在于：不论界面或检索机制如何，在准确地匹配检索提问之前，书目记录必须包含更多的主题信息。甚至有些研究者悲观地得出结论：通过以上方法中的任何一种都不能对OPAC进行充分的改进，以便向用户提供他要找的书目信息，而不遗漏相关文献或给检索者提供大量的非相关文献。

3 关于OPAC研究的主要目标

OPAC研究的主要目标是：收集更有效的OPAC系统方面的信息，以便能够在图书馆进行设计和应用。这就是说，研究OPAC的一个基本设想是通过确定该目录用户的需求和行为，开发出以用户为中心的目录。这种研究试图确定用户在OPAC上检索书目信息的程度，并从该目录中检出那些用户认为与自己的任务相关的文献，同时把目录中不相关的文献排除在外。

目前OPAC还没有达到这一目标，从这个意义上说，研究结论通常是根据对该系统的各种增强，提出一些克服这一缺点的改进方法，而由有经验的馆员对用户进行检索前指导或检索中指导并不多见。

这个研究目标仍然远远没有达到。

4 关于信息检索过程的构成

文献[2]提出，信息检索过程由6个主要部分组成：

一组记录或文献（文献组）；文献集合的标引或存取方法（存取方法）；用户的信息需求（用户需求）；用户需求在一系列检索语句或菜单选择中的词语描述（检索策略）；作为该检索策略结果而产生的一系列文献（检出集合或序列）；检出集合满足用户需求的程度（相关性判定）。

以上每一部分都向研究者提出了新的挑战，而最后一部分是任何检索研究中都十分普遍存在的问题。

5 关于相关性判定

现在，人们普遍认为，一个检出集合的相关性（或其它名称）必须由每个检索者主观判定，而不是由研究者以某种方法客观判定。因此，当测定检索的查准率时，OPAC研究者面临的问题是，确定由检索者从OPAC上检出的文献是否被他们认为是相关的。

然而，用户往往会发现，测定他们在OPAC上找到的文献同自己的相关性是十分困难的。因此，研究者为了测定检索的查全率，也必须确定有多少存贮在OPAC中的相关文献被检索者漏掉。

文献[3]找到了一些证据并提出，有经验的图书馆员能判断用户认为哪些文献是相关的，图书馆学校学生则稍逊一筹。不过，对这个结论仍存有争议。一般地说，判定者对所定主题领域了解得越多，他们的判定就越趋向一致，判定检出集合中的相关记录就越少，判定者对非相关性的判定往往比对相关性的判定更趋向一致[4]。

有的人在OPAC研究中依靠图书馆学专业的学生进行相关性判定，而有的人则将检索专家从O PAC上检出的记录与学科专家推荐的书目（如专业百科全书文章末尾所列的书目）进行比较。

OPAC研究的评论者曾对以往所用方法提出了批评，特别是针对引证不够严密和统计分析方面的错误。然而，真正的问题是更加基本的。OPAC用户试图用他们所选择的检索词来匹配OP AC 记录中所包含的词。如果用户能确认一个或多个这样的匹配的话，那么，就可以判定这个检索是成功的。但这样产生的问题比提供的答案更多。

首先，事实上，能够证明检出的文献与用户相关吗？OPAC研究通常假设，任何检出的文献对用户来说都是有益的。但是，能做出这样的假设吗？用户可能带着文献清单离开了OPAC，即使这些文献似乎是不相关的或相关性可能很低的。更大的问题是，直到用户找到并检出实际文献之前，是否都判定为相关。然而，一旦用户完成了OPAC检索，也没有几项OPAC研究紧接着就对用户进行抽样。有的研究者考察过这个问题，其结论是，“大多数主题检索活动是在书架上进行的，而书目工具则用于把检索者引向藏书的相关领域。”[5]另一位研究者对这个问题的看法是：“图书馆终端用户的检索行为扩展到OPAC以外的方法……对文献相关性的全面判定在检索文献、浏览书架和找到（或没找到）文献之间可能是变化的。”[6]可以进一步证明，唯一正确地测定相关性是当用户不但在书架上选择到文献，而且实际用于手边工作之后。当然，对于研究者来说，做出这样的测定是困难的，而在OPAC上判定检索成功则容易得多。

其次，许多研究者假定，用户在OPAC上作出的匹配失败就意味着检索是失败的，如果不考虑OPAC可能没有简单地列出任何相关文献的话。

第三，检索能与相关文献匹配，但还是遗漏了“最好”的文献。文献[7]认为，“对图书馆目录的主题检索不能被认为是完成成功的，除非用户能找到在某些意义上来说是‘最好’的资料。”

6 关于检索变量

在能够控制大量变量的情况下，任何涉及人文主题的研究可能会遇到相当大的麻烦。这些典型的变量包括如下因素：年龄、性别、一般信息检索和OPAC以及正在调查的特定OPAC的知识和经验、领域知识、承担的义务、检索时间、评价信息的认知技巧，等等。

检索本身提供了另一组变量。它们能找出已知文献、主题检索（实际上，这种区分对于评价检索成功与否是十分重要的，表明研究者分析检索记录时难以辨认），或者两者兼而有之。主题检索试图在图书馆找出一些相关文献，或者叫详尽检索，即找出图书馆拥有的关于该课题的一切文献。检索可以限定在一些概念或涉及几个概念的结合。从而，增加了检索的复杂性。检索课题可以是专著（在大多数OPAC可以找到的早期文献类型）涉及的，并且可以用题名关键词、丛书名和主题描述或者用主题标题（可在OPAC得到的典型的主题检索键）来检索。检索课题更可能包含在杂志或百科全书的文章中，或在专著中论述了但在典型的OPAC中没有标引出来。

多数研究假定，所观察的检索期是独立的，既没有优先于它的，也不优先于使用其它检索词或检索策略的相关检索期。然而，有人指出[8]，用户不必把它们的交互限定在一个检索期，相反，却可以进行由渐变和改变信息问题所驱动的有联系的几个检索。有人发现[9]，在OPAC交互过程中，用户的目标没有或至少只有极少的改变（主张用户为了改变其目标，不必有被判定为相关的检出记录的足够信息来改变其目标）。但同时承认，一个检索期只是一个较大的信息收集过程的一部分，在所观察的检索期前后可进行使用其它策略的相关策略。

然而，另一个变量是OPAC自身提供的，OPAC不止一个。竞争公司为各种不同的图书馆环境生产OPAC，而且展示了多种界面、检索引擎、帮助工具、应答时间，等等。这就很难对在一个OPAC上得出的研究结果与在另一个OPAC上得出的研究结果进行比较（或者，甚至在同一个O PAC上的完成两次完成，第二次是对系统进行了改进）。有人对自己的OPAC研究中的54.2%失败率[10]和别人较早研究中的40.5%失败率[11]进行了解释，而自己的OPAC缺乏关键词检索性能。

数据库的大小对OPAC研究结果也有影响，大型数据库和小型数据库的检索情况不同。例如，增加更多的主题信息以改进书目记录，可以提高查全率，但相应地，对查准率上产生了负面影响，这种情况在大型数据库比小型数据库明显得多。

最后，当考察OPAC研究时，应当考虑到OPAC所在图书馆的类型。这有可能影响到OPAC中列出的文献类型和所实施的检索类型，特别是用户的特性。几乎所有的OPAC研究都是在大学图书馆里通过研究、本科生或教师进行的，只有少数是在中学图书馆进行，在公共图书馆进行的几乎没有。

标签：相关性分析论文; 用户研究论文; 图书馆论文;

OPAC研究中的相关问题综述_相关性分析论文

猜你喜欢