OPAC研究中的有关问题评述,本文主要内容关键词为:OPAC论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
20世纪70年代中期出现的联机公共检索目录(Online Public Access Catalog,简称OPAC) ,是70年代联机检索技术的应用产物。但人们对OPAC的研究,在它正式出现在图书馆之前就 已经开始了。自60年代以来,已经发表了大量的关于OPAC研究论文。据文摘[1]报道,第一 篇研究自动化目录可能性的文章是Dan Swanson所著,并于1964年发表。据统计,截止到198 5年,共发表了600多篇论文。自1985年以来,图书馆学检索刊物《Library Literature》已 经为1300多篇有关OPAC的文献编制了索引。可见,这方面研究论文和述评文章的文献量很大 。
本文就OPAC研究中的有关问题进行阐述和评价,着重围绕OPAC的发展阶段、OPAC研究的主 要目标、信息检索过程的构成、相关性判定、检索变量等方面,旨在为进一步研究和改进OP AC有所裨益。
2 关于OPAC的发展阶段
迄今为止,OPAC的发展可大致分为三个阶段:
第一代OPAC取代了卡片目录,基本上包括了与卡片目录相同的书目信息和检索点。在用户 的检索输入与书目记录之间,许多OPAC需要进行逐个字符的匹配,匹配的有效性不高。与卡 片目录相比,用户似乎更愿意在OPAC上进行主题检索(与已知文献检索相比),但是,由于一 般必须把用户的检索限制在《国会图书馆标题表》(LCSH),而该表的神秘性又使大多数用户 感到困惑,因此,OPAC没有给用户带来太大的益处。
这些早期的OPAC设计被更友好的用户系统——第二代OPAC所取代。在大多数图书馆都能看 到这样的系统,它们的性能更加完善,如对书目记录中的题名或其它字段进行关键词检索、 布尔匹配、浏览手段并改进了联机帮助手段。
尽管对第一代OPAC作了上述改进,尽管第二代OPAC受到用户的欢迎,但人们很快就发现, 检索时还是经常出现一些问题,结果也不总是令人满意。造成这种状况的原因如下:
①OPAC用户来自方方面面,类型不是单一的。某些人对一般的信息检索任务可能具有相当 的专业特长,又可以随意使用某个OPAC系统,而其他人在这两方面可能还是新手。就OPAC检 索而言,用户在其检索领域内的学科知识水平是不同的,并或多或少地涉及到所查文献的精 确信息。事实上,OPAC的用户群相当复杂,而且这个用户群在各种信息检索系统中可能是最 为广泛的。
②在检索能力、界面设计、应答时间、数据库规模以及各个书目记录的内容等方面,不同 的OPAC系统差别很大。
③一个典型的OPAC包括的主题范围很广泛,而不局限在一个狭窄的学科领域,并且必须能 有效地处理任何一个领域中的检索。
④OPAC主要局限于一种文献形式,即专著。在它们的封面上包括了大量信息,但这些信息 都是以概括的形式压缩在OPAC记录里,有代表性的是按题名、主题标题或分类号。
第三代OPAC正在缓慢地出现,它包括增强检索和匹配技术,或者根据提问的相关性对检出 结果进行排序。但在大多数情况下,这样的OPAC仍处于实验阶段。这些增加的性能是对自系 统细致地调查研究最早的OPAC以来进一步扩展的结果,这一结果有助于广泛深入地收集OPAC 及其用户的信息。同时,必须承认,这些信息提出了至少与答案一样多的问题。
对于解决OPAC问题的办法,还没有取得一致意见,特别是在主题检索领域。有些人建议改 进界面,更好地提供联机帮助,或者对初级用户进行更好的指导。另一些人则主张需要更高 级的检索引擎或对用户提问进行自然语言处理。还有人认为书目记录本身的关键在于:不论 界面或检索机制如何,在准确地匹配检索提问之前,书目记录必须包含更多的主题信息。甚 至有些研究者悲观地得出结论:通过以上方法中的任何一种都不能对OPAC进行充分的改进, 以便向用户提供他要找的书目信息,而不遗漏相关文献或给检索者提供大量的非相关文献。
3 关于OPAC研究的主要目标
OPAC研究的主要目标是:收集更有效的OPAC系统方面的信息,以便能够在图书馆进行设计 和应用。这就是说,研究OPAC的一个基本设想是通过确定该目录用户的需求和行为,开发出 以用户为中心的目录。这种研究试图确定用户在OPAC上检索书目信息的程度,并从该目录中 检出那些用户认为与自己的任务相关的文献,同时把目录中不相关的文献排除在外。
目前OPAC还没有达到这一目标,从这个意义上说,研究结论通常是根据对该系统的各种增 强,提出一些克服这一缺点的改进方法,而由有经验的馆员对用户进行检索前指导或检索中 指 导并不多见。
这个研究目标仍然远远没有达到。
4 关于信息检索过程的构成
文献[2]提出,信息检索过程由6个主要部分组成:
一组记录或文献(文献组);文献集合的标引或存取方法(存取方法);用户的信息需求(用户 需求);用户需求在一系列检索语句或菜单选择中的词语描述(检索策略);作为该检索策略 结果而产生的一系列文献(检出集合或序列);检出集合满足用户需求的程度(相关性判定)。
以上每一部分都向研究者提出了新的挑战,而最后一部分是任何检索研究中都十分普遍存 在的问题。
5 关于相关性判定
现在,人们普遍认为,一个检出集合的相关性(或其它名称)必须由每个检索者主观判定, 而不是由研究者以某种方法客观判定。因此,当测定检索的查准率时,OPAC研究者面临的问 题 是,确定由检索者从OPAC上检出的文献是否被他们认为是相关的。
然而,用户往往会发现,测定他们在OPAC上找到的文献同自己的相关性是十分困难的。因 此,研究者为了测定检索的查全率,也必须确定有多少存贮在OPAC中的相关文献被检索者漏 掉。
文献[3]找到了一些证据并提出,有经验的图书馆员能判断用户认为哪些文献是相关的,图 书馆学校学生则稍逊一筹。不过,对这个结论仍存有争议。一般地说,判定者对所定主题领 域了解得越多,他们的判定就越趋向一致,判定检出集合中的相关记录就越少,判定者对非 相关性的判定往往比对相关性的判定更趋向一致[4]。
有的人在OPAC研究中依靠图书馆学专业的学生进行相关性判定,而有的人则将检索专家从O PAC上检出的记录与学科专家推荐的书目(如专业百科全书文章末尾所列的书目)进行比较。
OPAC研究的评论者曾对以往所用方法提出了批评,特别是针对引证不够严密和统计分析方 面的错误。然而,真正的问题是更加基本的。OPAC用户试图用他们所选择的检索词来匹配OP AC 记录中所包含的词。如果用户能确认一个或多个这样的匹配的话,那么,就可以判定这个检 索是成功的。但这样产生的问题比提供的答案更多。
首先,事实上,能够证明检出的文献与用户相关吗?OPAC研究通常假设,任何检出的文献对 用户来说都是有益的。但是,能做出这样的假设吗?用户可能带着文献清单离开了OPAC,即 使 这些文献似乎是不相关的或相关性可能很低的。更大的问题是,直到用户找到并检出实际文 献之前,是否都判定为相关。然而,一旦用户完成了OPAC检索,也没有几项OPAC研究紧接着 就对用户进行抽样。有的研究者考察过这个问题,其结论是,“大多数主题检索活动是在 书架上进行的,而书目工具则用于把检索者引向藏书的相关领域。”[5]另一位研究者对这 个问题的看法是:“图书馆终端用户的检索行为扩展到OPAC以外的方法……对文献相关性的 全面判定在检索文献、浏览书架和找到(或没找到)文献之间可能是变化的。”[6]可以进一 步证明,唯一正确地测定相关性是当用户不但在书架上选择到文献,而且实际用于手边工作 之后。当然,对于研究者来说,做出这样的测定是困难的,而在OPAC上判定检索成功则容易 得多。
其次,许多研究者假定,用户在OPAC上作出的匹配失败就意味着检索是失败的,如果不考 虑OPAC可能没有简单地列出任何相关文献的话。
第三,检索能与相关文献匹配,但还是遗漏了“最好”的文献。文献[7]认为,“对图书馆 目录的主题检索不能被认为是完成成功的,除非用户能找到在某些意义上来说是‘最好’的 资料。”
6 关于检索变量
在能够控制大量变量的情况下,任何涉及人文主题的研究可能会遇到相当大的麻烦。这些 典型的变量包括如下因素:年龄、性别、一般信息检索和OPAC以及正在调查的特定OPAC的知 识和经验、领域知识、承担的义务、检索时间、评价信息的认知技巧,等等。
检索本身提供了另一组变量。它们能找出已知文献、主题检索(实际上,这种区分对于评价 检索成功与否是十分重要的,表明研究者分析检索记录时难以辨认),或者两者兼而有之。 主题检索试图在图书馆找出一些相关文献,或者叫详尽检索,即找出图书馆拥有的关于该课 题的一切文献。检索可以限定在一些概念或涉及几个概念的结合。从而,增加了检索的复杂 性。检索课题可以是专著(在大多数OPAC可以找到的早期文献类型)涉及的,并且可以用题名 关键词、丛书名和主题描述或者用主题标题(可在OPAC得到的典型的主题检索键)来检索。检 索课题更可能包含在杂志或百科全书的文章中,或在专著中论述了但在典型的OPAC中没有标 引出来。
多数研究假定,所观察的检索期是独立的,既没有优先于它的,也不优先于使用其它检索 词 或检索策略的相关检索期。然而,有人指出[8],用户不必把它们的交互限定在一个检索期 ,相反,却可以进行由渐变和改变信息问题所驱动的有联系的几个检索。有人发现[9], 在OPAC交互过程中,用户的目标没有或至少只有极少的改变(主张用户为了改变其目标,不 必有被判定为相关的检出记录的足够信息来改变其目标)。但同时承认,一个检索期只是一 个较大的信息收集过程的一部分,在所观察的检索期前后可进行使用其它策略的相关策略。
然而,另一个变量是OPAC自身提供的,OPAC不止一个。竞争公司为各种不同的图书馆环境 生产OPAC,而且展示了多种界面、检索引擎、帮助工具、应答时间,等等。这就很难对在一 个OPAC上得出的研究结果与在另一个OPAC上得出的研究结果进行比较(或者,甚至在同一个O PAC上的完成两次完成,第二次是对系统进行了改进)。有人对自己的OPAC研究中的54.2%失 败率[10]和别人较早研究中的40.5%失败率[11]进行了解释,而自己的OPAC缺乏关键词检索 性能。
数据库的大小对OPAC研究结果也有影响,大型数据库和小型数据库的检索情况不同。例如 ,增加更多的主题信息以改进书目记录,可以提高查全率,但相应地,对查准率上产生了负 面影响,这种情况在大型数据库比小型数据库明显得多。
最后,当考察OPAC研究时,应当考虑到OPAC所在图书馆的类型。这有可能影响到OPAC中列 出的文献类型和所实施的检索类型,特别是用户的特性。几乎所有的OPAC研究都是在大学图 书馆里通过研究、本科生或教师进行的,只有少数是在中学图书馆进行,在公共图书馆进行 的几乎没有。