文摘索引型数据库检索系统的现状与发展趋势,本文主要内容关键词为:发展趋势论文,文摘论文,索引论文,现状论文,检索系统论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[分类号] G252.7
ISI Web of Knowledge是ISI公司于2001年推出的一个基于网络的动态综合检索平台,2002年4月中国大陆的用户开始正式使用。目前该平台集成了在学术界颇有影响的多个数据库,其中既包括ISI自行开发的数据库,如ISI Web of Science,ISI Proceedings、ISI Current Contents Connect和ISI Journal Citation Reports等,也包括其他信息公司的产品,如 Derwent Innovations Index(DII)、BIOSIS Previews和IN- SPEC等(参见图1)。本文拟以ISI Web of Knowledge信息源为例,介绍文摘索引型数据库检索系统的现状和发展趋势。
图1 构筑在ISI Web of Knowledge平台上的数据库和服务
1 从联机检索、光盘检索到基于因特网检索
文摘索引数据库经历了联机检索、光盘检索和基于因特网检索的几个发展阶段。大家熟悉的ISI公司的各种引文索引(SCI、SSCI和A&HCI),是教学和科研工作者获取高质量科技文献及获得引用和被引用信息的重要工具。1966年,ISI公司首次发行引文数据和来源数据的磁带,使计算机检索其信息产品成为可能。到20世纪70年代中、后期,利用先进的卫星通信技术,国际著名的Dialog、Orbit、Medline等联机检索系统开始跨越地区的限制,为世界各地的远程终端用户提供联机检索服务。但由于联机检索费用较高,检索者需接受专门训练,因此一般由信息机构的专业检索员代检代查。
20世纪80年代中期,激光存储技术在信息领域得以广泛应用,高存储密度的只读光盘(CD-ROM)在很多地方取代了磁盘,不仅数据库发行成本构筑在ISI Web of Knowledge平台上的数据库和服务大大降低,而且许多过去只能在大型计算机上运行的大型数据库,如今也能在个人电脑上进行检索。例如,1989年,ISI公司开始发行Science Citation Index(SCI CDE)光盘版数据库,文献信息的最终用户可以方便地在个人电脑上自行操作,并可以根据检索结果随时调整检索策略,因而检索效率大大提高,检索成本却大大降低。从光盘数据库问世到20世纪90年代中期,光盘数据库在文献信息检索中都发挥着举足轻重的作用。在清华大学图书馆,以SCI CDE、EI Compendex、ISTP、DAO、CA on CD和INSPEC等数据库最具代表性。
20世纪90年代,计算机网络技术迅猛发展,信息高速路四通八达,局域网内的光盘检索系统可以让光盘数据库供局域网内的多用户同时检索。更具影响的是众多信息机构开发出了基于因特网的检索平台,将数据库放在网络服务器上,提供网络版数据库(如ISI Web of Science、Ei Compendex Web、ISI Proceedings、PQDD、SciFinder、BIOSIS Previews和INSPEC,等等)检索服务。进入21世纪后,网络检索仍然是计算机信息检索的主流方式,其优势主要体现在:
·绝大多数网络版数据库的检索毋需像光盘数据库那样要使用专门的检索软件,一般仅需借助通用的Web浏览器(如Microsoft Internet Explorer, Natescape Navigator等)即可。
·拥有检索帐号的用户可以随时随地在任何一台连接因特网的计算机上检索网络版数据库,不受时空限制。目前绝大多数数据库检索系统还支持用IP控制访问权限。
·与光盘数据库相比,数据更新速度明显加快,用户可以及时检索到最新信息。例如光盘版数据库SCI CDE的更新周期为两个月,而相应网络版数据库ISI Web of Science的更新周期仅为一周;Ei公司的工程索引光盘版数据库EI Compendex和网络版数据库Ei CompendexWeb的更新周期分别为3个月和一周。
·由于数据库放置在远程服务器(包括镜像服务器)上,检索系统的维护工作集中在少数人身上,最终用户即便不具有计算机技术知识也能检索。
·可同时检索的数据量比光盘数据库明显增大。一张SCI CDE光盘仅能存储半年的数据量,用户若希望检索多年的数据,需要多次换盘,而且由于参考文献、引用文献和相关文献的记录往往存放在其他光盘上,用户只能在数次换盘后才能看到完整的引用、被引用和相关文献信息。但ISI Web of Science数据库集多年数据于一台服务器,收录与引用、被引用和相关文献信息之间能够无障碍衔接,用户只需轻点鼠标,即可方便地查看一条记录的引用文献(cited records)、被引用情况(times cited)及相关文献(related records),这对了解一项研究的历史发展过程非常有利。
尽管网络版数据库比光盘版数据库有明显优势,但也存在一些不足,最常见的是意外网络故障或因特网拥挤造成的访问受阻。
2 检索界面更加友好,在线帮助日趋完善
早年的国际联机检索系统仅提供命令式检索方式,无论是选择文档,输入检索式,还是输出检索结果,都需要使用特定的命令。因为不同的检索系统具有不同的检索命令,所以要求检索者在检索之前要熟知检索系统的检索命令、字段代码以及各种检索算符等方面的具体规定。随着检索实施者由专业信息人员变为文献信息的最终用户,检索界面不断完善,大多数检索系统都提供了简单易操作的菜单式检索方式,即便是基于DOS操作系统的检索,通常也会在菜单式检索窗口中列出功能键和功能词。面对友好的检索界面,用户即使未曾接受检索方面的训练,只要按照提示去做,一般也都能顺利地完成检索任务。
在线帮助(online help)可谓用户的检索顾问,通常应能实现两个目的:①帮助用户了解数据库,包括数据库收录范围,数据起迄年代,数据更新周期等;②帮助用户学习检索方法,包括了解有哪些检索途径、检索字段及其正确输入格式、检索算符及其含义、使用命令式检索时要用到的字段代码、检索结果输出和检索策略的保存与调用,等等。
优秀的在线帮助应具有对帮助内容的分类浏览功能和索引功能,具体的帮助内容不仅有文字说明,还应通过具体实例加以说明。一些检索系统还具有动画或图示形式的指南。
3 减少用户记忆负担,提高检索确定性
前面已提到利用菜单式检索方式可以省去记忆检索命令(指令)。不仅如此,检索时间范围、检索限定条件及检索结果列印的排序方式等选项也都可以通过勾选的方式确定,难以确定的检索点也大都可以借助检索词列表选择。
例如以ISI Web of Knowledge平台检索ISI Web of Science数据库,子数据库和时间跨度都通过勾选来确定,检索记录的原文语种、文献类型以及检索命令中记录的排序方式则是利用检索窗口下方的下拉菜单选择,选项清楚地列在窗口中,提醒用户根据自己的检索要求进行选择。
在多数检索系统中,数据库的可检索字段被一一列于检索窗口,一般用鼠标点击检索字段名称或旁边的说明按钮,即可获悉检索字段的含义及检索规则。检索词列表在检索过程中起着非常大的作用,例如在用出版物来源字段检索时,一般不能用出版物名称中的关键词检索,而只能用出版物名称的全称、缩写或前面部分。但要求检索者熟记每一种刊名的准确拼写显然又是一件不现实的事情,因此几乎所有的文摘索引型数据库都提供出版物来源列表,如ISI Web of Knowledge中的“source list”、Ei Engineering Village2(简称EV2)中的“serial title”以及CSA IDS检索系统中的“serial source list”等,借助这些出版物来源列表,用户可以方便地浏览来源出版物。目前一些检索系统中的出版物来源列表功能还仅限于提供浏览,用户需利用剪贴的方式将需要的内容复制到检索框中。相对而言,EV2中的“serial title”列表功能较强,用户不仅可以按照“前方一致”的原则进行检索,并且在勾选特定出版物后,被勾选的内容会自动提交到相应字段的检索框中。除了来源出版物字段,在用著者、著者单位、出版者这些内容不确定性相对较大的字段检索时,检索系统一般也都有检索词列表供参考。
检索词列表在用受控词(规范化主题词、叙词等)字段检索时更有实际意义,甚至可以说是不可缺少的。用受控词做主题检索可获得较高的查全率和查准率,但检索词必须是数据库词表规定的主题词。因此,如果有包含等级关系的规范化主题词表可随手利用,对检索者来说特别方便。如基于ISI Web of Knowledge平台的INSPEC数据库,不仅提供受控词列表——INSPEC Thesaurus,而且对每个受控词的适用范围都有具体说明,并列出受控词与上位词、下位词和相关词之间的等级关系。同样提供INSPEC数据库检索的OVID检索系统,甚至可通过用词组中的任一单词做轮排检索来确定准确的受控词词组。从上述内容可看出,在减少用户记忆负担和提高检索准确性方面,各检索系统都在不断地完善。
4 融菜单式检索的简单明了与命令式检索的灵活方便为一身
菜单式检索简单明了,通过点选菜单中的命令和利用检索窗口中的功能键或功能词,可以实现基本的检索,特别适用于初学者或简单的检索要求;命令式检索灵活方便,一些用菜单式检索方式难以实现的复杂检索,用命令式检索却能够实现,但对检索者的要求相对较高。例如,在以KR Information OnDisc作为检索软件在DOS操作系统下检索光盘版数据库Ei Compendex时,执行命令式检索需要使用Dialog系统的检索命令,初学者往往会因为觉得比较麻烦,而转向菜单式检索。
目前基于因特网的检索系统大多提供基本检索(basic search,easy search或quick search)和高级检索(advanced search或expert search)两种检索方式。基本检索方式类似于传统的菜单式检索,而高级检索方式则同时体现出菜单式检索的简单明了与命令式检索的灵活方便,融二者优点为一身。高级检索方式可以实现对多个检索字段间的逻辑运算,可以使用各种检索算符,包括逻辑算符、位置算符、通配符等,无论多么复杂的检索要求通常都可以一步实现。不仅如此,与传统的命令式检索相比,在高级检索的检索界面,可供检索的字段代码、检索算符规定以及检索帮助或检索技巧也都会出现在检索窗口中,用户不再需要记忆那些繁琐的检索命令和规定。
我们经常会遇到同一数据库的同一字段在不同检索系统中使用不同字段代码的情况,如INSPEC数据库中的受控词字段,在ISI Web of Knowledge平台上用“CI”作为检索字段代码,在Ei EV2中却用“CV”,所幸这些检索系统的高级检索界面都有清楚的提示,用户由于输入错误的字段代码而导致检索失败的情况也就不再容易出现。
5 主题检索智能化
随着文摘索引型数据库的使用者由专业检索员变为最终信息用户,各信息检索系统开发商开始注重主题检索的智能化。这里的智能化并非指要求信息用户具有高智商,相反,智能化反映的是对信息用户的低要求,即用户的检索可以更加随意,具体体现在两个方面:
·自然语言检索。ISI公司借助ISI Web of Knowledge检索平台推出了一种全新的检索模式——概念检索(concept search),即用包含主题术语或关键词的自然语言检索。概念检索的内容可以是一个词、一个词组、一个句子或若干个句子,甚至可以是没有语法关联的多个单词。命中结果是那些在标题、文摘和关键词字段含有任何一个或多个检索单词的记录,并按相关性(relevance,以百分数表示)降序排列。检索系统规定:包含全部检索单词的记录具有最高相关性,包含检索单词越少,则相关性越低;日常生活中出现频率较低的单词具有相对较高的权值。记录的相关性通过加权计算得出。
这种概念检索的最大优点是输入的单词越多,命中记录数也越多,而且检索越精确。由于用户可以设定阈值(threshold),系统仅仅输出相关性高于阈值的记录,因此可以认为概念检索不失为解决检索结果查全率与查准率之间矛盾的有效途径。
·词根检索。ISI概念检索的另一个特点是支持词根检索。例如键入单词computer,系统自动检索包含词根“computer”的单词(computer、computing、 computational、computed等等)的全部记录。EV2等其他检索系统的主题字段也具有词根检索的功能,并且EV2中的词根检索功能可以根据用户的需要开启或关闭,因而也更加灵活。
词根检索不同于使用截词符按照“前方一致”到原则检索,而是根据键入单词的词根和被检索单词的各种变格形式,包括复数(不包括不规则复数形式)、动词的动名词,等等。由于具有相同词根的词有相近含义,因此借助词根检索的功能可以提高查全率。
6 检索结果输出方式灵活多样
屏幕显示、存盘和打印是文献信息检索的几种基本输出方式。除此之外,越来越多的基于因特网的检索系统可以用E-mail方式将用户的检索结果发送至自己的或其他人的E-mail信箱中,灵活的输出方式更加便于随时随地保存检索结果。
随着专门用于最终用户书目文献信息管理软件(如ISI公司开发的EndNote、Reference Manager和 ProCite,CSA公司推出的RefWork等)的市场化,文献信息检索系统也开始具有将文献信息数据库与用户自己建立的文献信息书目管理数据库联系起来的功能,反映在数据库检索结果输出方式上便是将检索结果直接输出至用户的自建信息库中。例如在ISI Web of Knowledge平台上进行检索,除了屏幕显示、存盘、打印和E-mail几种检索结果输出方式外,还能够直接将检索结果输出至以ISI公司开发软件建立的用户信息库中。
7 检索相关网络资源
传统的联机数据库或光盘数据库的检索结果一般仅为储存在数据库中的记录,但对基于因特网的文献数据库进行检索,检索结果除了数据库本身包含的内容外,还可能包含与相关网络资源的链接。
例如在基于ISI Web of Knowledge的ISI CC Connect数据库中,有一个内嵌的数据库Current Web Contents,这是一个经各学科专家用权威性、准确性和可应用性等方面的标准评估、筛选出的学术网址数据库,网址对应的信息内容基本上分为4类;未正式发表的文献、基金信息、研究活动和网址评论。利用ISI CC Connect检索窗口中的“eSearch”搜索引擎可以检索这个网址数据库,在ISI CC Connect数据库检索结果全记录显示的“discipline”字段中,以图标形式出现的“Current Web Contents”按钮可用于显示当前记录所属主题领域在这个网址数据库中的相关记录。因此用户在检索期刊文献信息的同时,还能通过这些网址记录获得相关的网上资源,从而扩大检索范围,提高信息检索的时效性,甚至还可能得到一些通过常规方式不易得到的灰色文献。
8 全方位超链接
网络版数据库与其他网络资源的链接,大大提高了数据库的使用价值。除了前文提到的检索相关网络资源外,还有一些在数据库检索中可以实现的超链接也都具有很大的实用性。
·与电子期刊全文链接。一般网络数据库都具有这一功能,用户可以在检索的基础上直接在线浏览全文,前提条件是已经订购相应的电子期刊。
·与馆藏目录OPAC链接。文摘索引数据库的检索结果仅仅是文献的书目信息,利用数据库与OPAC的链接,可以方便地知道所在图书馆是否收藏原始文献。
·与其他数据库的链接。不同数据库标引的内容不完全相同,各有侧重。如果一条记录同时出现在多个数据库中,利用数据库之间的链接,可以方便地获得更加全面、丰富的信息。从图1可知,在ISI Web of Knowledge检索平台上,ISI Web of Science是所有数据库的核心,与其他数据库之间可以相互链接。因此在该平台上检索到一篇文献的基本书目信息后,还可以进一步在ISI Web of Science的记录内容中获得文献的引用、被引用和相关文献的信息,从ISI Chemistry数据库中的记录获得有关化学反应和化合物结构方面的信息,从BIOSIS Previews数据库中的记录获悉文献涉及的生物特性,从DII知晓这项研究的专利信息,等等。
·在线订购全文。在检索过程中有时会遇到检索命中记录对应的全文文献不是本地图书馆订购的,遇此情况,用户通常会寻求馆际互借服务。此外还有一种更直接的方法——在线订购,即借助因特网的通信功能,在检索结果显示窗口直接向BLDSC、 Linda Hall Library、CISTI、Proquest Information and Learning等专业的全文文献提供机构发出请求,用国际通行的信用卡支付费用。
9 检索系统集成多个数据库
不同的数据库有其特定的收录对象,但文献信息用户为了一个特定的检索课题,常常需要通过多个系统检索不同的数据库,既费时,又费力。尽管世界著名的联机检索系统,如DIALOG和STN等具有同时检索多个数据库(跨库检索)的功能,但这些大型国际联机检索系统使用费用高,在国内一般还仅限于专业检索人员直接使用。
目前最终信息用户能够接触到的跨库检索系统还为数不多,CSA IDS集成了CSA自建的和其他出版伙伴开发的共计50多个专业数据库,ISI Web of Knowledge集成了包括ISI Web of Science、ISI Proceedings、DII、INSPEC、BIOSIS Previews在内的近10个在学术界颇有影响的文摘索引型数据库,EV2也已实现Ei Compendex和INSPEC的跨库检索。但笔者认为,这些检索系统的集成水平尚有待加强,信息检索系统的高集成性必将是今后的重要发展趋势之一,相信在不久的将来,信息用户一定可以在一个或少数几个检索平台上实现所有所需数据库的检索。
10 个性化服务
目前文献信息检索系统的个性化服务基本上体现在两方面:①在服务器上为用户提供保存检索策略和检索结果的硬盘空间;②提供E-mail alert(E-mail通告)服务。
20世纪80年代末,光盘检索系统基本上已经具有保存和调用检索策略的功能,检索策略保存在本地硬盘或软盘中,便于今后使用。在基于因特网的检索系统中,用户则可以通过在检索系统中建立个人帐号,将检索策略或检索结果保存在服务器上,并享受E-mail alert服务。例如,CSA IDS和EV2均在服务器上为用户提供一定的硬盘空间保存检索策略,EV2甚至提供检索结果的保存空间。但由于系统分配给用户的存储空间有限,一般会在保存容量及保存时间上加以限制。
将检索策略和检索结果保存在服务器上有两个好处:①用户用任何一台联网计算机登录系统后便可以使用这些检索策略和检索结果,包括对检索策略进行编辑和管理,充分体现了网络的优势;②检索系统在最新更新的数据中,根据用户的要求,以用户保存在服务器上的检索策略自动进行检索,并将检索结果送至用户的E-mail信箱,这就是目前盛行的E-mail alert服务。
在ISI Web of Knowledge平台上检索,检索策略以文本文件的形式保存在个人计算机中,保存数量不受服务器硬盘空间的限制,无需联网即可实现对检索策略的编辑和管理。
Elsevier SDOS是一个全文电子期刊及文摘数据库检索系统,用户建立个人帐号后,即可免费享受多项个性化服务(目前清华大学图书馆和上海交通大学图书馆的镜像站点尚无此功能):①将浏览和检索的期刊对象限定在自己感兴趣的期刊范围内(预先设定My Favorite Journals);②利用E-mail信箱获得通告信息,包括检索通告(Search Alerts)、特定期刊出版信息通告(Journal Issue Alerts)和某些文章的被引用通告(Citation Alerts),这些通告内容与数据库的链接,可指引用户进一步获得更全面的信息(甚至包括全文)。
还有一些检索系统,包括一些学会的主页,用户用个人帐号登录后,首先看到的是根据用户预先定制的内容而显示的完全个性化页面,如美国化学学会的my.chemistry.org。
众所周知,文摘索引型数据库的检索系统正处于一个不断发展的阶段,无论将来在访问方式、检索界面和检索功能等方面如何变化,更加方便信息用户检索应该是检索系统的发展方向。
1 http://isi2.isiknowledge.com/portal.cgi
2 http://www.engineeringvillage2.com/controller/servlet/Control-ler?CID=quickSearch&database=Compendex&
3 http://csa.tsinghua.edu.on/csa/e-products/elprod2.shtml
4 http://www.chemistry.org/portal/Chemistry?PID=acsdisplay html&DOC=registration/whyregister.html