基于OCLC第三代编目系统Connexion的对国内联机联合编目系统整合的构想,本文主要内容关键词为:编目论文,系统论文,国内论文,OCLC论文,Connexion论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1967年OCLC由美国俄亥俄州的几个大学图书馆发起成立的合作网络研制,该网络原称“俄亥俄大学图书馆中心”(Ohio College Library Center),1977年OCLC开始推广,并在同年扩展成为全美图书馆合作网络,是被世界各地广泛采用的联机联合编目系统,至今已拥有6万多家成员馆,遍及世界112个国家和地区。[1]
1 OCLC联机编目服务的发展
1.1 第一代编目服务WorldCat
WorldCat原称OCLC联机联合目录(OCLC Online Union Catalog),它是OCLC实现联机联合编目、资源共享和参考服务的基础。1999年以前,WorldCat数据库主要是传统文献信息资源编目的数据,是OCLC第一代编目服务。2000年6月起,电子资源编目数据也被加到WorldCat中。WorldCat是一个全球统一目录,是世界上有关书目信息最大和最丰富的数据库,截止2005年7月,它共包括400多种语言的5796万多条不重复书目数据和近10多亿条馆藏信息,并且还以每10秒产生一条纪录的速度在递增。[2]
1.2 第二代联机编目服务CORC
为了适应在网络环境下组织海量网络资源的需要,OCLC开发了一套为本地和网络电子资源创建书目元数据和寻路元数据的系统——CORC,即联合在线资源目录(Cooperative Online Resource Catalog)。CORC系统的实施是OCLC联机联合编目服务从传统文献信息资源向网络信息资源领域的扩展,是OCLC的第二代编目服务项目。CORC系统具有以下功能:①自动快速生成网络信息资源记录。②能够以DC或MARC等元数据格式对网络信息资源编目。③自动进行规范控制。④动态生成寻路器。⑤机助标引分类号和主题词。⑥通过合作与机器协助的办法,维护记录URL(统一资源定位符)。[3]
CORC以Web的方式为全球用户提供便捷的服务。用户使用Internet Explorer或Netscape等浏览器,通过因特网输入授权的用户名和口令,就能登录上CORC,在线进行网络资源的编目。
1.3 第三代联机编目服务CONNEXION
2002年OCLC将CORC的全部优点整合于Connexion,内嵌在WorldCat中,将编目和WoddCat整合在一起。到这个阶段,OCLC联机联合编目从原来只对传统文献编目发展到可对网络信息资源编目,进而发展到可对多种类型信息资源进行联机联合编目的阶段。2003年10月,第一版Connexion客户端发布,12月31日,通过Passport编目的用户全部迁入Connexion。根据OCLC的发展规划,从2005年7月起,所有的在线编目均通过功能强大的Connexion系统进行。[4]
2 Connexion的介绍及优点
2.1 Connexion的介绍
Connexion是一个由OCLC开发的通过WorldCat获取编目记录的系统产品,是世界上最大的在线联合目录和书目数据库。Connexion通过网络浏览器就可以登陆,不用安装额外的软件。它建立在CORC、CatExpress、CatMe、Passport和OCLC多年来从众多用户那里得到的了解的基础上,Connexion反映出了OCLC的意图,那就是撷取前面所述每种工具的最好的特色之处,然后把它们整合到一个新的编目服务里面。[5]
Connexion的出现对于能够被广泛接受的元数据标准的需求是一个重要的转折点,原因有二:①它整合了一个传统的编目服务(即World Cat)和一个有经验的在线资源的元数据服务(即CORC)。②它有潜力向图书馆和信息领域挑战集成传统编目服务和更新的信息对象。图书馆员用Connexion来创建和编辑高质量的文献书目和规范记录,这些书目和记录能帮助用户更快速地找到他们所需要的资料。Connexion帮助全世界图书馆分享OCLC合作编目的记录成果。它是OCLC的一个具有旗帜性的编目服务,是一套建立在WorldCat基础上的有力的、灵活的工具,是世界上最大的书目数据库。[6]
2.2 Connexion的优点
(1)整合了传统文献资源编目和多种类型信息资源编目。WorldCat数据库中主要是对传统文献信息资源编目的数据,CORC主要用于网络信息资源合作联机编目,它同时也能为带有WorldCat书目记录的物理形态的一般文献提供编目和检索服务。而Connexion是内嵌在WofidCa中的一套强大、灵活的工具包。它将编目和WofidCat整合在一起,使联机联合编目从只能对传统文献进行编目发展到可对多种类型信息资源进行联机联合编目的阶段。
(2)整合了WofidCat和CORC两种系统。CORC由包括WorldCat在内的几个数据库组成,彼此之间相互独立,而Connexion内嵌在WorldCat数据库中,对WortdCat的内置访问把图书馆的编目工作和WorldCat数据库整合在一起,因此Connexion更易于对WorldCat进行检索。
(3)更能适应不同的用户或环境。和CORC相比,Connexion能很好地适应不同的用户或环境,通过其Web界面使多人多地编目成为可能。它易于操作的网络截面凭借标准浏览器通过账号和密码在任何地方即可获得服务,不需要额外安装软件,而基于Windows的用户端界面给编目人员提供了额外选择和操作的权限。
(4)拥有强大的用户支持服务。Connexion界面友好,鼠标、下拉菜单等设置使它较CORC更容易操作。每一界面上都有上下文帮助,Connexion浏览器端的快捷提示会提醒用户充分使用界面控件。通过Connexion培训可以随时利用指南和相关培训。此外它还可以提供更多的界面外观个性化定制服务,用户可以按照自己的爱好以不同的方式设置Connexion的外观。
(5)记录更方便、更全面。Connexion浏览器可以对原MARC目录和DublinCore进行编目,还可以自动对电子资源创建基础记录。与CORC相比,记录没有大小所限,记录细节方面更全面。
(6)可以对保存文件进行检索。对检索款目做索引或检索时,可以保存结果到自己的文件夹,再次对该款目检索时,系统可对保存文件进行检索,节约时间。
(7)提供更多的界面外观个性化定制服务。用户可以按照自己的爱好以不同的方式设置Connexion的外观。如:隐藏较少使用的按键、放大导航条、改变脱机时间,重新设置快捷键和选择默认值等。
(8)可以自动检测和更新规范档条目。Connexion最具有特色的是可以自动检测和更新规范档条目,动态链式规范控制能使编目记录随着规范记录的更新同步作相应改变。点击按键,就可对书目记录进行标题检索,链接会自动指向关联的规范记录,规范记录改变,书目记录也会自动更新,将维护目录记录的时间减至最少,提高了工作效率。[7]
3 国内联机编目系统现状
国内目前的联机联合编目系统有:CALIS、OLCC、CSDL、UCCOR以及一些地区性联合目录(如:上海地区高校图书馆联合目录)等。其中CALIS是应用最广泛的全国性联机联合编目系统,而UCCOR则是国内唯一对网络信息资源进行编目的系统。下面着重介绍这两个系统:
3.1 CALIS
中国高等教育文献保障系统(China Academic Library & Information System,简称CALIS)于1998年立项并开始启动,经过几年的建设,CALIS如今已建成一个初具规模的联合目录数据库和一个实用的联机合作编目系统,并实现了网上联机合作编目。到2005年2月为止,CALIS联合目录数据库已经积累了170多万条书目记录,馆藏信息达680多万条。CALIS收录的文献类型有印刷型图书与连续出版物、电子期刊和古籍等;文献语种有中文(包括古籍繁体)、西文与日文等;书目内容囊括了教育部颁发的关于高校学科建设的全部71个二级学科,226个三级学科(三级学科覆盖率高达90.8%)。目前其成员馆子均每天上载5000多条新数据或馆藏数据。[8]2004年11月,CALIS中心启动了二期工程:中国高等教育数字化图书馆,其目标是建设面向教育和科研的百万册图书规模的数字化资源。二期工程五个子项目里面的“重点学科网络资源导航”是CALIS在网络环境下对网络信息资源组织与控制的一个良好的开端。[9]“九五”期间,共有48个图书馆完成了217个重点学科的导航库,收录了6万多个重要的学术网站,并按学校和分类进行编排,其数据库初具规模。[10]
CALIS数据库的内容和编目对象以及编目流程,跟OCLC的WorldCat都非常相似,只是后者使用范围更广,数据量更大。
3.2 UCCOR
UCCOR(Union-Catalogue of Chinese Online Resource)即中文在线资源联合编目系统,是上海图书馆首创的网络资源联机联合编目系统,它参照借鉴了OCLC的CORC计划,建立了一个基于Web的网络资源联合编目平台,其主要功能是对网络信息资源进行编目。UCCOR系统以DC元数据为核心,同时支持CNMARC、RDF、XML、HTML等数据格式,相互之间能进行比较方便的转换。它还提供了诸如元数据挖掘、URL自动校验与维护等一系列自动工具和数据输出等功能。
UCCOR与CORC一样,使用Internet Explorer或Netscape等浏览器,通过因特网输入授权的用户名和口令,就能登录进行网络资源的联机联合编目。它的基本过程是:启动浏览器访问UCCOR主页;输入合法的用户名和口令登录UCCOR系统;通过“URL标识符”等检索入口进行查重;根据查重的结果,选择“创建新记录”或对原记录进行编辑修改;存盘。UCCOR能同时提供中文和英文编辑窗口,从而大大方便了中文用户,同时也保证了元数据著录的准确性与互操作性。[11]
4 基于Connexion的国内编目系统整合的构想
CALIS是国内目前书目数据量最大、质量相对较高、成员馆最多的联机联合编目系统,相对于OLCC(全国图书馆联合编目中心)来说,它的使用范围更广泛一些,而且其二期工程建设包含了学科网络信息资源导航,对网络信息资源的组织作出了有益的尝试,丰富了其数据库的数据类型。CALIS主要针对的是传统文献信息资源,书目记录均采用MACR格式描述,这一点和OCLC的WorldCat非常相似。
而UCCOR则是国内唯一一个以网络信息资源编目为对象的在线资源编目系统,它是在参考OCLC的CORC基础上建立起来的,其功能与CORC系统基本相似。由于UCCOR建设时间不长,使用范围比较小,所以书目数据库数量还比较少,资源类型不多,以网络信息资源为主,数据采用DC格式描述。
4.1 新系统构想
同WorldCat和CORC一样,CALIS和UCCOR彼此是互相独立的两个系统。到目前为止,国内还没有一个像OCLC的Connexion有效整合了书目数据库(WorldCat)和网络信息资源编目工具(CORC)的系统。因此,我们可以对国内已有的编目系统做一个整合构想:在保留UCCOR的所有优点(如:支持DC和MARC等多种元数据格式、同时提供中英文编辑窗口、支持元数据挖掘能力等)的基础上,参照Connexion前面所述的优点(如:内嵌在WorldCat里;自动检测和更新规范档条目;动态链式规范控制等),对UCCOR加以改进形成一个新的类似于Connexion的系统。然后将该系统嵌入到CALIS中去,从而把图书馆先进的编目工具和CALIS长期形成的成熟的数据库整合到一起,既能有效地采用DC和MARC各种元数据组织,包括网络资源在内的各类型资源,又方便了编目人员对CALIS进行检索,减少了在各种数据库之间的切换,从而达到对CALIS已有数据库资源的充分利用。该系统达到的最终目的是:编目人员能够方便、快捷地利用该构想系统同时进行中英文传统文献信息资源和网络信息资源等多种类型信息资源的编目。4.2 新系统的功能
该构想系统能够通过客户端程序或浏览器从CALIS数据库检索到书目记录,进行添加馆藏信息的操作,并可将记录下载到本地数据库,同时系统也支持原编数据的上载。主要功能具体操作如下:
(1)连通该构想系统。启动客户端程序或使用浏览器访问该系统网址。在输入合法的用户名和口令后,登陆该系统界面。主页上可以链接一些相关文档、导航、新闻等有用信息。
(2)检索书目记录。进入该构想系统的子页面后点“检索”按钮,即可选择通过“一般检索”或“高级检索”的方法来检索CALIS数据库中的书目记录。书目记录既包括传统文献信息的书目,也包括网络信息资源编目信息。
(3)添加有效的馆藏代码。若在CALIS中检索的记录与受编资料相关,打开该记录并根据实际情况增加或删除馆藏代码。在此过程中,该系统能自动判断比较明显的且可以确认的错误,并给出提示信息,以方便编目员修改。
(4)加工处理记录。对于打开的记录,编目员可根据本机构的编目原则,编辑修改当前记录后存入本地系统;如果通过检索得不到结果,则需要进行原始编目,原始编目以填写表单的方式进行,表单包括馆藏机构信息、馆藏信息、注释以及书目记录的框架,供编目员逐项填写,可以选择用DC和MARC两种格式对不同资源类型编目,点击“保存”按钮,记录在存入本地数据库的同时也自动递交给CALIS,每条记录指定一个CALIS控制号。
4.3 新系统的特点
该构想新系统的特点有以下几点:
(1)整合了国内传统编目资源CALIS和网络信息资源编目工具UCCOR,使国内传统信息资源和网络信息资源及多种类型信息资源在一个系统里进行编目成为可能,同时也能充分利用CALIS业已形成的成熟的书目数据。
(2)集成了DC、CNMARC和MARC21三种元数据格式,并实现他们之间的自动转换,使中西文传统信息资源和网络信息资源能有一个准确、全面的描述方式,也方便了编目人员选择自己喜欢和熟悉的格式。
(3)把该系统嵌入到CALIS中去更易于编目人员对CALIS数据库的检索,实现一站式无缝检索,减少了在各种数据库里的切换,节省了编目人员的时间和精力。
(4)利用已有数据,避免重复劳动。例如对一些CALIS数据库已存在图书的电子版进行编目时,可以利用CALIS数据库已有的该书书目记录,形成新的记录骨架,再加上它的电子资源定位与检索字段(856字段)及其他相关字段即可,这样可大量节省编目人员的时间和精力。
(5)该系统可改变国内编目系统各自为政,分散孤立的现状,集合各系统的优点,给传统和网络等各种类型的中文信息资源提供一个更全面、更标准、更易用的编目及检索工具。
4.4 新系统的实现
新系统实现的焦点在于如何将UCCOR和CALIS进行整合,各取所长、优势互补。这种整合主要涉及了以下几个方面的集成:
4.4.1 用户权限认证集成
集成CUCOR和CALIS的用户权限认证系统,采用一套体系,包括:统一用户、权限、计费管理;统一身份认证、权限校验、计费接口;统一用户登录。新的用户权限认证系统可通过浏览器和客户端两种方式登录,基于Web浏览器的操作界面通过认证账号和密码可以在任何地方任何时候登录,不需要格外安装专门软件,而基于Windows的客户端界面给编目人员提供额外选择和操作的权限。
4.4.2 检索界面的集成
整合CUUOR和CALIS的检索界面,形成一套统一的检索界面。保留CALIS的简单查询和复杂查询两种查询方式,在查询条件里面增加“标识符”(identifier)检索点,从而增加查找网页的功能。复杂查询方式可做进一步改进,设计成“关键词”+“查询条件”,检索运算符提供“And、Or、Not”三种方式。
4.4.3 数据库的集成
将CALIS的联合目录数据库和UCCOR的资源目录数据库、电子主题书目数据库集成起来,并通过统一的检索系统进行检索,也即是对它们进行异构数据库的整合。异构数据库整合是指在计算机网络环境中,实现用户对多个异构数据库完全透明的访问,且支持不同数据库系统间的相互动作。整合之后,既能保证全局数据的共享,又能保证各应用系统及其数据库管理系统的自治,确保基于异构系统平台实现对异构数据库的查询和联合使用,提供一个独立于特定数据库管理系统的统一编程界面。
将Java技术与XML相结合,构建异构数据库的集成系统,可使系统具有可移植性及可扩展性。数据库集成机理是通过JDBC提取不同数据库中的数据,并通过JDOM把它们转换成XML文档数据。利用Java的无平台性,在Web服务器与数据库之间建立一个中间层(中间件),通过中间件将来自各异构数据库的数据集成起来,即把若干个XML文档根据一定的规则集成为一个文档,实现各异构数据库中数据统一的XML文档的转换。XML以一种统一的数据模式描述来自不同数据源的数据,从而屏蔽数据源中应用环境和数据结构的异构性,实现异构数据源的集成。XML比关系数据模型能够表示更多样化的数据格式,它能使不同来源的结构化、非结构化数据可以很容易地进行合并。
集成中间件由Java Servlet以JSP引擎、Web服务器、XML集成服务器、XML适配器和JDBC/ODBC Bridge适配器组成。它们各自的功能是:Web服务器接受浏览器的请求,同时将请求转发给Java Servlet JSP引擎,Java Servlet JSP引擎处理Java Servlet和JSP程序;这些程序从XML集成服务器获取XML数据,集成服务器将请求与响应数据文件的名字存入目录服务器,以便检索;XML适配器负责从JDBC/ODBC Bridge适配器获取数据,负责将各异构应用系统的数据转换成可以交互的格式,即XML格式。通过异构数据集成中间件可以屏蔽底层数据库的异构性,为用户提供统一的查询方式和统一的查询界面。
UCUOR和CALIS数据库可以采用Java技术与XML相结合,通过集成中间件进行数据库之间的集成,最终实现用户用一种查询方式和界面在多个数据库里查询。
4.4.4 编目方式的集成
新系统集成UCCOR和CALIS两种系统的编目方式,设计DC和CNMARC、MARC21三种表单填写记录,根据不同的资源对象选择不同的表单,传统中文资源选择CNMARC格式,传统英文资源选择MARC21格式,网络资源选择DC格式。
记录入库以后,在任何一个数据库中的修改都会在其他数据库里得到同步修改。这种数据同步修改主要依赖XML技术来实现。由于XML具有可扩展性、结构性、平台独立性以及能很好地兼容原有的Web应用,而且可以实现Web中的信息共享与交换,所以XML是数据同步技术中最主要的解决方法。基于XML的数据同步技术的框架是由以下几个层面组成的:信息源层,即各类数据库等信息;XML中间层,提供必要的数据转换功能,进行数据与XML格式的相互转换,将数据存储到XML数据空间中,并维持XML数据空间与各种异构数据之间的映射关系;XML接口层,依据特定的协议或协作模型,负责不同应用请求格式的发布,不同的应用需要从应用级别访问XML的数据空间;应用层,根据具体的应用,采用合适的信息访问技术。
通过基于XML的同步技术,实现UCCOR和CALIS数据库的同步修改,例如:某一本网络版的图书著者项做了改动,那么CALIS数据库相应的MARC数据著者项也做出相应的同步改动,这样既减少了重复录入的工作量,也保证了数据的完整性和准确性。
4.5 新系统构建中要注意的问题
佛罗里达大学Jeong-mee Lee博士2004年对Connexion做了一个调查研究,调查对象是那些工作在编目战线的专家,包括编目人员、教编目课程的老师、技术服务馆员。调查结果表明,Connexion在实际使用中存在六个方面的问题:[12]
(1)用户帮助问题。包括:快捷端(Quichtips)太模糊或者说是不够明确;帮助功能没有提供太多帮助;每个选择项怎样使用缺乏指南;界面顶端的主要选择项缺乏说明。
(2)导航问题。包括:标识不够深入;组织表(organizing scheme)不太容易理解;子菜单不够完美,缺乏说明;规范文档(Authority files) 累赘(cumbersome),容易混淆;检索地址不太清楚。
(3)信息群和结构问题。为结果操作设置的选择项有限,下一条记录和下一个记录组难以区分,字段选择复杂。
(4)色彩和视觉清晰问题。阅读起来较困难,每个检索选择项的特征太相似。
(5)错误预防和纠正问题。错误信息不太容易被识别,每个检索框只有一个检索词似乎显得不太方便。
(6)语言使用方面的问题。在理解检索语(terminology)和语法上有些困难。
该调查进一步指出,就错误预防和纠正而言,用户需要更容易识别的信息,一个能够提醒用户知道他们犯了错并予以纠正的上托(pop-up)窗口对用户来说应该是最有用的。通常情况下,一个稍微简化的结构对导航和信息群及结构更有帮助;也许选择键具有更明显的色彩区别会阻止一些错误的发生。最后,每个选择项的指示和说明需要改进,从而减少培训和检索数据库的成本。
据此调查结果,Jeong-mee Lee提出了两个建议:第一,Connexion界面上应该有一个主要的纠错(corrections)功能,其中最主要的内容是改进用户帮助和导航方面。界面上如果有更有用的指示和说明会帮助减少检索难度和节约培训成本;第二,Connexion的使用培训需要重新指引和聚焦,用户需要对信息检索系统的每一个方面进行培训以增加他们了解系统怎样工作的理解力。这次调查结果证明那些对信息检索系统已经熟悉的用户对Connexion有更高的满意度。Connexion持续的发展以及它和其他数据库的进一步集成为这样一种改善的实施提供了一个独特的机会。
借鉴Connexion的经验和不足,我们在构建、设计新的集成系统的时候,应尽量吸取Connexion已经被证明了的优点,避免出现它的缺点,少走弯路,构建出一个实用、方便、科学的集成编目系统。
收稿日期:2008-01-15
标签:数据库系统论文; 数据集成论文; 元数据标准论文; 数据整合论文; 数据检索论文; 信息集成论文; 界面规范论文; 数据库论文; 文献检索论文;