数字图书馆建设的标准与规范,本文主要内容关键词为:数字图书馆论文,标准论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
分类号 G250.76
1 数字信息系统的标准规范描述框架
面对分布、异构、变化和开放的数字信息资源与服务环境,各类数字信息系统需要建立自己的标准与规范描述体系,按照统一原则、框架和基本方式,规定应遵循的各个层次的标准与规范,从而支持在整个数字信息环境中有效使用、广泛获取和长期保存信息。
根据描述体系覆盖的标准与规范的范围,可以将它们归于两类:
(1)数字信息资源建设的标准描述体系,对数字信息资源所涉及的数字化加工、资源描述、资源组织、资源互操作和资源服务等方面的标准、规范及其应用要求进行系统描述,主要是在图书馆、博物馆、档案馆等领域,例如英国公共图书馆领域的NOF/People's Network项目标准与指南、英国分布国家电子资源项目(DNER)标准体系、加拿大文化在线项目(CCOP)标准与指南、美国IMSL数字资源建设指南框架、RLG/CMI数字化指南、美国国会图书馆数字资源格式描述体系等[1-6]。有些描述体系面向更大环境,对整个数字信息服务涉及的通信、系统、资源、安全、管理、知识产权、服务、运营等多方面的标准与规范进行系统描述。例如在政府信息和电子商务领域,有英国电子政府互操作框架(e-GIF)和ebXML电子商务标准体系[7,8]。其中e-GIF从信息系统角度将标准规范分为系统互联(Interconnection)、数据整合(Data integration)、信息获取(Information access)等三个方面,包括通信协议、安全机制、数据编码、数据标记、元数据、数据转换、数据交换格式等方面的标准。在图书情报领域,有英国DNER系统互联指南、美国亚利桑那州数字化项目指南和美国科罗拉多州数字化项目(CDP)指南,覆盖资源加工、元数据、版权管理、数字化资源选择、资源建设和使用政策等方面的标准或指南[9-11]。
(2)涉及数字信息资源建设某一方面的标准规范描述体系,尤其是对数字信息资源的描述、组织的标准与规范及其应用要求进行规定。这些体系涉及广泛领域,包括数字图书馆、专业信息服务、科学数据、电子政务等,例如美国国会图书馆数字资源检索与互操作规范体系、RLG/CMI描述指南、OhioLink多媒体资源标准体系、加州数字图书馆数字图像标准、加州数字图书馆元数据与编码标准、美国NSDL元数据标准体系、UN/FAO农业信息资源检索元数据框架、CEN/ISSS元数据体系、INDECS数字知识产权元数据框架、英国电子政府体系元数据框架、加拿大政府信息元数据框架等[12-22]。
本文主要针对第一类描述体系展开分析,而在这类体系中,一般都根据自己的目的和覆盖范围,将数字资源或系统涉及的标准规范分为多个层次,形成整体结构体系。例如,NOF按照数字信息生命周期分为数字对象生产(Creation)、管理(Management)、资源建设(Collection Development)、使用(Access)和复用(Re-use)5个层次;IMLS从数字资源建设角度分为资源集合(Collections)、资源对象(Objects)、元数据(Metadata)和资源建设项目(Projects)4个层次;CCOP分为内容生产(Content Creation)、编目与元数据(Cataloguing and Metadata)、词汇与词表(Terminology and Controlled Vocabularies)、数据库结构(Database Structure)、项目网站(Project Web Site)、长期保存与记录管理(Preservation and Records Management)等6个方面;CDP分为数字资源加工(Scannirg/Digital Audio)、元数据(Metadata)、法律问题 (Legal lssues)、资源政策(Collection Policies)、项目建设(Projects)等方面。
综合上述结构,可以将数字信息资源建设涉及的标准规范分为内容创建、描述、组织、管理、服务、长期保存和项目建设等。本文从数字信息资源建设角度,主要依据NOF、IMLS、CCOP、RLG/CMI体系,并参考其他描述体系,按内容创建、描述、组织、服务等层次介绍有关标准规范的规定。
2 关于数字内容创建的标准规范
在数字资源建设中,数字内容包括由传统载体(印本、图片、录音录像等)数字化而形成的数字对象,或者是原生数字形态的内容对象(例如直接的数字文本、数字摄像或数字录音文件等)。数字内容创建的标准规范涉及内容编码、内容对象格式、内容对象标识等方面。
2.1 内容编码
内容编码涉及具体数据内容的计算机编码形式和标记形式,是制约数字信息可使用性乃至可持续性的最基本条件。数字图书馆项目通常会要求资源内容在编码层次遵循基本的标准,例如以下方面标准:
(1)基本编码标准,国际上普遍要求遵循ISO/IEC 10646/UNICODE。在我国环境下,目前存在CB2312-1980、GB13000-1993和GB18030-2000标准,其中GB18030在GB2312基础上进行扩充,在技术上是GBK的超集,是国家强制性标准。GB13000-1993是ISO10646-1的等同标准,GB18030-2000与它在字汇上兼容,通过代码映射表可以进行自由转换。
(2)特殊信息编码,涉及数学符号和公式、化学符号、矢量信息、地理坐标等的编码,例如基于XML的开放标记语言,如SVG(Scalable Vector Graphics)、SMIL(Synchronized Multimedia Integration Language)、MathML(Mathematical Markup Language)、GML(Geography Markup Language)、CML(Chemical Markup Language)等。
(3)数字文献结构编码,涉及如何定义文献结构,普遍要求采用XML DTD/XML Schema来定义文献结构,而且相关的文献模式定义应经过XML语法验证(validated)。
2.2 数据格式
数据格式涉及文本、图像、音频、视频、多媒体等数据内容,需要解决的问题包括格式体系和格式标准。
(1)格式体系指数字内容创建中需要多种承担不同责任的数据格式,通常包括:
保存格式(Preservation/Archiving Formats),作为长期保存格式(有时又称原版格式),要求保存原始数据形式(例如图像、录音、录像等)的内容及其表现,采取非压缩格式。
浏览格式(Access/Viewing/Service/Reference Formats),作为正常存储和显示的格式,要求保证视觉质量又降低传输成本,可采用压缩格式,可从保存格式中派生。
预览格式(Previewing Formats/Sampling Formats),作为预览信息,提供粗略内容表现,可采用大压缩比的格式,可从保存格式或服务格式中派生。
上述格式体系主要针对数字图像而言,但其根据不同用途来建立多种相互关联格式的思路和实践对音频、视频内容等都有实际意义。
(2)文本数据的格式标准涉及两种类型,作为文本文件或作为图像文件。
作为文本文件时,描述体系要求采用HTML、XHTML、XML(早期还包括SGML格式),其中XML格式的定义须是经过验证的XML DTD或XML Schema,用XML标记的文本数据在交换时应可用HTML/XHTML格式表现。在不能有效处理HTML/XML环境下,应采用纯ASCII格式或CSV格式(例如DCMI DCSV[23])。如果文本资源本身是专门格式文本(例如doc、rtf、Ps等),在保证应用软件可获得性的同时,应提供将这些格式文本转换纯文本文件或HTML/XML格式文本的公开方法,形成可靠的数据迁移机制(Data Migration),以保证未来能把专用格式文本转换为开放格式文本。当然,有些领域规定(或采用)某种专门文本格式,形成该领域的事实格式标准,例如数学和工程计算领域的Tex/LaTeX格式。
作为图像形式的文本数据可以采用TIFF格式、JPEG或PDF格式,但由于PDF并不是开放格式,有些描述体系(例如NOF)规定如采用PDF时要建立开放数据迁移以保证可将PDF数据转换为开放格式数据。对纯黑白文本,也可以使用GIF格式扫描形成文本图像。
(3)图像数据的格式标准涉及格式类型和分辨率,根据保存、浏览或预览格式而有不同要求。例如对保存格式,多数描述体系都要求用非压缩的TIFF格式,分辨率往往要求600dpi,但CCOP允许使用PNG;对浏览格式,可采用JPEG或SPIFF格式;对预览格式,可采用GIF格式;对线图图像(Line-drawings),可采用PNG或GIF。
(4)视频数据的格式标准一般首选MPEG(但COOF专门指出不应使用加MFEG-1格式),另外也可使用Apple Quicktime、MS Real Video等专用格式。由于视频格式都存在压缩,因此数字视频数据的“保存格式”往往采用数字录像格式,例如DV、DVCam、DVCPro、digiBeta等格式。
(5)音频数据的格式标准比较复杂,除了常推荐的MP3外,还有WAV、Apple Quicktime、MS Real Audio等。与视频情况类似,音频数据的“保存格式”采用数字录音格式,例如CD-Audio(44KHz@16Bits)、DAT(44KHz@16Bits或更高)、AIFF等。
(6)矢量数据的格式标准主要是SVG,也有建议VML(Vector Markup Language)的,另外业界的Micromedia Flash也可能是可接受的格式,但类似于PDF格式,NOF规定如采用它的话应建立数据迁移机制来保证将数据转换为今后出现的开放格式。
2.3 内容标识
内容标识方面的标准与规范主要涉及数字对象惟一标识符,而“数字对象”可能是不同层级的内容对象,例如数字图像(扫描或原生的),由多个数字图像组合而成的数据文件(例如多页图书),由多个文本、图像、音频、视频等数据对象组成的多媒体数据文件(例如课件),这些数字对象的元数据记录,由多个数字对象组成的资源集合,等等。一般地,描述体系没有规定具体的标识符结构,而是对数字对象标识的原则予以规定。
(1)数字对象必须按照规范的命名体系用一个惟一标识符予以命名[24,25]。这个命名体系的规则应是公开的和明确界定的,标识符本身应是逻辑的、不与物理地址捆绑的、而且可以通过标识符解析系统转换为相应的物理地址。
(2)数字对象命名所采用的命名体系的规则应是公开和明确界定的。命名体系应遵从IEFT/URI体系,应尽量采取标准或通用的标识符命名体系,例如DOI、SICI/BICI或PURL等[26-29]。如果自己建立命名体系,应保证命名体系名称(作为NID)本身的可解析性和命名体系解析机制的正常运转。
(3)提供数字对象的资源系统应该能接受以惟一标识符形式提供的指令,并将惟一标识符准确地解析为自己的内部标识。
(4)如果资源系统因技术或其他原因不能加入或建立公共命名体系及其解析机制,应建立内部的数字对象标识规则(或文件命名规则),使其他系统能够利用这些规则来标识相关的数字对象,也支持参考文献链接等功能。
(5)作为大范围的数字信息服务系统,需要考虑多个惟一标识符系统的互操作。
(6)许多数字对象可能由多个数字对象组成,甚至是动态组成的,它们的链接与复用往往需要通过标识机制来支持,可借鉴CDL/METS标准和ADL/SCORM标准[30,31]。
除了上述数据编码、数据格式和数字对象标识外,多数描述体系要求数字对象必须建立相应的元数据,并可通过数字对象惟一标识符将两者链接起来。有些描述体系(例如IMSL和e-GIF)还建议数字对象有一定的验证机制,例如数字签名或数字水印。
3 关于数字对象描述(元数据)的标准规范
元数据作为描述数字对象的数据,是所有数字信息资源建设项目的重要基础,需要规定描述数字对象的原则和基本方法,或者在具体范围内规定实际应用的元数据标准与规范。
3.1 元数据应用原则
许多描述体系都专门论述了元数据的应用原则,并在以下各点上形成共识:
(1)任何希望提供公共、长期和可靠服务的数字信息资源系统都应该编制关于数字对象的元数据;如果因为特殊原因没有或暂时没有编制数字对象的元数据,也应该提供关于资源集合的元数据。
(2)采用标准的或业界通用的元数据格式;有些描述体系(例如CCOP)专门规定没有充分的合理理由,数字资源系统不要创建自己的元数据格式。
(3)所选择应用的元数据格式应适用于具体的资源类型和应用要求。尤其在美国,由于各个领域都存在各自的元数据格式,例如TEI、GILS、FGDC/CSDGM、EAD、VRA、IEEE LOM等,甚至关于同类对象也有不同格式,例如MARC与ONIX,这些格式往往针对不同的需要[32-38]。因此,IMLS鼓励各数字资源建设单位选择适合自己资源类型和应用任务的标准的或通用的元数据格式。与美国不同,欧洲和加拿大在承认各个建设单位应选择适用的元数据格式的同时,往往建议或要求采用某一元数据格式作为核心集。
(3)元数据应包括技术元数据,即关于数字对象创建、使用等的技术条件的数据,从而支持所描述的数字对象的长期保存及可能的仿真或迁移处理。元数据也应包括管理元数据,即关于数字对象使用过程中的存取权限、知识产权、保存控制等的数据,从而支持对数字对象的有效管理,当然,描述性、技术性和管理性元数据也许应通过开放链接方式组织在一起,以适应元数据交换、复用和动态定制等方面的要求。
(4)元数据内容描述应使用标准的内容编码体系,包括主题或分类词表、资源类型、语种、国别或地区、日期或时期等,从而保障内容描述方式的标准化和描述内容的可交换。
(5)元数据格式应支持互操作。这一方面体现在形成由格式定义、语义定义、概念集定义、标记语言定义、内容编码体系定义、应用规范(Application Profiles)定义等组成的定义链;另一方面意味着所有定义应该是公开、基于开放标准和开放语言的;再一方面要求元数据格式提供与其他通用格式的规范转换机制,尤其当所选用的格式不是标准格式时。
(6)元数据本身也是数字对象,因此也可惟一标识和长期保存,也有它自己的管理数据,也应该提供相应的验证机制。
3.2 关于元数据标准的选择
描述体系的一个重要任务是规定或推荐具体的元数据标准。一些描述体系会根据不同资源类型分别规定不同的格式。另一些会按照统一的检索和交换需要来规定统一的核心格式及其扩展方式。还有一些则只是制定元数据格式选择原则,并不具体规定元数据格式。
(1)部分描述体系允许使用多种元数据格式,根据不同的资源类型推荐多个格式。例如OhioLINK对它的Digital Media Center的资源格式规定:一般科学与技术资料采用DC,人文科学、档案资料、音乐资料采用DC,生命科学和医学资源采用基于DC的扩展格式,地理信息资源采用FGDC/CSDGM格式,艺术与建筑资源采用VRA Core格式。
(2)许多描述体系或系统推荐使用一种元数据格式作为核心格式,允许在核心格式基础上按规范方式进行扩展。例如CCOP规定所有项目或者直接使用DC格式,或者提供所使用元数据格式与DC之间的规范转换;CDP等“地方性描述体系”也规定所有项目必须提供DC格式的元数据。又如,NSDL规定将DC作为核心元数据格式,并通过复用IEEE LOM元数据格式中的若干元素对DC进行扩展,构成NSDL教育元数据,规定所有NSDL项目必须使用DC或扩展后的DC,另外还可接受其他8种可利用现有转换模块与DC转换的元数据格式;另外在政府信息领域,英国e-GMF、加拿大TBITS39.1、澳大利亚AGIL、欧盟MIReG等都规定在DC基础上构建政府信息元数据格式[39-41]。
(3)有的描述体系在不具体规定元数据格式,或在推荐一种核心元数据格式时,也可能对具体领域或资源类型的元数据提出不同要求,例如CCOP规定教育资源应能使用IMS、CanCore元数据,并且建议各资源建设单位充分考虑与自己应用范围相关的元数据标准,NOF建议在描述数字图像时考虑NISO TMI等格式[42-44]。
3.3 关于内容主题描述语言的选择
描述数字对象的元数据中都有内容主题描述元素,描述体系都要求使用规范主题词表来标引主题,以保证主题描述的规范性和一致性。
(1)一般地,覆盖范围大的描述体系没有具体规定必须采用的标引词表,只是要求在描述数字对象时采用对应学科领域的标准词表,例如CCOP、IMLS、NOF等。但它们也可能对特定类别的数字资源主题描述提出应采用的词表,例如CCOP要求所有联邦政府项目在主题描述时应采用Treasury Board指南规定的词表。
(2)部分描述体系根据不同主题领域或不同资源类型推荐或规定了多种词表。例如OhioLINK对其Digital Media Center资源规定:一般科学与技术资料采用本学科的标准词表,人文科学、档案资料、音乐资料采用LCSH(一般主题标引)、TGM(图像元素标引)、TGN(地名标引),生命科学和医学资源采用MeSH(一般主题标引)、TRION(生物体标引)、GNIS(地理名称标引);艺术与建筑资源,采用AAT(主题标引)、TGM(图像元素标引)、ULAN(人名标引)[45-50]。
(3)部分描述体系规定在自己覆盖范围内采用统一的主题词表,例如多数电子政务元数据描述体系。英国e-GMF规定将建立一个英国跨部门词表(UK Pan-Government Thesaurus),澳大利亚AGLS也要求采用统一政府词表。
(4)值得注意的是INDECS元数据体系,系统分析了电子商务中知识产权保护所涉及的实体及相互关系,并在此基础上建立了元数据词典,明确定义了每个实体名称及其语义、实体间各种关系名称及其语义[51]。这些名称可以用在描述知识产权交易对象、知识产品、交易文件、交易过程等的各种元数据格式中,但它们都应该遵循由该词典定义的名称和语义,从而促进相关元数据的互操作。从一定意义上,这个关系体系已经建立了一种概念集基础。
实际上,创建和应用元数据的目的多元化致使多种元数据格式存在,很难有任何一种格式能够满足所有需要。为此许多领域已开始探索建设开放元数据体系,通过规范的元数据继承、复用、扩展和转换机制来利用已有元数据,同时支持不同元数据间的转换。
4 关于资源组织描述的标准规范
数字对象可能按照一定的主题、资源类型、用户范围、生成过程、使用管理范围等因素被组织在一起,形成实际使用的资源集合(Collections)。对这些资源集合的描述、以及对组织过程本身的描述,对于数字信息的检索和利用具有重要意义。
4.1 资源组织描述的发展与要求
由于前期数字图书馆建设的分散状态和图书情报领域对具体文献描述的传统关注,资源组织过程及资源集合的规范描述被认为是一个本地化问题而没有得到重视。直到众多数字图书馆建设项目不断涌现,一些大范围数字图书馆体系开始建立,人们才开始提出资源组织本身的规范化和资源集合元数据的标准化,并将其作为整个资源建设的一个重要任务和元数据体系的一个有机部分来考虑。资源集合描述可以有多个层次,例如:
(1)可对资源集合本身进行描述,形成一个关于资源集合本身的元数据记录,往往涉及资源内容、资源建设与管理者、资源使用与管理条件、与其他资源集合的关系等方面的数据内容。这个层次的元数据主要支持对资源集合的发现。
(2)进一步地,可对资源集合的组织机制进行描述。这些机制可以是简单的类别组织、频道划分、模块集合,或者是复杂的知识组织系统(包括分类法、主题词表、Site Maps等)[52]。这个层次的描述也是元数据,可支持对资源集合的检索和集成以及定制。描述结果(元数据)可以是文本、结构化文本、规范格式甚至计算机可读形式。
(3)再进一步地,可对资源集合的管理机制进行描述,例如对资源选择标准、资源使用政策、知识产权管理政策、隐私保护政策、资源长期保存政策等及其实施机制的描述。这些描述形成管理机制元数据,能够支持用户和其他系统有效地发现、选择和利用相应的资源集合。与组织体系描述数据类似,对管理机制的描述结果可以是多种形式,发展趋势是构建规范的、结构化的和计算机可读的管理机制元数据。
(4)再进一步地,可以对资源组织建设的过程、原则、方法及相应的标准规范进行描述,形成资源建设规范,指导资源建设。这一层次的描述虽然难以被归纳到传统的元数据中,也可能难以用标准语言来统一描述,但它对资源建设的重要性则不容置疑。
4.2 对资源组织的描述数据的要求
目前规范化工作较为成熟的是资源集合本身的描述,建立规范的资源集合描述元数据是大范围资源建设体系的一个基本要求,并往往提供一定机制来存储和检索这些元数据。例如,NSDL规定,任何一个参加NSDL的资源项目应采用DC来描述自己的集合,并将该DC记录提交NSDL的Metadata Repository供公共检索;CDL要求自己范围内的各个资源集合采用EAD来进行描述,并提供了一个EAD描述模板登记机制;CCOP规定采用RSLP CDS来描述资源集合,而且RSLP记录采用RDF描述语言[53]。其实,数字环境下的资源集合还包括网站、数据库、网络资源目录等形式,有关领域也开发了相应的标准规范来描述这些资源集合,我们也应给予必要关注。
对于数字图书馆建设来说,关于资源集合的组织机制和管理机制的规范描述(除了分类标引标准外)是一个新的领域,正在借鉴W3C、电子商务和其他领域的经验,开始考虑和试验相应的标准,例如知识组织系统方面的VocML、XTM、Zthes、ISOTMF等和管理机制方面的P3P、XACL.ODRL、PICS[54-61]等。
关于资源组织过程的指导性规范已得到越来越多数字图书馆建设项目的重视,各种形式的指南已经存在。但早期这些指南更多地是关于数字化过程及其技术标准、设备规格、工作流程、质量控制、人员培训等问题,例如RLG/DLF Guides to Quality in Visual Resource Imaging等,而现在逐步扩大到资源建设的整个生命周期,包括资源选择、描述、组织、服务、知识产权保护、资源长期保护等技术、政策、流程和管理问题。本文引用的IMLS、CCOP、NOF、CDP以及DNER资源建设指南系列等都属于这类指南,DESIRE手册和CLIR报告等更详细和具体地对主题信息网关建设中的任务、程序和规范进行了描述,而加拿大CLFSG则对信息网站的建设和形态作出了详尽的规定[62-64]。随着元数据体系的进一步成熟,这些指南本身可能通过UML(Unified Modeling Language)方式实现,其中具体内容将逐步用规范元数据表示,形成可链接、交互和扩展的信息集合,可用于配置和评价数字资源建设。
5 关于数字资源系统服务的标准规范
任何数字资源的价值都体现在它对用户的服务。但是与资源组织的规范描述类似,服务也长期被视为本地化问题而没有成为标准规范的目标。随着网络化的发展,信息服务本身已打破本地局限,它的技术因素和管理机制成为制约其实际开展和被有效利用的关键因素之一。人们开始利用标准规范来约束数字资源系统的服务机制,以保障系统服务在网络空间的可使用性和系统之间的互操作性。
5.1 系统服务的标准规范层次
数字信息系统服务涉及多个层次,粗略地可分为:
(1)接入条件,即用户要接入系统所必须具备的技术条件。
(2)数据传输条件,即用户要与系统交换数据内容所必须具备的技术条件。
(3)数据检索条件,即用户要对系统数据内容进行检索所必须具备的条件。
(4)数据应用条件,即用户要利用系统提供的数据内容所必须具备的技术与管理条件。
这里的“用户”包括第三方系统。而且,对于更加复杂的系统,还可能涉及其他的技术与管理条件,例如HL7、IEEE1073、ebXML等体系机制。当然,系统服务的标准规范主要是关心系统间的互操作,并不排斥甚至允许任何系统在本地服务中采用自己的特殊方法与机制(从而支持自主系统),关键在于信息系统在与外界交互时采用标准的服务机制。
5.2 关于接入条件和传输条件的标准规范
(1)用户服务接入条件的基本规范属于W3C
Web Accessibility Initiative的范围,WAI提出和提供了一系列的建议和参考规范,例如Content Accessibility Guidelines和User Agent Accessibility Requirements等,以保障用户能方便地获取系统服务[65-67]。根据WAI的建议,许多描述体系提出了接入条件的具体标准,例如NOF要求所有资源都应通过支持HTTP协议和HTML语言的通用Web浏览器来读取,而且应能采用WAI建议的方式来保障残疾人的使用(例如提供纯文本版)。如果系统服务需要使用其他通信协议,系统应提供Web浏览器(实际上是HTTP协议)与这些协议的接口。如果系统服务要用到额外的插件,系统应保证没有这些插件的用户仍然能使用相应的服务(作为补救措施,系统可提供获取相应插件的链接或登记服务系统)。
(2)数据传输条件主要涉及:所传输的数据内容是否能用标准语言和格式封装,封装后的数据文件是否通过标准网络协议传输,所传输的数据文件是否能被通用浏览器解读。描述体系多要求文本数据内容采取HTMI、XHTML、XML方式封装,其他内容数据采用标准格式(例如TIFF、JPEG、MPEG、WAV等),封装后的数据文件采用HTTP或FTP等标准协议传递。实际上,图书馆界也在开发基于XML和HTTP协议的元数据交换机制,例如LC的METS。
5.3 关于检索条件的标准规范
检索是数字图书馆服务的基本形式,也是制约数字图书馆系统互操作的主要因素。目前,多数描述体系除了要求提供基于HTTP/HTML的检索机制外,没有进一步规定更为详细的检索机制。但是,HTTP/HTML检索机制在支持异构系统的丰富检索功能和分布系统的集成检索方面受到较大制约,所以多种分布环境下异构系统检索机制不断被提出来,有些甚至在相当大范围内得到应用。
Z39.50是面向图书馆著录数据检索的公共标准,长期以来在图书馆自动化建设中发挥了重要作用。但由于Z39.50协议的复杂性,多数系统在具体应用它时都选择采用了其中部分功能、检索式格式、检索参数和语义定义等,从而使采用不同Z39.50功能和参数的系统仍然不能互操作。为避免这种情况,一些图书馆联合起来建立Z39.50应用协议,具体规定这些图书馆在使用Z39.50协议时必须遵守的具体功能、格式、参数和语义定义,例如Bath Profile和One Profile等[68,69]。另一方面,由于Z39.50属于专用的M2M(Machine To Machine)协议,不能方便地嵌入Web环境尤其是用户Web浏览器,所以在数字图书馆建设中并没有成为主流。考虑到这种限制,ZIG开始探索适应开放环境的Z39.50检索技术,包括基于XML的Z39.50编码方式XER[70]和基于HTTP的ZNG机制[71]。许多分布检索体系还采用或实验了其他机制,例如X500/LDAP、WHOIS++以及SDLIP和STARTS等和CrossROADS、IMESH等跨网关检索系统[72-75]。
从2000年起,OAI作为一种开放检索机制开始得到广泛重视和应用[76]。它的渊源可追溯到NCSTRAL及其Dienst协议和Handle命名体系,最后以OAMHP协议来具体实现[77]。它要求数字资源系统能够用DC元数据描述数字对象(或将本地元数据转换为DC元数据),并提供这些元数据的开放搜寻。目前NSDL通过OAMHP来建立它的核心集成系统,通过由此生成的元数据库来支持对多个数字资源系统的检索。欧洲各国也开始研究和推动OAI机制的应用[78]。
5.4 关于数据应用条件的标准规范
数据应用条件主要涉及用户系统能否方便有效地使用所检索的数据内容,这可以通过采用标准数据格式在一定程度上解决。但是许多数据内容(例如GIS数据、计算数据、统计数据、虚拟现实数据等)由于产生方式、内容构成、用途和管理要求等方面的原因,往往要求有必要的软件模块(可表现为浏览器插件)来进行处理。为了支持通用用户系统(例如通用浏览器)对这类数据内容的方便处理,有关系统正探索多种方式,包括建立共享插件登记系统和在元数据中描述所需系统软件及其链接信息,使得用户可以在调用使用数据对象时可调用相应的处理软件。不过,作为数字图书馆领域整体,目前对此还没有成熟的解决方案。反之,W3C等机构正探索用XML开放标记语言来描述这些复杂的数据内容,例如SVG、SMIL、SSML见(Speech Synthesis Markup Language)、VRML(Virtual
Reality Modeling Language)等,支持基于XML的用户系统对各种复杂数据内容的处理。
5.5 分布数字对象机制的标准规范
面对开放和分布的数字信息服务环境,数字图书馆界一直在探索基于分布对象机制的数字图书馆体系,将各种数字资源系统或服务系统视为一个数字对象,建立标准的界面定义机制,对它们的界面、功能、数据流、传输协议等进行规范描述,然后通过开放的搜寻和调用机制来实现对分布、异构和变化的数字信息系统的发现、调用和配置。最初的努力倾向于建立在CORBA、J2EE、DCOM等方式上,但现在的趋势正走向Web Services方式,利用XML对数字信息系统进行规范描述,利用登记系统实现这些描述信息的公共登记和开放搜寻,通过开放协议支持基于规范描述的信息系统调用、配置和利用[79]。正在建立的这方面的标准规范包括WSDL、WSFL、UDDI等[80-82]。数字图书馆界已经提出“开放数字图书馆”的概念,可以通过WebServices机制来更灵活地实现各种数字信息系统的方便和智能的互操作,保障各种系统在整个网络空间的可使用性[83,84]。
6 关于数字资源长期保护的标准规范
数字信息长期保护涉及保存数字比特流、信息格式、信息处理环境、信息内容验证管理机制、信息组织机制等相关内容和机制等一系列任务[85]。图书馆界及档案、博物等领域已开始提出一系列框架和规范,重要成果包括:
(1)美国RLG提出了数字资源长期保护的问题框架,比较全面地对存在问题、研究方向、可能技术和管理措施等进行了描述,并建立了长期保存责任框架[86]。
(2)美国空间数据系统咨询委员会提出了开放档案信息系统参考模型(OAIS),已被普遍接受为数字信息长期保存系统基本构架,并已作为ISO标准草案[83]。该模型提供了一个功能框架和一个信息框架,前者包括摄取模块、长期存储模块、数据管理模块、检索传递模块和系统管理模块,后者包括通过摄取模块获得的存交信息单元(SIP)、经过处理后用以存储的存储信息单元(AIP)、检索时提交的传递信息单元(DIP)。该模型已在众多图书馆的数字信息保存项目中得到应用。
(3)美国RLG/OCLC联合提出了可信赖数字存储库的属性要求,界定了符合OAIS要求的数字信息长期保存系统应该具备的基本条件和责任体系[88]。
(4)许多研究或试验项目提出了专门支持数字信息长期保护的元数据格式,例如CEDARS、PANDORA/NLA、NEDLIB格式,RLG/OCLC也根据 OAIS模型和这些格式提出了由内容信息、保护描述信息和封装信息组成的长期保护元数据结构,并已提出了自己的内容信息元数据的建议[89-92]。
各国数字图书馆建设、尤其是大范围合作项目,都在项目启动初期致力于建立数字信息资源建设的标准规范描述体系,指导、协调和约束参与项目建设的各个单元对标准规范的选择和采用。我们也应参照这一成功经验,在对我国的实际标准规范应用环境和制定程序进行分析的基础上,建立适应我国数字图书馆建设所需要的标准规范描述体系[93]。
标签:元数据论文; 数字图书馆论文; 文本分类论文; 类型系统论文; 文本分析论文; 数字转换论文; 编码转换论文; 项目类型论文;