分布式学科信息门户中网络信息导航系统的规范建设,本文主要内容关键词为:信息论文,分布式论文,导航系统论文,学科论文,门户论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中国科学院国家科学数字图书馆(CSDL)工程的一个重要任务是建立权威、可靠的学科信息门户体系。本文首先简要分析学科信息门户的基本形态和CSDL学科信息门户建设要求,然后介绍CSDL学科信息门户中网络信息导航系统的选择规则、搜寻策略、内容描述机制、组织体系描述机制、组织管理机制的设计规范及其开放描述要求。
1 学科信息门户形态
学科信息门户致力于将特定学科领域的信息资源、工具与服务集成到一个整体中,为用户提供一个方便的信息检索和服务入口。学科信息门户经历了不断发展和深化的若干形式:
(1)以网络学科信息导航为主的学科信息门户,提供权威、可靠、规范和可持续的网络信息资源选择、描述和检索[1-3],例如SOGIG(http://www.sosig.ac.uk/)、AHDS(http://www.ahds.ac.uk/)、Biz/ed(http://www.bized.ac.uk/)、EELS(http://eels.lub.lu.se/)、GeoGuide(http://www.geo-guide.de/)、MathGuide (http://www.mathguide.de/)、Martindale's Reference Desk(http://www-sci.lib.uci.edu/HSG/Ref.html)、OMNI(http://www.omni.ac.uk/)、WWWVirtual Library(http://www.vlib.org/Overview.html)等,成为相关学科领域的核心和可信赖的信息门户。
(2)以专业机构或图书情报服务系统为基础的信息门户, 根据专业机构性质或其信息服务要求,将各类资源(包括网络资源、数据库、文件系统、知识库、指南手册等)组合在统一门户下向用户提供服务,其中部分门户可支持横向整合检索、参考文献链接、用户虚拟社区等功能。
(3)基于跨学科门户检索的学科门户体系, 支持多个学科信息门户之间的整合检索,例如CrossRoads[4]、Issac Network[5]、Imesh[6]、ELT[7]系统。
(4)基于门户体系的数字信息服务机制, 将多个分布门户(主要是学科信息门户)作为整个数字信息资源的整合机制和服务渠道,让用户通过门户体系方便地搜寻、调用和利用各种不同的信息资源和服务,例如英国JICS的Distributed National Electronic Resources (DNER)[8]和美国NSF的National SMETE Digital Library(NSDL)[9]。
(5)开放数字信息服务机制, 不但支持基于学科信息门户的资源与服务集成,还进一步支持按照用户个性化需要定制信息门户,根据逻辑业务流程整合多个信息服务环节,支持多个信息门户之间的开放集成与定制[10],这方面的技术包括Open Digital Libraries、Open Linking和Open Metadata机制,而且基于分布Web 服务的开放电子商务关键技术(ebXML[11]体系和Web Services[12 ]机制)也可在开放学科信息门户中得到应用。
通过这些努力,可以通过学科信息门户来逻辑地灵活地整合、可靠地组织、无缝地链接用户所需的信息资源和信息服务,并支持用户在它们基础上的个性化集成定制,从而将一个分布和纷杂的信息空间组织成一个方便的用户信息系统。
2 CSDL学科信息门户建设
CSDL将从开放数字信息服务机制出发,建立多个分布的学科信息门户网站,提供权威和可靠的学科信息导航,整合学科信息资源与服务系统,并逐步支持开放式集成定制。具体地:
(1)提供学科信息导航:针对专业研究型用户的需要, 建立可靠覆盖国内外本学科的权威的专业信息资源的规范导航系统,采取标准元数据来深入描述信息资源,采取规范知识组织体系对所收集资源进行组织,提供多层次信息检索和浏览功能,支持分布式信息资源选择、描述和组织,支持定期数据自动检验和计算机辅助更新。
(2 )实现学科信息横向整合:在学科信息门户内横向整合本学科领域的各种文献信息资源系统(包括二次文献数据库、全文数据库、联合目录、馆藏目录、馆际互借和全文传递等相关服务系统),提供分布资源的集成界面,并逐步实现同构和异构数据库的整合检索。
(3 )实现学科信息纵向整合:在学科信息门户内纵向整合本学科领域的各种文献信息服务过程(包括文献检索、全文获取、馆藏资源获取、资料传递、数字参考咨询服务、个性化集成定制、SDI服务、 用户协作交流服务等),按照用户信息检索与利用流程实现各个资源与服务系统间的无缝链接。
(4 )支持开放集成定制:通过规范元数据来描述学科信息门户的资源对象、知识组织体系、管理机制、检索与浏览机制、系统信息架构等各层数据,通过开放语言实现描述数据的规范标记,通过开放搜寻机制支持对这些描述数据的发现和解析以及对学科信息门户的发现、解析和重组,从而支持个性化定制和开放式集成。
CSDL将通过有效的学科信息门户,将分布的数字信息资源和信息服务集成到用户桌面,并通过开放描述机制和分布Web 服务机制来支持对各门户及其内容的个性化定制与集成。
3 学科信息门户中的网络信息导航
CSDL学科信息门户中的学科信息导航系统指具有严格质量控制、提供规范和深入的知识化描述、支持集成与定制的可靠的网络信息资源组织和检索系统。它们在协调一致的设计规范和开放描述原则基础上,针对本专业研究型用户所需要的网络信息资源(包括网站、图书情报系统、文摘索引、电子期刊、科技报告、学位与会议论文、研究机构、学术团体、教育机构、学术会议、工具书、专业服务系统以及与学科科研紧密相关的其他资源系统),根据可靠的评价选择规则、搜寻搜集策略、规范组织标引机制、检索浏览机制和维护使用管理机制等,建立起可靠覆盖本领域核心资源、基本覆盖本领域其他主要资源、选择性覆盖相关学科核心资源、与其他学科信息门户有机链接的网络化资源与服务组织体系,并支持用户系统或其他学科信息门户对自己信息的搜寻、集成。
这样的学科信息门户一般具有以下特点:专业性,针对限定的专业领域,主要针对学术研究信息和教育科研用户;集成性,把专业领域所需要的各种资源与服务凝聚到一个知识体系中;知识性,根据对知识内容及其关系的分析来选择、描述和组织资源和服务,例如按照严格的评价规则,由信息专家和学科专家选择信息资源,按照标准元数据格式和标准词表进行著录和标引,按照规范知识组织体系(如分类法)进行组织;智能性,提供符合专业领域特征的检索浏览方式,并可在专业知识组织体系(词表、分类法等)支持下优化浏览和检索,而且可与语义门户(Semantic Web)结合提供智能化资源检索和结果整合功能;可靠性,通过严格选择、规范描述和持续的校验与更新,保障导航信息的可靠性和整个组织与描述机制的可靠性。
为实现上述要求,学科信息导航系统依靠一系列规范机制来保障其有效性和可靠性,例如资源选择规则、资源搜寻策略、资源元数据描述规范、知识组织体系规范、使用管理机制规范、分布式组织管理规范等。通过这些规范,学科信息门户可以准确定义和描述自己的要求与运行机制,用户可以了解和信赖学科导航信息系统,其他系统也可以通过这些规范的开放描述来实现集成与定制。
4 资源选择和资源搜寻控制
严格的资源选择是学科信息导航系统知识性可靠性的关键保障之一,它的实现依靠严格的标准设计、规范定义和流程控制[2.13-16],至少涉及以下问题:
(1)资源选择标准。 它帮助工作人员明确理解对资源范围和质量的要求,帮助用户理解和信任它的质量控制标准并在此基础上帮助用户判断通过它所获得的信息的质量,促进分布运营机制下资源选择的一致性,帮助训练新的资源选择人员。资源选择评价标准应尽可能地可操作,其中某些可量化。
资源选择标准涉及资源范围标准、资源质量标准和资源评价标准。其中:
●资源范围标准,规定什么资源可被收集组织到学科信息门户,主要涉及:a.信息内容,例如主题范围和可接受的资源类型、资源来源、内容深度、内容权威性、内容新颖性、商业化程度等;b.接入条件,例如可接受的付费条件、技术条件、注册要求、残障人利用条件等;c.细粒度要求,指资源对象应该达到的信息内容详细程度;d.元数据要求,指资源的地理与语言范围等。
●资源质量标准,规定被选择资源需达到的基本质量,主要包括:a.内容标准,包括有效性、权威性、实质性、准确性、全面性、唯一性、资源结构组织、及时性以及资源维护程度;b.形式标准,包括浏览方便性、用户支持、标准化程度、美观程度;c.处理标准,涉及信息完整性、站点完整性、系统完整性等。
●资源评价标准,用于规范化地描述选择人员对资源的评价意见,资源评价应按照前述选择标准从多层面描述评价结果,应能确定评价人及其评价资格,应使用标准语言进行描述,还可使用特定标记方式(例如星级标记)来简要表示评价结果,并作为元数据的一部分被存储和支持检索,评价信息可被写入资源描述摘要中。
(2)资源选择流程规范。 一个具有一定规模的学科信息导航系统往往有多个专家参与资源的选择评鉴,需要有严格的规范来保证选择过程的一致性。资源选择流程规范规定由什么人、按照什么标准和什么步骤、对什么方面的资源进行选择评价,以及如何处理选择评价结果。具体地,这个规范包括资源选择标准、资源选择流程步骤、选择人员标准、选择人员描述格式(以便选择过程中的推荐、指向和咨询)、选择人员分工组织规定、选择结果描述方式、选择信息交换格式(支持协作选择描述),还可规定是否接受用户推荐资源、接收程序以及对推荐资源的审查和回复程序等。
(3)资源搜寻控制。 学科信息导航系统需要严谨的资源搜寻控制机制和相应的搜寻规范来界定搜寻范围、过滤搜寻资源、协调搜寻操作过程,保障在有限的分布的人力下对高质量信息资源进行完整、及时、持续的搜寻,保证搜寻的有效性、一致性和连续性。资源搜寻过程需要规定搜寻途径和方式(即通过哪些途径和方式来搜寻和跟踪哪些资源)、建立和维护搜寻对象目录、分配搜寻责任、确定搜寻时序、确定资源智能过滤规则、确定资源搜寻中元数据挖掘与转换机制、确定推荐资源审查规则、确定与其他学科信息导航系统的合作搜寻机制等。
所谓合作搜寻机制,指覆盖领域相互交叉的学科信息导航系统间合作搜寻和共享元数据的方法,例如:a.不同导航系统分工负责交叉领域里不同主题范围的资源组织,在各自知识组织体系中都包含这些主题范围,通过直接链接对方资源元数据来相互利用各自的资源内容。b.不同导航系统分工负责不同主题范围的资源组织,相互交换和复用交叉主题范围的资源元数据,所交换的元数据往往由接收方导航系统进行再标引再组织,从而共同(往往各有侧重地)提供交叉领域的资源检索。无论什么情况,都需要商定分工搜寻范围、数据格式,并遵守共同的质量控制和著录原则。
5 资源元数据描述
学科信息导航系统涉及的描述信息包括资源对象、知识组织体系、使用管理机制、检索与浏览机制等层次,通过开放语言和规范方式对这些层次进行描述都构成元数据[17],成为导航系统元数据体系的一部分。高质量的元数据描述是学科信息导航系统知识性可靠性的又一关键保障,也需要一系列的描述规范和过程规范来定义和控制。本节主要讨论对资源对象进行描述的元数据,包括以下内容:
(1)元数据规范。元数据规范对元数据元素、 子元素及可能的限制属性进行规定。资源元数据涉及内容和管理两方面。内容元数据对资源本身进行描述,建议采用通用的或标准的元数据格式,采用规范扩展方式复用其他标准元数据格式的相关元素来描述复杂资源对象,并通过XML Namespace方式建立与元数据格式定义文件的链接。 例如对一个课件资源,可采用Dublin Core[18]描述基本属性,复用IEEE LOM [19]相关元素来描述与教学有关的属性。管理元数据用于描述资源著录过程及其控制,一般不显示给用户,可被智能代理用于自动控制某些操作。可能的管理元数据元素包括维护者、上次搜寻日期、上次元数据更新日期、上次资源变动日期、预计资源重新审定日期、资源失效日期(例如会议信息)、元数据著录者等。管理元数据可以与内容元数据捆绑在一起,但也可单独通过一定唯一标识符与内容元数据链接,可支持内容元数据的复用。管理元数据也应采用标准格式和标准扩展方式。
(2)元数据著录规范及其他控制规范[20-22]。由于资源元数据可能来自多个途径(例如资源系统本身、用户、资源选择人员、资源著录人员、其他学科信息门户、自动挖掘等),它们对元数据内容的描述方式可能有很大差异,需要通过著录规范来具体规定如何进行元数据描述。规定内容包括:a.元数据内容编码规范,例如关于日期、语言、各种名称代码、主题词来源、分类表来源、评价等级等的标准表达方式或最佳实践(Best Practices)。有关标准可用计算机可识别方式组织,以利著录过程中进行查询和自动检验。b.元数据元素、子元素或限定属性的选择方式。c.主题词、分类号选择标引原则和方式,这时将利用分类标引规范。d.文字描述内容(尤其是摘要、评价意见等)的撰写规范,例如摘要来源、摘要长度、客观性、语言风格、署名等要求。这些著录规范被称为Application Profiles。
除了著录规范外,元数据检验规范可规定如何检验元数据的正确性,元数据转换规范支持对资源内含元数据或其他学科信息门户交换元数据进行转换的方法,元数据挖掘规范支持根据资源内容自动析取元数据元素内容。
元数据描述过程规范将规定元数据描述的任务、程序、相应规范、有关审核控制机制(形成可靠的工作流),并可用开放语言进行描述而生成工作流元数据,成为元数据描述的工作流管理的基础。
(3)主题与分类描述规范。 对资源内容按照标准词表进行标引和分类,是学科导航系统知识性的重要体现,也是导航浏览和检索质量的重要保障。因此,CSDL要求学科信息门户选择本学科的权威、通用、与本学科主要检索工具一致的主题词表和分类法来对导航系统资源进行主题标引和分类,并根据网络资源特点、参照流行网络资源目录和国际上主要学科信息门户来适当扩展与资源类型有关的主题词和分类类目。所选择的词表必须在相应元数据元素的编码规范属性中予以明确,所扩展的词汇或类目必须以定义文件形式进行描述并在编码规范属性中描述和链接,标引分类过程(包括标引分类深度)作为元数据著录规范的一部分予以规定(可参照或直接引用现有的权威标引分类规范)。
6 知识组织体系描述
所谓知识组织体系,是对内容概念及其相互关系进行描述和组织的机制,支持对信息对象按照知识内容和知识结构进行描述、链接和组织。目前阶段,CSDL学科信息导航系统涉及的知识组织体系主要包括主题词表和分类表,今后嵌入语义门户(Semantic Web)和智能检索功能时,还将涉及语义网络(Semantic Networks)和概念集(Ontologies)。对于学科信息导航系统而言,知识组织体系可用于:资源标引分类,资源主题检索,资源分类浏览,与其他资源系统的检索或浏览互操作。
知识组织体系本身也是一种数据,利用开放语言和规范方式对它们进行描述也产生元数据,形成关于知识组织体系的显性知识。可通过对这些元数据的发现、交换和解析来识别、转换、甚至重组知识组织体系,从而支持分布的学科信息导航系统间基于知识的集成以及整合检索和整合浏览[23]。
知识组织体系描述可分为几个层次:
(1)说明性描述, 即在各层元数据中对所采用的知识组织体系进行说明,并通过标准URI链接相应的知识组织体系定义文件, 以便用户或用户系统了解学科信息导航系统的知识组织体系。例如,在资源元数据的主题元素中通过编码规范属性定义所采用的词表并链接定义文件,或在学科信息门户信息架构描述文件中描述导航浏览所采用的分类体系并链接定义文件。
(2)定义性描述,即直接对知识组织体系结构、构成元素、 元素间关系、构造规则进行定义和描述,所形成的描述文件作为定义文件被链接到有关说明性描述中,以便利用知识组织体系进行扩展检索。例如,NKOS联盟提出VocML[24]采用标准XML DTD方式来定义和描述叙词表和分类表及词表映射表,支持对词表的开放描述、解析、显示、交换和映射。
(3)主题图描述,即利用一定的知识组织体系, 对导航系统资源集合的主题内容结构、主题词汇、主题间相互关系以及主题与具体资源的链接进行描述,形成资源集合的主题图,可直接用于导航系统的知识化浏览,可建立资源集合的主题索引或交叉参照,还可链接复杂主题范围的分布式资源来建立虚拟知识体系,可通过主题概念与资源的不同链接在同一资源体系上建立面向不同主题体系或不同用户的资源界面。例如,XTM[25]利用XML语言标记主题图,从而用计算机可识别的开放方式标记资源集合的主题结构和链接,支持主题浏览和基于词表的智能检索。
(4)概念集描述,即建立符合学科领域要求、 用开放语言描述的概念集体系(Ontology Systems),利用概念集体系对信息资源内容进行语义标注或语义挖掘,形成基于语义的资源元数据。在此基础上,利用概念集中语义定义、语义关系定义和推理规则,实现基于语义的智能检索和浏览[26]。
实施递进建设的CSDL学科信息门户,将首先严格按照元数据规范对知识组织体系进行说明性描述,然后支持以XTM 方式逐步深入地描述分类浏览结构,逐步研究和嵌入词表定义描述,并逐步研究和嵌入基于概念集的语义门户功能。CSDL将通过标准和公开的应用规范对知识组织体系描述方式进行规定,并逐步建立相应的词表、主题图和概念集描述文件。
7 管理机制描述
学科信息门户及其导航系统的可靠运行和可持续发展取决于它在建设和运行中的有效管理以及相应管理机制的规范设计。在CSDL学科信息门户中,与学科信息导航系统密切相关的管理机制包括资源组织机制、资源管理机制、元数据规范管理机制、用户使用控制机制等,其中资源组织机制已在前面的资源选择搜寻控制和资源元数据描述中予以讨论。
(1)资源管理机制, 通过一系列规范对学科信息导航库中资源内容的管理方式和程序进行规定,包括资源链接检验规范、资源更新规范、元数据记录维护规范、资源管理流程规范等。其中,资源链接检验规范根据不同资源的变化规律规定对这些资源的可链接性进行检验的时间间隔、检验方式和报告形式,资源更新规范规定对资源内容进行重新审查及其修改描述、修改标引与分类、修改评价信息、删除等处理的标准、责任分配、方式和有关技术要求,资源元数据记录维护规范检验元数据记录的唯一性、一致性、完整性和所链接的其他信息的有效性,资源管理流程规范则建立资源管理工作流程序和控制机制。
(2)元数据规范管理机制, 主要指对学科信息导航系统各种元数据规范和管理规范(包括本节涉及的管理机制规范)本身的管理规定,具体说明各种元数据规范和管理规范的描述格式和描述语言、内容描述或编码规则、公共存放位置(以支持开放搜寻)、公共登记要求(以支持元数据规范登记系统功能)、与相关资源内容的链接要求、与相关定义或标准文件的链接要求、范例记录编制及其存放与指向要求、版本管理制度、定期审查要求、审查责任人员、管理流程规定等,从而保证元数据规范或管理规范的有序、可靠和可持续管理。
(3)用户使用管理机制,指对信息资源使用的控制机制, 包括合法使用范围规范、用户身份认证方式、使用授权方式、使用审计程序、隐私保护政策等。需要区别狭义和广义的资源使用控制。针对学科信息导航系统,狭义控制指对导航系统内学科信息资源的使用控制,广义控制可能包括对导航系统中的扩展信息、词表数据、规范数据等的使用控制。无论是否限制用户范围,都应确定使用控制规范(因为不限制用户只是使用控制的一种特例),界定什么使用主体(Subject )在满足什么条件(Conditions)下可对什么使用对象(Object)行使什么使用行为(Actions)。这里,使用主体可能是用户或用户组、 用户代理或另一系统,使用对象可以是具体资源、资源范围或数据对象,使用行为包括读、写、改、转换、析取等,而条件可能是使用登记、身份认证、阅读版权申明、填写保证条款、支付费用等。其中某些条件的验证与实现可通过链接第三方程序来具体实施,例如身份认证、支付费用等。CSDL学科信息导航系统将提供学科信息资源的公共浏览检索,但为统计使用情况、了解用户特点,需要进行(往往是隐蔽的)使用统计;对与学科导航信息相链接的用户讨论区、用户发表区等扩展信息和个性化定制等扩展功能,将限制用户范围、要求身份认证;支持各种规范数据的公共查询和阅读,但严格控制对它们的删改;另外,可能只允许其他CSDL学科信息门户和授权用户批量搜寻和下载导航资源来支持分布式导航信息组织和集成定制。
8 学科信息导航系统的开放描述
所谓开放描述,指信息系统通过开放语言和规范方式来描述自己系统的数据对象、规则、管理控制机制和操作过程,支持系统间互操作和基于智能代理的运行操作与管理。通过开放描述,将形成关于本系统不同描述对象的描述文件,这些文件置于本系统公知位置或递交公共登记系统,第三方系统可以对这些描述文件进行搜寻,按照开放语言规则进行解析,从而使第三方系统(或智能代理)能自动地识别、理解本系统的格式和规则,并在此基础上实现系统间的互操作。开放描述并不要求采用统一的具体描述格式,而是规定描述时应遵循的基本原则、底层语义和语法表示方法、标准扩展方式、标准转换机制等,因此不同系统可采用符合自己需要的不同具体方法或格式来描述实际内容,从而在保障各个系统的特殊需要和本地控制的同时,支持描述信息的开放搜寻、识别和系统互操作。
对于CSDL学科信息门户及其学科信息导航系统而言,开放描述可分为描述方式和描述信息公布方式两方面的要求,目前阶段公布方式可采用在学科信息门户Web服务器公知目录下以公开文件名存放描述文件,支持第三方系统开放搜寻;当CSDL元数据规范登记系统建立后,将描述文件提交登记系统进行公共查询。对描述方式,可有以下建议:
(1)资源元数据格式描述,采用Dublin Core作为元数据核心元素集,采用扩展元素或扩展属性从其他标准元数据集中复用相关元素来描述资源的其他特征,采用Namespace方式命名所复用的元素或属性, 采用XML DTD或RDF方式定义整个元数据集,采用XML 标记和封装输出的资源元数据。
(2)知识组织体系描述,采用DC Subject的Encoding Scheme属性描述资源元数据中标引分类词表,通过URL 链接相应的定义文件或介绍文件;采用XTM描述导航分类体系, 其描述文件在一定的使用控制下也置于公知位置机制,供授权的第三方系统(例如其他CSDL学科信息门户)进行查询和调用,支持资源元数据搜寻和整合;逐步支持用VocML 描述的主题词表,相应词表描述文件可能作为第三方定义文件在说明性描述中予以链接,支持嵌入的智能检索功能。
(3)管理机制的描述, 涉及面向内部的管理规范和面向第三方的管理规范,前者包括资源组织、资源管理、元数据维护等,后者主要是用户使用控制。面向内部的管理规范可以是文本文件或HTML/XML 文件,应存放在系统公知位置,供公共查询;但也可以用XML DTD 方式定义这些规范,一方面可支持这些规范的交换和复用,另一方面可支持对规范的自动解析和处理(当然需要尽量与国内外现有的开放描述格式接轨)。面向第三方的管理规范应尽量采用开放语言描述,例如用户使用控制可采用XACL[26]来规定具体控制规范,在涉及隐私保护时参照P3P[27]制定隐私保护的政策与程序。
(4)整体学科信息导航系统的描述, 可作为学科信息门户信息架构(Information Architecture)定义及其描述的一部分,采用WSDL[28]开放描述语言等方法,对基本信息(例如名称、URI、学科、 简要描述等)、管理者信息(例如运营者、运营系统、联系方式等)、管理机制信息(例如关于使用管理、权益保护、隐私保护、定制控制等的描述文件名称、URI、描述规范Namespace等)、组织机制信息(例如元数据格式、知识组织体系、模块结构体系以及它们的URI 和描述文件地址等)进行描述,以便第三方系统搜寻和解析,支持学科信息导航系统的开放集成定制和作为第三方服务系统的开放嵌入。
我们还将在学科信息门户及其资源导航系统的建设中继续探讨上述问题的规范建设,并希望与国内外其他单位进行合作。